該模型具備長思維能力,并能在推理過程中進行自我反思和糾正。
多知11月29日消息,近日,上海AI實驗室展示了自主生成高智力密度數(shù)據(jù)、具備元動作思考能力的“模型”等一系列創(chuàng)新進展,并開放強推理模型書生InternThinker試用體驗。該模型具備長思維能力,并能在推理過程中進行自我反思和糾正,從而在數(shù)學(xué)、代碼、推理謎題等多種復(fù)雜推理任務(wù)上取得更優(yōu)結(jié)果。
為高效提升模型的推理能力,InternThinker采用了更接近人類學(xué)習(xí)方式的路徑。
人在學(xué)習(xí)解決復(fù)雜推理任務(wù)時,并非從海量的樣本中進行單點知識的學(xué)習(xí),而是思維模式的學(xué)習(xí)——在解決問題的過程中,通過回憶相關(guān)知識點,對正確的解題過程進行理解、記憶,對錯誤解題等過程進行反思和修正,即對自我的認知過程進行覺察和調(diào)節(jié)——該能力也被稱作元認知能力。元認知理論的相關(guān)研究發(fā)現(xiàn),通過顯式地引導(dǎo)和感知人在解決問題過程中的思想模式,可提升復(fù)雜任務(wù)的學(xué)習(xí)和解決效果。
受元認知理論的啟發(fā),研究團隊設(shè)計了一系列元動作來引導(dǎo)模型解決問題的過程,如對問題的理解、知識回憶、規(guī)劃、執(zhí)行、反思、總結(jié)等。模型在面對復(fù)雜任務(wù)時,會顯式且動態(tài)地選擇元動作,再進一步展開相關(guān)動作的具體思維過程。通過這種設(shè)計,利用部分訓(xùn)練任務(wù),可強化模型對關(guān)鍵元動作組合的使用,顯著提升模型學(xué)習(xí)效率。
因此,InternThinker模型在解決復(fù)雜的數(shù)學(xué)題上具有優(yōu)勢,它能獲取已有強推理模型的思維鏈數(shù)據(jù)并進行蒸餾。
目前,InternThinker模型仍在持續(xù)迭代中。