AI大模型輔助破譯甲骨文？廈門大學(xué)正探索

2024-12-06 10:35:03發(fā)布來(lái)源：多知作者：徐晶晶

　　大模型正在為古文字考釋工作添磚加瓦。

　　近日，據(jù)廈門大學(xué)官方公眾號(hào)消息，廈門大學(xué)宣布該校信息學(xué)院自然語(yǔ)言處理實(shí)驗(yàn)室史曉東教授團(tuán)隊(duì)正嘗試?yán)萌斯ぶ悄芏嗄B(tài)大模型，結(jié)合甲骨文的音、形、義等多元信息，輔助專家進(jìn)行更高效的甲骨文考釋工作。

　　甲骨文距今已有三千多年歷史，是世界四大古文字之一。傳統(tǒng)的甲骨文字考釋工作極其耗時(shí)費(fèi)力，依托于專家進(jìn)行人工釋讀，多采用字形分析、辭例研究等方法，需要考古專家以深厚的知識(shí)積累和大量的文獻(xiàn)閱讀為基礎(chǔ)，結(jié)合多方面的知識(shí)去破譯甲骨字，已經(jīng)難以為繼。

　　據(jù)人民日?qǐng)?bào)援引清華大學(xué)出土文獻(xiàn)研究與保護(hù)中心常務(wù)副主任、中國(guó)文字博物館館長(zhǎng)黃德寬教授的觀點(diǎn)表示，甲骨文考釋當(dāng)前還有許多問(wèn)題沒(méi)有懸而未決，一是認(rèn)字，二是片數(shù)，三是斷代。以認(rèn)字為例，學(xué)者編纂的甲骨文字典收字已有4300多個(gè)，其中2000多字有人進(jìn)行過(guò)研究，但目前取得共識(shí)的破譯字僅1300多個(gè)，一大半字還不認(rèn)識(shí)，只能放在字典的附錄中存疑待考。

　　另?yè)?jù)大河網(wǎng)曾援引古文字學(xué)博士、河南財(cái)經(jīng)政法大學(xué)講師武亞帥的觀點(diǎn)剖析了許多甲骨文難以破譯的原因：“這些未識(shí)字或是字形未被后世傳承，或是出現(xiàn)頻率很低，或是辭例殘缺，無(wú)法提供有效信息，所以使得考釋工作舉步維艱，因此，現(xiàn)存的未識(shí)字多是難啃的‘硬骨頭’。而且甲骨文考釋不同于看圖說(shuō)話，需要從形、音、義多方面尋找證據(jù)，只有達(dá)到‘字形無(wú)誤，文義大安’的效果才算是比較可信的考釋意見(jiàn)。”

　　為了激發(fā)古文字研究工作者積極主動(dòng)地破譯甲骨文，中國(guó)文字博物館于2016年發(fā)布通告，對(duì)破譯未釋讀甲骨文并經(jīng)專家委員會(huì)鑒定通過(guò)的研究成果，單字獎(jiǎng)勵(lì)10萬(wàn)元;對(duì)存爭(zhēng)議甲骨文作出新的釋讀并經(jīng)專家委員會(huì)鑒定通過(guò)的研究成果，單字獎(jiǎng)勵(lì)5萬(wàn)元。

　　近年來(lái)，近年來(lái)AI技術(shù)迅猛發(fā)展，利用深度學(xué)習(xí)模型超強(qiáng)語(yǔ)義表示能力來(lái)實(shí)現(xiàn)甲骨文的輔助考釋，優(yōu)勢(shì)已經(jīng)嶄露頭角。

　　據(jù)介紹，廈門大學(xué)信息學(xué)院自然語(yǔ)言處理實(shí)驗(yàn)室史曉東教授團(tuán)隊(duì)研究人員針對(duì)甲骨文數(shù)據(jù)稀缺、圖像質(zhì)量參差不齊的現(xiàn)狀，系統(tǒng)整理相關(guān)古文字?jǐn)?shù)據(jù)，構(gòu)建更大規(guī)模、更高質(zhì)量的甲骨文多模態(tài)數(shù)據(jù)集，提出了“基于甲骨文多模態(tài)大模型的多元信息輔助考釋模型”的技術(shù)方案。

　　項(xiàng)目將設(shè)計(jì)一系列與實(shí)際考釋過(guò)程密切相關(guān)的任務(wù)和評(píng)估方法，如跨字體圖像映射、跨字體IDS(表達(dá)結(jié)構(gòu)的部首偏旁序列)解碼和甲骨字現(xiàn)代字對(duì)譯關(guān)系等，以有效訓(xùn)練多模態(tài)大模型。利用其強(qiáng)大的跨模態(tài)理解能力，輔助甲骨文考釋。在大模型提供的語(yǔ)義嵌入基礎(chǔ)上，本項(xiàng)目還將設(shè)計(jì)融合音、形、義、用多元信息的端到端甲骨文綜合考釋模型，綜合利用字形結(jié)構(gòu)、語(yǔ)義關(guān)聯(lián)、同音通假和用法聚類分析，開(kāi)發(fā)一種更加輕量的考釋系統(tǒng)，以適應(yīng)資源有限的實(shí)際考釋場(chǎng)景。

截屏2024-12-06 10.36.00.png

（圖源自廈門大學(xué)公眾號(hào)）　　

　　目前，該團(tuán)隊(duì)申報(bào)的“基于甲骨文多模態(tài)大模型的多元信息甲骨文輔助考釋模型”入選“探元計(jì)劃2024”“創(chuàng)新探索型項(xiàng)目”TOP10榜單。據(jù)悉，“探元計(jì)劃2024”是由國(guó)家文物局科技教育司指導(dǎo)，中國(guó)文物信息咨詢中心(國(guó)家文物局?jǐn)?shù)據(jù)中心)、騰訊SSV數(shù)字文化實(shí)驗(yàn)室、騰訊研究院、社會(huì)價(jià)值投資聯(lián)盟(深圳)與中國(guó)文物報(bào)、紫荊雜志社聯(lián)合發(fā)起。

商學(xué)院

Open Talk

AI大模型輔助破譯甲骨文？廈門大學(xué)正探索

相關(guān)閱讀

商學(xué)院

Open Talk

AI大模型輔助破譯甲骨文？廈門大學(xué)正探索

相關(guān)閱讀

AI大模型輔助破譯甲骨文？廈門大學(xué)正探索