您現在的位置: 河大新聞網  >>  媒體河大  >> 正文 選擇字號【四方集運電話】

AI驅動的甲骨綴合 ——附新綴十則

【新聞作者:河南大學計算機與信息工程學院 張重生  來自: 2020-11-3  已訪問: 責任編輯:王宏宇 】

河南大學甲骨文研究有着十分悠久的歷史,董作賓、孫海波、朱芳圃、石璋如、尹達、鄭慧生等著名甲骨學者,都曾執教或就讀於河南大學。而今,王藴智教授帶領下的河南大學古漢字研究所繼續孜孜矻矻地堅守在這一領域,承續着這一光榮傳統。

將計算機與甲骨文研究相結合,是河南大學的優良傳統。1987年河南大學計算機系鄭逢斌參與研發了第一個甲骨文信息處理系統,而後鄭慧生與鄭逢斌等人又合作設計了第一套形意結合的甲骨文輸入法,這在當時的甲骨學界是非常領先的水平。

近年來,河南大學對甲骨文與計算機結合的工作給予了大力支持。2019年6月23日,門藝、張重生邀請了多位甲骨學界的專家,在河南大學召開了人工智能與甲骨文識別專題研討會(圖1)。經過與專家們的諮詢商討,會議確定了甲骨綴合與甲骨文識別兩項任務作為今後主要的發展方向。其後,又邀請了首都師範大學、西南大學和廈門大學的甲骨文專家和計算機專家召開了兩次“甲機會”,確定了人工智能(AI)驅動和人機耦合的綴合思路,並對相關技術路線進行了詳細論證。

圖 1 人工智能與甲骨文識別專題研討會(河南大學)

利用計算機輔助甲骨綴合的實踐由來已久,很多從事甲骨綴合的學者都曾利用計算機來提高綴合效率。但計算機參與的甲骨綴合與人工智能(AI)驅動的甲骨綴合是很不同的,過去的計算機綴合模型都沒有起到切實的綴合作用,也沒有幫助甲骨學家減輕綴合工作的勞動強度。因此,我們確定的首要目標是研發一個切實可用的綴合模型。而近年來人工智能(AI)技術的突飛猛進,讓我們有機會更接近這一目標。

本項研究前期,我們嘗試讓綴合模型模擬專家的邊緣密合判別能力和甲骨形態辨識能力,首先對卜骨拓片圖像進行專門的技術攻關,以期讓模型在一定的範圍內(前10項備選甲骨)達到較高的綴合召回率。2019年底我們完成了兩個版本的甲骨綴合模型,並進行了不斷的優化。通過將學界已經綴合的250組甲骨混入隨機4000片甲骨中進行了實際測試,模型結果前10項的復綴率達到99%以上(圖2)。

圖 2 綴合程序中復綴甲骨的界面

基於此,2020年1月我們將相關成果提交給了人工智能國際頂會IJCAI-2020(Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence,),並被大會錄用發表(圖3)。

圖 3 張重生等發表在人工智能頂級會議IJCAI-2020上的論文頁面

2020年8月,我們邀請了首都師範大學和河南大學的師生對部分甲骨材料進行了整理,展開了實際(實質性)的甲骨綴合工作。通過半個月的協作,我們的模型再次得到了優化,使得實際運用中的前10項復綴率依然保持在85%以上(未能復綴的部分主要是邊緣不密合,而主要依靠殘字、殘辭而綴合的類型)。並新綴了一些甲骨,此摘選十則,以就教於方家:

第一則:合集7615正反+旅藏769正反(邊緣相似度0.91708)

第二則:拼集65+英藏1168(邊緣相似度0.63356)

第三則:合集165+合集2873(邊緣相似度0.625000)

第四則:合集2824+合補5175(邊緣相似度0.61417)

第五則:合集7494+合補3222(邊緣相似度0.54804)*

*注:本則綴合過程中,發現合集7494與合補3222、合集13242的密合程度非常相仿,故懷疑為同一片甲骨。

第六則:合集14981+合集15543(邊緣相似度0.56198)

第七則:北珍1453正+合集3007(邊緣相似度0.55454)

 

第八則:合集17750+合集13132(邊緣相似度0.66666)

第九則:合集7483+合集6541(邊緣相似度0.73029)

第十則:合集12344+合補3636(邊緣相似度0.88461)

下一步,我們將盡快把綴合軟件(定名為“綴多多”)公開,以方便學界共同利用這一工具,產生更多的綴合成果。同時,我們還會進一步發展相關技術,一方面嘗試模擬專家對殘辭殘字的研判能力,進一步縮小範圍。另一方面,研究龜甲部分的綴合方法,爭取在龜甲部分也能取得一定突破。

我們希望在不久的將來,在“綴多多”等AI甲骨綴合技術的幫助下,人工智能的運用可以讓甲骨學者的綴合模式發生一個根本性改變,並最終完全解決這一問題。

錄入時間:2020-11-03[打印此文]【四方集運電話】[關閉窗口]