古籍蘊含著中華民族的燦爛文明和優(yōu)秀的傳統(tǒng)文化,保護好古籍對傳承和弘揚中華優(yōu)秀傳統(tǒng)文化、增強文化自信有著重要意義。今年的政府工作報告中,明確提出要“加強文物古籍保護利用和非物質文化遺產保護傳承”,體現(xiàn)了對提升古籍保護水平,拓展社會參與的廣度和深度的重視。
然而從古籍保護現(xiàn)狀來看,我國目前還面臨數(shù)字化程度低、以文本形式進行數(shù)字化的古籍數(shù)量少、難以檢索等問題。數(shù)據(jù)顯示,我國現(xiàn)存古籍有20萬種。據(jù)不完全統(tǒng)計,其中有數(shù)字化掃描影像的有8萬種,而實現(xiàn)文本數(shù)字化的僅有3萬至4萬種。
為推動改變這一局面,3月17日,字節(jié)跳動向北大教育基金會提供捐贈,支持“北京大學-字節(jié)跳動數(shù)字人文開放實驗室”,研發(fā)古籍數(shù)字化平臺,利用智能技術加速中華古籍資源的數(shù)字化建設,向全社會提供公益化服務。該實驗室將調動相關資源,力爭在3年內完成1萬種精選古籍的智能化整理工作。提供開放、體驗良好的閱讀服務和基本文本庫,并借助知識圖譜等技術幫助學者高效檢索和利用古籍中的信息。同時,項目也將推出結合OCR文字識別、句讀、實體識別和知識圖譜等技術構建的一站式自動古籍智能化整理平臺,并對社會大眾免費開放,便于收藏機構、研究者、相關專業(yè)的師生和廣大古籍愛好者自行完成古籍數(shù)字化工作,加快整個行業(yè)數(shù)字化古籍資料的效率。
中國社會科學院教授鄭永曉多年來一直從事數(shù)字人文方面的實踐和理論探索,參加了古典文獻數(shù)字化早期的實踐工作。他談到,近20年來,我國在古籍文獻數(shù)字化和古籍數(shù)據(jù)庫建設方面的成就是巨大的。但目前古籍數(shù)據(jù)庫的建設也面臨發(fā)展的瓶頸。“雖然像《中華經典古籍庫》《四部叢刊》等掛接聯(lián)機字典、年代轉換、批注等各種工具,很有實用價值,但從根本上說,這些數(shù)據(jù)庫的主體內容屬于非結構化數(shù)據(jù),除全文檢索外,并不能協(xié)助學者完成其他工作。因此,對古籍文獻數(shù)據(jù)庫進行升級換代勢在必行。”
在鄭永曉看來,未來的古籍文獻數(shù)據(jù)庫應結合數(shù)據(jù)挖掘技術、自然語言處理技術以及相關學者的深度參與,在古籍詞頻分析、版本分析比較、計算機輔助句讀等方面有切實的進展。他說:“要利用人工智能、大數(shù)據(jù)等最新技術,力求完成人力所難以完成的宏觀分析和微觀比較等工作,協(xié)助學者進行多維度的統(tǒng)計、比較、分析,產生新的知識和思想。”
“我們希望與北大的跨學科團隊在OCR文字識別、自然語言處理、知識圖譜等技術領域展開全面合作,充分利用人工智能技術加快古籍數(shù)字化整理、研究與利用,讓更多的研究者、愛好者以更高效、便利的方式獲取古籍里蘊藏的豐富知識。”字節(jié)跳動有關負責人表示。(記者 于帆)
編輯:郭成