中國的文明史之所以可信,是因為中國人喜歡“記錄”。
從有文字記錄開始,特別是從有了史書之后,一直到今天,中國的歷史記載從來就沒有斷過,每一年這片土地上的重大事件能找到文獻記錄。
中國人不光記錄人間的治亂興衰,還記錄天文、地理、氣候、環境的變化,還能記錄下農業、商業、手工業以及各種工程技術的工藝,考古專家就能把發掘出來的遺址和文物,與史書中的一切一一對照驗證。
因為技術的進步,越是當代研究的古代史,越接近于歷史的本來面目。
中國自古以來就是最重視記錄、保存歷史文獻的文明,甲骨文、青銅器銘文、戰國帛書、秦漢竹簡……就是一部文明史。中國浩如煙海的古籍,構成了人類文明史上最豐厚,龐大,系統性的古典文獻學,古典文獻學,看起來是文科,本質上卻是“理工科”,因為它需要強大的統計學工具,需要更強大的算力和算法。
對文獻的保存是歷代學人的重任,在沒有數字化能力之前,全靠一代一代的人埋首故紙堆、皓首窮經,一個字一個字去推敲、校對、比照,越往后壓力越大,然而在全面工業化的今天,卻是人類最接近完整全面保存古典文獻的最好時代,因為我們擁有了最強的工具。
利用算力和算法去整理古籍,這正是AI最擅長的。
處理歷史文獻往往第一步需要做文本電子化處理,即光學字符識別。光學字符識別技術是將紙質文字轉化為計算機可處理的電子化表示的重要手段。近年來,包括不少科技企業、科研機構在古籍數字化上開展了不少開拓性的工作,在OCR(光學字符識別)、AI句讀、實體識別等方面積累了比較成熟的技術和經驗。以OCR應用為例,用人工智能“看”一下掃描得來的圖片,古籍上的內容就會轉錄到計算機中,并生成相應的數字文檔,效率比人工錄入提升了不止千萬倍。
OCR技術在今日頭條、抖音等平臺的圖片文字識別、字幕翻譯,以及商業化業務中的各類卡證票據及行業文檔識別等領域均有廣泛應用,這些技術可以遷移至古籍智能數字化上。
傳統數百年才能完成的數字化,在AI時代可以縮短到數年,而且機器學習正越來越強大。
再舉個例子,卷積神經網絡模型能夠從圖像中精準捕捉網格狀數據結構,中國研究團隊在使用卷積神經網絡探索甲骨文時,巧妙地運用這些模型來復原遭受嚴重侵蝕的文字圖案,深入分析甲骨文隨時間的演變軌跡,并將破碎的文物碎片重新拼湊起來,重現歷史原貌。
大家發現沒有,很多最新的歷史研究成果,都是近兩年冒出來的,這正是新技術的應用,打破了學科之間的“次元壁”,導致了成果井噴。
“我們所處的新時代,有可能實現文化典籍永久保護和傳承。”
從2022年3月開始,字節跳動與北京大學攜手合作,成立了“北京大學—字節跳動數字人文開放實驗室”,并基于此實驗室,打造了名為“識典古籍”的數字化平臺。
該平臺以公益為目的,運用OCR(光學字符識別)、句讀、實體識別及知識圖譜構建等先進技術,能夠充分利用算力和算法的優勢,讀懂古籍……對古籍進行智能化處理,使得古籍能夠以文本形式進行檢索、關聯閱讀,以及深度挖掘和高效利用。
目前,“識典古籍”平臺還開發了協作整理功能,支持以團隊的形式開展工作,節省了溝通成本。目前,該平臺部分功能已開放,《永樂大典》等超1萬部古籍上線,提供圖文對照、分詞檢索、實體百科等服務。
這個技術的核心是將人工智能和大數據應用在海量的古籍文獻上,實現古文本知識圖譜的自動生成和對古籍內容的智能化整理,讓古籍能夠以文本的形態加以檢索、關聯閱讀和深度挖掘利用。
“識典古籍”數字化平臺不僅搭建了一座古籍智能化數字圖書館,讓研究者能夠迅速找到所需資料,更在知識圖譜方面展現出強大的功能。該平臺能夠識別專有名詞及其之間的關系,如人名、地名、官名等,并嘗試提取這些實體之間的關系,轉化為圖譜形態,與百科、問答應用等相連接,實現全方位的數字化賦能。
2025年3月26日,“我用AI校古籍——我是‘校書官’古籍大眾智能整理計劃”啟動儀式暨“古籍數字化前沿論壇”在武漢大學召開。活動由全國高等院校古籍整理研究工作委員會、北京大學數字人文研究中心和字節跳動公益聯合主辦,將征集全國高校大學生和社會公眾,利用“識典古籍”整理平臺,共同參與古籍數字化整理工作。“我是‘校書官’古籍大眾智能整理計劃”已舉辦至第二屆。2024年舉辦的首屆活動吸引了1210所高校學生報名,整理古籍1643部。
字節跳動還向全社會開放了古籍閱讀檢索研究權限,在字節跳動研發的“識典古籍”數字化平臺上,讀者還有“古籍智能助手”的選項——選中讀不懂的古文原文點擊“問AI”,就可以看到這句話的翻譯,并可以用日常說話的方式,讓智能助手總結文本內容,提出可供參考的研究問題。
也就是說,現在任何人、任何學歷、任何基礎知識水平,都能夠輕松查閱古籍,都有了入門研究歷史人文的資格,當代,才是是了解歷史和文脈門檻最低的時代!
這也是互聯網技術和傳統文化的雙向奔赴,隨著人工智能技術的運用,古籍文獻中所蘊藏的古代歷史文化知識將不斷被抽取出來,構造成各種各樣的知識庫反哺互聯網文化,這將形成真正的“文化自信”。
這是一項真正造福大眾、知識平權的技術革新,不僅解放了專家的頭腦和雙手,可以讓他們去做更有價值的事,還可以讓很多普通人也可以參與到''古籍整理”中來,讓所有人都參與到“給歲月以文明”的工作中去。
中國人靜悄悄地,已經在做科幻小說中《銀河百科全書》的偉大事業了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.