深瞳工作室出品
科技日報記者 楊雪 策劃 劉恕 李坤
1919年,胡適在《新青年》雜志上發(fā)起了著名的“整理國故”運動,旨在“研究問題、輸入學(xué)理、整理國故、再造文明”。一個世紀(jì)過去了,整理古籍任務(wù)仍然艱巨。書卷浩如煙海,人才門檻高筑,無不令專家感嘆:“想完成全部古書的整理,可能得300年?!?/p>
而當(dāng)古老的文化載體遇見最年輕的技術(shù)手段,偉大的奇跡或許就會顯現(xiàn)。在機器學(xué)習(xí)和成千上萬志愿者助力下,一本本塵封的古書被一一翻開。
近日,“我用AI校古籍——我是‘校書官’古籍大眾智能整理計劃(2025年)”(以下簡稱“我是‘校書官’”項目)在武漢大學(xué)啟動。該項目吸納了上萬名志愿者,預(yù)計將在一年內(nèi)整理數(shù)千萬字的古籍,并將整理結(jié)果在“識典古籍”平臺上向大眾免費呈現(xiàn)。
如果說修復(fù)和整理古籍是與時間賽跑,AI就好比戴宗的“神行甲馬”,實現(xiàn)了整理速度的幾何級提升。
從小作坊到流水線,整理速度提升20倍
華東師范大學(xué)古典文獻學(xué)在讀博士生劉帥曾經(jīng)懷疑過AI。2017年他用過古籍整理軟件,感覺其頗為雞肋。然而,2024年9月,當(dāng)聽到“我是‘校書官’”項目借助“識典古籍”平臺,一個月整理了5000多萬字的古籍時,他震驚了:“我一年能整理幾十萬字就很了不起了?!?/p>
“識典古籍”整合了國內(nèi)頂尖AI研發(fā)團隊的開發(fā)能力和北京大學(xué)深厚的學(xué)術(shù)積淀。古籍整理被拆分成許多環(huán)節(jié),主要包括文字識別、文字校對、結(jié)構(gòu)整理、標(biāo)點校對等。這些環(huán)節(jié)借助AI,大大節(jié)省了人力。
打開“識典古籍”平臺,上傳一張古籍圖片后,光學(xué)字符識別(OCR)技術(shù)將對圖片中的人名、地名、書名、時間和職官,平臺可以自動標(biāo)記。對于OCR不確定的字,會用不同顏色標(biāo)記出來,便于定位這些文字,然后參照底本修改。在文字精校環(huán)節(jié),可以匹配兩套不同的文本,在文字??杯h(huán)節(jié),可以比較差異、撰寫數(shù)字校勘記……
北京大學(xué)數(shù)字人文中心副主任楊浩做過測試,AI自動標(biāo)點準(zhǔn)確率超90%,翻譯古文也達到專家水平。“古籍標(biāo)點是一大難點?!眲浾f,如今他遇到疑問,就會去對照“識典古籍”的自動標(biāo)點——有點像圍棋愛好者向AlphaGo學(xué)棋。
楊浩說,傳統(tǒng)的古籍整理以出版為目的,正確率要求極高,相應(yīng)門檻也高,即便古籍專業(yè)的學(xué)生也經(jīng)常出錯,難以獨立承擔(dān)項目。大部分項目都是一個專家負(fù)責(zé)一種書,從頭做到尾,因此效率很低。
現(xiàn)在有了機器學(xué)習(xí),AI在閱讀大量人類成果后,對古文具備了相當(dāng)?shù)摹罢Z感”。在“我是‘校書官’”項目中,AI先初步整理古籍,逐字校對,再由大眾志愿者來校對,最后把難點提交給專家?!癆I改變了工作流程,分包制度降低了門檻,傳統(tǒng)的手工作坊變成流水線工廠了?!眲浾f。
AI的應(yīng)用讓對古籍感興趣的人都可以參與進來。“我是‘校書官’”項目依托“識典古籍”平臺,由全國22所高校承辦,現(xiàn)已有數(shù)以萬計的學(xué)生報名,許多人的專業(yè)可能與古籍無關(guān)。在去年的“我是‘校書官’”項目中,志愿者按水平被分為大眾組和進階組,前者負(fù)責(zé)粗校,后者負(fù)責(zé)精校。大眾組已粗校整理了1643部古籍,進階組精校整理了共計2451萬字。
2024年9月,劉帥也參加了“我是‘校書官’”項目,頭一個月初步整理出200萬字的古籍,這是過去速度的20倍。接下來他每天抽出兩三個小時,一個月就整理完一部49萬字難度頗大的古籍,而且整理質(zhì)量很高。整個項目3個月,劉帥校點、標(biāo)注、排版、審閱的書一共191種,總字?jǐn)?shù)達500萬以上。
辨識“廬山真面目”,正確率節(jié)節(jié)攀升
把古籍從圖書館庫房搬到電子資源平臺,實現(xiàn)整理速度幾何級提升,主要歸功于AI“識古”的智慧——它能讀出黯淡缺損的古書,或解讀晦澀難辨的符號。
以前,古書很難數(shù)字化。傳統(tǒng)的文字識別軟件是為打印材料設(shè)計的。對于識別古書,機器經(jīng)?!吧笛邸保阂粋€字往往有不同寫法,字體風(fēng)格不一樣,書中還有并非漢字的筆畫符號。另外,古書經(jīng)常有折痕和破損缺字,墨跡黯淡,這也是為什么各大圖書館的古籍?dāng)?shù)字化多年來進度緩慢、嚴(yán)重依賴人工的重要原因。
培育專業(yè)“識字匠”往往需要多年時間,但有了機器學(xué)習(xí),一些有難度的辨識工作,可由AI代勞。
國際上,AI復(fù)原龐貝古卷的成就,讓人們對其潛力充滿信心。公元79年被火山灰掩埋的赫庫蘭尼姆莎草卷軸已經(jīng)碳化,無法展開。通過CT影像,人們得到了卷軸上微弱的墨水痕跡圖像,但仍然無法識別。3位年輕人通過機器學(xué)習(xí)技術(shù),從圖像里推斷出超2000個字符,連起來是一段與伊壁鳩魯哲學(xué)有關(guān)的文字。這一消息2024年發(fā)布后,讓國際古典學(xué)界非常興奮。
AI辨識那些塵封已久的破舊古籍,有點像AI修復(fù)老照片。2024年,“我是‘校書官’”項目采用AI技術(shù)修復(fù)上千年前的敦煌古卷《漢書·刑法志》。AI學(xué)習(xí)了原版古籍的文字、筆畫風(fēng)格和頁面紋理,把缺損文字按原來的字體、色彩、背景修復(fù)還原,最大程度確保與原古卷一致。另一個AI項目則補全了殘缺的《蘭亭序》清晰樣貌,其筆畫細(xì)節(jié)遵照王羲之的技巧風(fēng)格。
“我們設(shè)置了‘追溯原本’功能,有疑問的話可以一鍵找到原文進行人工比對、校準(zhǔn)。”抖音集團企業(yè)社會責(zé)任部古籍項目產(chǎn)品負(fù)責(zé)人王宇介紹,他們正在針對識別手寫字、異體字、復(fù)雜版式、插圖等精進算法,力求不斷提升正確率。
全國高等院校古籍整理研究工作委員會副秘書長吳國武說,提高AI水平還需要更優(yōu)質(zhì)的訓(xùn)練數(shù)據(jù)。比如,一些已有的整理本,版權(quán)在整理者、出版社?!耙胩嵘鼳I辨識力,需進一步建立共享合作機制,促進數(shù)據(jù)的開發(fā)與利用?!?/p>
目前,國內(nèi)已有針對甲骨文整理識別的AI項目:通過閱讀現(xiàn)存的海量甲骨文圖像,AI整理出幾千個甲骨文字符,并在不同甲骨文材料之間找到聯(lián)系,為解讀工作提供基礎(chǔ)。
實際上,越是鮮有人問津的生僻符號,越適合AI展露身手。我國少數(shù)民族先后創(chuàng)制和使用過30多種古文字,國務(wù)院公布的六批《國家珍貴古籍名錄》中,收錄了少數(shù)民族古籍1133部,國家圖書館收藏的民族古文獻就有18個文種,共34000多冊件。這些古籍的數(shù)字化和整理工作更缺專業(yè)人才,也更需要AI的加持?!斑@些材料的數(shù)字化與整理,今后有望大量依靠AI來完成。”王宇說。
加快人才培養(yǎng),讓古籍走出“高閣”
國家古籍保護中心調(diào)查結(jié)果顯示,我國現(xiàn)存20多萬種古籍,存世50萬個版本,古籍?dāng)?shù)量達3200多萬冊。我國從20世紀(jì)80年代就開始嘗試古籍?dāng)?shù)字化,但受技術(shù)、資金、版權(quán)等因素限制,海量文獻中實現(xiàn)數(shù)字化的不超過八萬種,而且許多書只是完成了初步的影像掃描,真正實現(xiàn)文本數(shù)字化的不足四萬種。
吳國武告訴記者,目前全國范圍內(nèi)專業(yè)從事古籍整理的人員僅有一萬人左右。
海量古籍面前,現(xiàn)有的整理方式如同愚公移山。古籍整理專業(yè)人才匱乏,生產(chǎn)力低下,一直是阻礙“整理國故”進程的世紀(jì)難題。
百年前胡適痛感,古籍缺乏系統(tǒng)性導(dǎo)致“一般青年,對于中國本來的文化和學(xué)術(shù),都缺乏研究的興趣”,這一問題至今未得到很好解決。古籍研究仍是冷僻的學(xué)問,許多古籍從未向大眾開放。
2022年,中共中央辦公廳、國務(wù)院辦公廳印發(fā)的《關(guān)于推進新時代古籍工作的意見》明確提出,推進古籍?dāng)?shù)字化。全國古籍整理出版規(guī)劃領(lǐng)導(dǎo)小組印發(fā)的《2021—2035年國家古籍工作規(guī)劃》則將“國家古籍?dāng)?shù)字化工程”列為四項重大工程之一,對相關(guān)工作進行詳細(xì)規(guī)劃。
“使用AI完成古籍整理的前期基礎(chǔ)工作,效果很好?!眳菄浒袮I視為合作者,而不是簡單的工具。在他看來,AI的加盟讓全民得以了解甚至參與古籍整理這件事,可以說是廣植“整理國故”的沃土。
例如,“識典古籍”平臺已免費上線超16000部古籍資源,累計吸引上億人次了解和閱讀古籍,為1300余個外部團隊的古籍整理工作提供幫助。這已成為文獻學(xué)界近年來最矚目的大事。
2024年底,著名的古籍整理工程《儒藏》與“識典古籍”平臺展開合作?!度宀亍肥切轮袊闪⒁詠碜畲笠?guī)模的儒學(xué)典籍整理工程,旨在收錄自先秦至清末的所有儒學(xué)文獻,預(yù)計總體達到10億字。它沒有采取相對容易的影印方式,而是志在整理出便于現(xiàn)代人閱讀的文本,這給參與項目的學(xué)者帶來了難以想象的工作量。引入AI后,影印文獻的整理標(biāo)注將大大加速,相關(guān)整理成果也會公布在“識典古籍”平臺上,實現(xiàn)全民共享。
“AI可以幫學(xué)者快速定位到需要的材料,還支持同時比對10個以內(nèi)的校本,讓專家把寶貴時間都用來干技術(shù)含量高的活兒?!蓖跤罱榻B。同時,“我是‘校書官’”項目的進階組志愿者,也有機會與《儒藏》工程的專家團隊交流。這個以在校生為主的項目,或許能使他們中的一些人未來走上“整理國故”的專業(yè)道路。
AI的加盟也創(chuàng)新了古籍整理人才培養(yǎng)模式。吳國武介紹,目前高校里古典文獻專業(yè)大多開設(shè)了數(shù)字人文相關(guān)的交叉培養(yǎng)課程;有7所高校已經(jīng)申請了數(shù)字人文的本科專業(yè),古籍整理也是重要方向?!敖徊嫒诤蠈I(yè)培養(yǎng)出來的人才,未來有望填補古籍專業(yè)大模型的人才缺口。”
去年以來,國內(nèi)許多著名圖書館、博物館也積極引入AI技術(shù),保護和挖掘自己的館藏古典資源。國家圖書館藏現(xiàn)存最早版本的元大德三山郡庠刻本《通志》、首都圖書館藏《皇朝禮器圖》、浙江圖書館藏文瀾閣《四庫全書》……一系列珍貴典籍,將通過AI的修復(fù),重光臨世。
面對這一波熱潮,劉帥很興奮。他希望AI吸引更多的愛好者嘗試整理古籍。“公眾對古籍的關(guān)注、熱愛和參與程度,決定了古籍整理的天花板有多高。我覺得自己站在一個時代改變的前夜?!彼f。
AI的速度,人類無法企及,劉帥也曾擔(dān)憂過自己會不會失業(yè)。但如今他認(rèn)為,AI的“識古”基礎(chǔ)是人工整理的高質(zhì)量數(shù)據(jù),無論技術(shù)如何發(fā)展,仍需要人去參透古書的秘密,使文化遺產(chǎn)薪火相傳。
“降低古籍的閱讀和整理門檻,始終是文獻學(xué)的核心目的?!眲浾f。
【記者手記】
AI激活古籍,也激活了慕古之心
楊雪
盡管高中語文不算差,古文閱讀仍然讓我頭疼。閱讀試卷上的古文節(jié)選都頗為吃力,更不敢研究繁難古奧的原本了。
古籍傳播受困于“三重門”:古字難認(rèn),古文難懂,古書難尋??上驳氖?,AI正在拆除這“三重門”,讓沉睡在藏書閣的古書,轉(zhuǎn)化成人人可享用的文化盛宴。
機器的嘀嗒聲中,一卷卷斑駁的文卷正被掃描成像,蟲蛀嚴(yán)重的刻本被逐幀修復(fù),墨跡深淺與刻本刀痕高度還原……一個古籍修整的黃金時代已經(jīng)來臨。未來幾年,將有成千上萬冊古籍被納入大眾的知識圖譜,這必將提升普通人對古老文明的認(rèn)知與感情。
目前全國古籍修復(fù)從業(yè)者僅千人。去年,國家圖書館聯(lián)合抖音集團等推出微短劇《重回永樂大典》,講述了塵封在古籍中的“書靈”輔助初入行“小白”一路成長為優(yōu)秀古籍修復(fù)師的故事。借微短劇的熱度,古籍修復(fù)師這個冷門職業(yè)被呈現(xiàn)在大眾特別是年輕人面前。
古籍修復(fù)一般需經(jīng)過10年以上的專業(yè)訓(xùn)練,用毛筆、糨糊、鑷子等工具完成“一頁一策”的修復(fù),工作很精細(xì),過程很慢。如今,AI的加持打開了古籍整理事業(yè)新局面,也希望能夠由此讓更多人看見古籍修復(fù)師“擇一事終一生”的匠人精神,給這個人才稀缺的“冷板凳”一些照拂。
AI修復(fù)和整理古籍帶來的社會效應(yīng),讓古籍真正走向大眾,降低了普通人摩挲中華文脈的門檻。不論是用AI修復(fù)敦煌壁畫,還是拼接文書殘片,不論是機器學(xué)習(xí)理解甲骨文的占卜邏輯,還是用知識圖譜重現(xiàn)《山海經(jīng)》的地理脈絡(luò),抑或是化典籍為視頻,這些工作讓我們看到《齊民要術(shù)》的勞動細(xì)節(jié),大宋汴梁城的日常生活……就像錢鐘書先生曾說過:“古典誠然是過去的東西,但是我們的興趣和研究是現(xiàn)代的?!?/p>
AI激活了古籍,也種下熱愛古老文化的種子。這些種子不再休眠于古老的地層之下,而是長成我們精神家園里的常青藤。