- +1
數字人文|機遇與困局之間:有關古籍“搜商”的教學筆記
近些年來,“數字人文”這一名詞越來越多地出現在人文科學者的筆下。文科從業者是否必須掌握編程技術,具備自建專題數據庫的能力?此類議題明確昭示:我們已處在“數字化生存”的特殊環境之中。即使是在傳統學科、主要采取傳統方法治學的學者,也大量引入了“e考據”(盡管未必每個人都認同這一叫法)的研究方式——借助互聯網、大數據帶來的方便,學者得以查詢到以往不易獲得的海量文獻,并通過數據庫提供的檢索功能詳盡梳理信息,從而大大提升研究效率,并發現更多新材料與新問題。
新技術的探索、掌握,并非筆者所擅,但數年前即開始參與“文獻挖掘整理研究會”的相關活動,有意識地關注相關信息、資源。

“文獻挖掘整理研究會”沙龍海報,約請黃一農教授主講“e考據的經營模式”,通訊稿見張子軾:《“大數據”與考據新生態》,《中國社會科學報》2018年12月17日。
不過,當時的關注點主要在于學習、了解一些前沿議題和最新動態,并且抱有一種可能過于樂觀的想象——新一代的學習者將輕易地進入到這一領域,至少普遍是在技術水平上迅速超越前代從業人員。
近一二年,筆者在開設“古代小說文獻學”等專業課程,及指導本科生寫作學年論文、畢業論文時,才深切意識到另外一個問題:在十多年前困擾著學習者的若干問題,現在依然困擾著相當一部分的新世代學習者。技術已有迭代、資料庫亦更豐富,但如果并不具備相應的數字理念與實踐訓練,這些變化也并不那么容易直接影響到普通人的學習軌跡。真正熟悉掌握“數字工具”開展文史研究的前沿從業者只是少數,倘若一位學習者在求學之初并未學習過系統的數據檢索知識、未受過嚴格的數字方法訓練,就會在走上學術之路的過程中面臨更多不必要的荊棘。為了避免這種彎路,在教學中通過某種方式,使學生具備最低限度的“搜商”,也許(在很多地方)是更為切實的任務。有理由相信,能夠熟練駕馭各類數據庫,通過網絡獲取學術前沿信息的求學者,其獲取信息、建立知識結構,乃至突破課堂教學局限性的能力也將超過普通同儕。在這一前提下,盡量夯實基礎、提升平均水平,可能會令某些前沿議題更具有深化、推拓的可能性。
在筆者所供職的南開大學文學院,開設有“古典文獻檢索與利用”等多門專業選修課,但不少有志于古代方向的本科生并未選修,或較晚選修,因此常常帶著比較單一的數字技巧,就進入到較專深學術問題的研究、寫作中去。即使是選修上述課程的同學,也限于個人既有的體悟,未必均能熟練掌握檢索工具,并深切洞悉數字技巧的重要性。前置訓練不足,對于某些常識性問題并沒有建立起特別深切的體會,就往往需要經過一段摸索的“彎路”,導致事倍功半。服務于個人研究的“痛感式補救”當然不失良策,但若能盡量直抵目標,則是更加理想的狀態。在前不久召開的一次院內青年教師工作坊中,筆者簡單報告了對這些問題的思考。

從不同學科教師的分享、討論來看,盡管各人面臨的具體問題不同,但這種趨勢可能并非個例。僅舉筆者親歷的幾個例子為證。
筆者指導的Z同學(本科生)就在論文寫作過程中,因缺乏核查經驗,遭遇不少彎路。

“中國基本古籍庫”《隨園詩話》局部截圖
熟悉清代文學者當然一眼可以看出問題:袁枚(1716-1798)的《隨園詩話》是其晚年著作,最早刊本應為“己酉本”(乾隆五十四年,1789。說詳包云志:《<隨園詩話>中有關<紅樓夢>一段話的前后變化——兼談<隨園詩話>的版本》,《紅樓夢學刊》,2005年第4期。)所謂“乾隆十四年刊本”根本絕無可能。這屬于根本不必核查的錯誤信息,但因《隨園詩話》所涉問題本就相對復雜,該版本信息又出自重要的數據庫,就影響了Z同學的認識。
有趣的是,X同學提交的某課程作業,則屬于應核查情況卻并未核查的。該作業引用了題署為清代王光撰寫的《史記集解》。出于對“王光”這一陌生姓名的興趣,筆者嘗試檢索了該書情況,很快發現,引文實出自流行的“三家注”。裴骃的《史記集解》何以變為“王光撰”?經核查,發現這一錯誤來源于某知名古籍庫的錯誤著錄。這一誤植當然不會影響到有經驗的學者,但對于初窺某領域古籍的學生來講,就極易因輕信數據庫信息而出現低級錯誤。相對較少的知識基礎,相對繁重的課業,也使得學生沒有余裕、沒有意識去細致核查這些問題。


“鼎秀古籍庫”《史記集解》局部截圖
上述兩個例子,可以說屬于相對“低級”的錯誤——涉及的人物、著作、文本均為常見書,故有經驗的學者比較容易辨識。但在相對冷僻的著作中出現類似的情況時,如果不細致核查原文,是不易發現的,這在現有研究中也時常出現,有時也可能誤導具備一定水準的學者。
首先要特別說明的是,筆者絕無意于否定電子數據庫的價值——相反,正是由于大量電子數據的發布(包括免費的與付費的,較權威的與稍蕪雜的),才為學者提供了相當良好的研究機遇。如前文提及的Z同學,通過廣泛運用各檢索網站,較快地在浩繁卷帙中發現清代文獻的若干問題,關注到此前學者未能細致掌握的具體文獻細節,其思考頗具學術價值。如果要說遺憾,那就是在有限的寫作時間內,由于在材料核對上花費了較多精力,未能徹底解決全部問題。這可以看出電子數據庫的“雙刃劍”性質,只有親身把握各數據庫的特性,方能自如、高效運用。這令筆者想起自己在本科階段寫作論文,也曾遇到完全相同的問題,經李小林師、楊洪升師,先后據具體實例詳細指謬、修改,才慢慢意識到問題之所在,并逐漸窺得文獻研究的某些門徑。此后逐漸發現,接觸到的友人、學生,“重蹈覆轍”者亦為數不少,這種“輪回感”常令筆者感到頗為沮喪。
由于上述細節硬傷廣泛出現,學術期刊多不允許征引電子文獻。這當然是嚴謹的做法。但在實際教學中,如何將這種規范的必要性高效傳達給學生,是筆者并未解決的問題。此外,日常運用各類電子數據庫的研究者,也時時為核查紙質引文而感到較多困擾。如何形成一種能夠兼顧效率和準確性的征引機制,如何為已有數據庫提供勘誤的良性循環(現在不少數據庫具備此類功能,但成效如何似可懷疑),使電子文獻逐漸成為可靠、可征引的對象,也許又是一個亟須解決的問題。
H同學的論文寫作則面臨另一個層面的問題:除基本的全文檢索之外,如何靈活運用相對“高階”的技巧,發現、解決某些學術難題。
黃一農先生的“e考據”研究早已展示了若干經典成功案例,如果對相關議題較富好奇心,或有較強的觸類旁通能力,應能從中摸索出一套適用于個人研究的檢索方法。筆者在不同場合多次向諸生推薦黃先生的研究,并期待著能夠通過這些已有案例,提煉出一套更易于掌握的操作指南,以應用到個人的閱讀、研究中去。認真玩索其書,有助于進一步提升個人“搜商”,這大概包括但不限于:對各類數據庫游刃有余地運用;不同關鍵詞的交替使用與熟悉篩選;行文中附錄、圖表的加意安排,等等。在一種更“科學”的“經營模式”下,可以用較強的信息素養補救個人某些領域學養之不足。
H同學在研讀清代紅學文獻時,即發現清人常常運用多種語義轉換方式解讀文本,有些典故出處、批評思路不易索解。在筆者的提示下,參考黃一農研究“干支綴日”的研究法(參黃一農:《甲戌本<石頭記>中“甲午八日”脂批新考》,《湖北大學學報》2017年第1期。),運用“中國基本古籍庫”的高級檢索方式,及“搜韻網”自動箋注、對仗語匯等相關功能,較快地熟悉了相關文本,并發現了若干新材料,且深化了理論思考——通過“大數據”有助初步窺得古詩詞注釋的基本門徑,并逐步開始理解典故、詞語注釋的諸多核心問題。在此基礎上還可發現,“語義轉換”的任意性,及某些語詞的類似性,可以使材料服務于先入為主的成見;但如善于取用、甄別,也可看出前人書寫所依據的具體文化脈絡。

通過搜韻網“對仗詞匯”功能,可以展開對某些對仗語例的分析,在此基礎上可以較快找到新的思路和觀點。善用這些數字工具者,還可對新世代的索隱、考據、互文之學提供不同的理解思路。
黃一農先生曾經在主辦的“e考據與文史研習營”《招生公告》中指出:
當e考據有可能提供學者一座能爬上巨人肩膀的新型“電梯”時,如何睜大眼睛看得更遠,并講出一個精彩的故事仍屬不易。
一面,是在看似“無獻可征”之處打撈出更多有意義的材料;另一面,則是逐漸培養駕馭復雜紛繁文獻的能力。對紙質文獻與電子文獻均有比較全面的認識,兼顧人腦與機器的不同特質,這大概是給新世代研習者的任務。

某些文史小工具的運用也有助于高效解決問題。在筆者主講的“古代小說文獻學”課程中,不少同學提出在撰寫書籍提要、研討遞藏源流時遇到困難,筆者推薦了“字鑒”微信小程序、“國學大師”網站等,某些問題由此得到較輕易的解決——普通人可以在幾分鐘的時間內,釋讀絕大多數不認識的印章文字,以最大限度地掩蓋缺乏文字學常識的短板。這尤其有助于青年研究者避免寫作硬傷,而且有可能揚長避短,做出“后發先至”式的研究。

圖1:某古籍上無法辨識的鈐印文字

圖2:L氏以拙劣字體粗略摹寫后,通過“字鑒”微信小程序識別的結果

圖3:通過“國學大師”等網站進一步核查相關信息,解決問題的效率要高于傳統查閱方式
如何通過網絡獲取各類文史信息,建立討論群組,形成個人的知識-交游網絡,也是一個值得思考的問題。筆者在讀博士期間,一度對已故青年學者林嘉文(1998-2016)的研究歷程頗感興趣。林氏在中學業余時間自學歷史,撰寫了《當道家統治中國》(2014)、《憂樂為天下》(2016)兩部著作,并且引發了相當不錯的學術反響。僅就后一書的附錄及出版座談發言內容看,林氏乃是以中學生身份,參與“預流”之研究,且不僅文筆老道清通,見解亦多可圈可點之處,學者評價“完全符合學術規范,言必有據,注文長達6萬多字,占全書五分之一以上。博覽群書,引證古籍127種,今人論著311種,其中外國著作四十余種。充分吸收了國內外有關范仲淹慶歷新政的成果,對于有爭議的問題,作了認真的分析,提出取舍意見。其治學態度是嚴肅認真的。其水準放諸當今有關范仲淹慶歷新政較為優秀的論著之列,也是當之無愧的”(李裕民先生序)。據林氏自述,除讀書自學之外,較大程度上依賴于網絡學習,尤其是在微博上接觸相關學者與學術信息。值得注意的是,林嘉文的自學經歷絕非個例,而具有相當的代表性。以筆者本人的問學歷程來看,網絡的影響(包括信息獲取、同儕討論等諸多方面)也已高于傳統的線下學習方式。在古代文學研究領域,也不乏“非科班”學者,能夠在現有網絡環境下,與圈內學者保持聯系,掌握各類數字資源,從而完成相當扎實的學術研究。很遺憾無法想象接受了系統學術訓練、又有機會系統運用各種數據庫的林嘉文將會有何成就,但僅就此吉光片羽也足以看出,新世代青年人的成學之途已經相當多元,傳統的知識體系、培養方案或亦應隨之調整。數字素養有助于普通學人做出超越前賢的深度探索,且其并不會遮蔽那些“充實而有光輝”的努力。
毫無疑問,古典文獻的數字化程度正在不斷刷新歷史新高,學者似乎沒有理由抱怨資料不足或者難以獲取之類的問題。但是,依然要指出的是,“數位落差”一直存在且可能愈演愈烈。夸張一點說,這甚至導致“最低限度”都處在難以保障的環境之下。能否有機會使用各類付費數據庫,極大依賴于所處研究環境之不同,而學術研究的“上限”與“下限”或受其制約。筆者曾根據部分高校圖書館官網的公開信息,對不同學校的數據庫資源做過不完全統計。以文科見長的N大學,2020年度在圖書館官網檢索可得中文數據庫為61個,2021年度則為40個,即使考慮到網頁顯示等問題,也可推斷N校的數據庫存在某種瓶頸——作為參照,不少國內知名大學所購買的中文數據庫在150個左右。筆者供職的南開大學,古籍、文史數據庫購買已算為數不少,但像“中華經典古籍庫”(收錄約十億字以上的整理本古典文獻圖書)這樣極為重要的古籍數據庫就并未購買;與筆者研究領域直接相關且更為專業的中國俗文庫、歷代別集庫等,當然也很難抱有期望。盡管這些困境可以通過個人購買、委托查詢等方式盡量擺脫,但獲取信息的效率已然較低,相關技巧性的“門檻”也并非人人都能輕易邁過,或有意識去跨越。另外,即使是同一個數據庫,不同機構購買的數據量也可能是不同的,這一問題往往不易被使用者察覺,背后的數字鴻溝可能更不易詳細研判。
經費更為緊張的高校,則往往連“中國基本古籍庫”(18億字以上古籍原文)、“讀秀”(10億頁以上圖書原文)這樣的著名數據庫也未能齊備。對部分重要數據庫不再續費購買,對研究者當然也有直接影響。不客氣地說,僅從數據字數的多少來看(這已經將很多重要的數字人文研究工具排除在外了!),當下的數位落差已經動輒以億字、甚至十億、百億字為單位,高位者所面臨的數據困境,在低位者看來可能是“何不食肉糜”,而筆者聞見所及,似乎也沒有太多學人對高校購買數據庫的“平均值”或“中位數”加以深入統計、探討。
而公開獲取類的數據庫、網站,也常常面臨另外的問題。比如,很多網站存在相當的不穩定性——“國學大師網”近來的特殊狀況及引發的討論,當然是一個有意味的顯例。如何在教學、研究中摸索出一種相對平衡的模式,盡量具備解決數位落差的能力,也許還值得進一步努力,并經由某種可操作的方案普惠及更多的學習者。
本文所談,并不擬、也無力系統論述全部問題,只是希望揭示一點:即使只從純粹的文獻檢索“術”出發,“見過于師”也是需要訓練的。如何使學術研究的初學者快速提升“搜商”,并充分利用年輕研習者易于接受新技術、學習精力充沛等優長,使之達到甚至超越教師的文獻檢索水準,有效方法還需進一步探索。這是否屬于另一種版本的“生活在樹上”?筆者難以判斷。惟入職前夕,曾面聆Y先生之教誨:“我們落后了,但不希望看到我們的學生還是落后的,要想法走出來”——假若教師對某些文獻研究前沿都并不了解,又如何提醒學生具備相應意識呢?于是,時時念及個人于學海所窺極淺,在諸多重要領域亦未能預流,故不敢不常葆惕厲之心矣。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司