- +1
專訪斯坦福東亞圖書館館長:數字時代不比拼陳寅恪式的記憶力
在數字化浪潮席卷全球的今天,電子搜索工具的普及使得從浩如瀚海的資料中獲取信息變得易如反掌。在數據庫的幫助下,動動手指就能全文檢索《二十四史》、足不出戶可以看到全國的地方志,古今中外眾多研究成果垂手可得……那么,以史料收集與處理為基礎的歷史學研究,門檻降低了嗎?數字時代給研究者帶來的是更公平的機會嗎?在澎湃新聞的采訪中,美國斯坦福大學東亞圖書館館長楊繼東給出了否定的回答。

作為1980年代的歷史系學生,楊繼東自詡經歷過用卡片整理史料的“手工作坊時代”。他于1991年畢業于北京大學歷史系,1994年赴美國賓夕法尼亞大學攻讀亞洲與中東學博士,曾任賓夕法尼亞大學圖書館中文部主任、密歇根大學亞洲圖書館館長,自2013年開始任斯坦福大學東亞圖書館館長?,F在的楊繼東是數字化研究工具的深度使用者,也因工作關系每天與各大數據庫公司打交道。他認為,非電子化時代之前的資料都將電子化,但變革遠不止于此。那么,數字技術已經或將要給歷史學帶來什么變化?
電子檢索的時代來臨之前,“宅男宅女”沒法做研究
澎湃新聞:您于1984-1991年在北大歷史系學習,當時的歷史學訓練和歷史研究主要借助哪些工具?
楊繼東:那時北大歷史系本科分世界史、中國史兩個方向,我讀中國史;后來研究生導師是張廣達先生,學的是唐史。北大的史學訓練是嚴格而傳統的,比如學唐代制度史,就得從《新唐書?百官志》、《舊唐書?職官志》、《通典》、《資治通鑒》讀起,做一些非?;A的工作,做論文也是你寫中書省、我寫門下省,都是這種訓練。
查閱典籍基本上要去圖書館,但當時一些典籍有索引,相對便利些。上世紀20-30年代西方的索引(英文Index,也譯為“引得”)引進中國后,產生過一個“索引運動”,實質上是學習西方社會科學的研究方法,給中國的古籍做索引。1949年以前,位于北京的哈佛-燕京學社、中法漢學研究所等機構都為中國古籍做過索引,如哈佛-燕京學社的引得編纂處就為《春秋》、《左傳》、《大藏經》、《水經注》等出過索引,后來在上海出版?!抖氖贰返臉它c本,每本書也都有人名和地名索引。這對我們來說是非常有用的工具,類似于電子時代的全文檢索。

《墨子引得》,哈佛燕京學社引得編纂處,1948年5月

歷史學者洪業(1893—1980),曾主持哈佛燕京學社引得編纂處工作二十余年。
澎湃新聞:您從什么時候開始利用數字工具?常用哪些數據庫?我們知道您現在除了圖書館工作外還在進行漢唐歷史研究,也是一個電子設備的深度使用者。
楊繼東:1994年我去美國讀博士,感覺跟國內有很大不同。當時國內還很少人有自己的電腦,更沒聽說過e-mail,只有一些科技工作者和工科研究者可能了解。我申請美國學校的推薦信等材料,都是用打字機打的,有些甚至手寫,郵寄到美國。我剛到美國,學校就讓我辦理e-mail賬號,我當時還納悶什么是e-mail?
當時美國的圖書館已經有在線目錄,和現在的系統相比當然比較落后,有點像純文字的DOS系統,要輸入指令,但在學者中已經被廣泛使用,是查資料必備的電腦知識。使用電腦的趨勢到1990年代末就很明顯了。
大陸的崛起也很快,做了不少全文古籍數據庫,比如直到現在還很流行的“國學寶典”。臺灣制作的中文全文數據庫也被北美中國學界廣為利用?!爸醒性骸笔氛Z所開發的二十五史數據庫、“漢籍電子文獻”數據庫的部分內容(包括十三經、二十五史等)于1990年代向全世界的學者免費開放,在很長時間里成為北美學者研究古代中國的首選電子資源。
以中國古代史為例,常用的數據庫有兩類:一是原始資料的數據庫,如《二十四史》、《全唐文》、《大藏經》等,二是研究成果的數據庫,如期刊、電子書等。宋朝以前的古籍文獻,現在基本上都有電子版,除了少數幾種——甲骨文、出土漢簡、敦煌文獻,其中敦煌文獻有部分實現了數字化,但還有一些因為很多字在當前的字庫里還沒有,所以暫時無法處理。至于宋朝以后的原始資料,內容龐雜,但我相信將來一定會全部實現電子化。

澎湃新聞:數字技術對您個人的歷史學習和研究帶來了哪些變化?
楊繼東:1990年代我剛到美國費城賓夕法尼亞大學讀書的時候,在寫論文的階段幾乎每個周末都要去普林斯頓大學,因為那里收藏的中文、日本資料非常齊全,連一些地方性的小學院的學報都有。我有時候坐火車去,有時候搭我的老師梅維恒(Victor H. Mair)的車去,因為他也要去找資料。時間很緊,每次要提前在網上查好目錄,看自己需要復印什么資料,一到那里就從早到晚開始復印,一天印幾百頁。由于普林斯頓的東亞館只有一臺復印機,我經常要跟我老師“搶”,但我“搶”不過他。
到了1990年代后期,我就突然發現沒必要去了,因為清華同方的數據庫已經出來了。日文的《中國關系論說資料》把整個研究中國的期刊匯集成冊,每年一輯,也出了光盤版,賓大都買了。
這確實是非常明顯的變化。以前你足不出戶沒法做學問,現在在家里做宅男宅女也可以研究學問。
美國歷史學界領跑數字化,中國大陸是后起之秀
澎湃新聞:美國學術研究機構對原始史料的數字化工作是何時起步的?
楊繼東:美國相當早,1980年代電腦剛剛普及的時候就開始做了,包括一些研究中國的學者,也開始利用電腦處理原始資料。
研究宋代社會經濟史的郝若貝(Robert M. Hartwell, 1932-1995)從1970年代開始就和他的夫人、學生一起,陸續將大量宋代人物傳記資料錄入電腦,并開發出一種分析研究這些數據的軟件。
與近些年來開發的那些只能提供字詞檢索的古籍全文數據庫不同,郝若貝數據庫中的人物資料多是經過研究者在閱讀理解原始材料以后輸入的,在每個歷史人物下都列有一套比較完整的信息,比如生卒年月、籍貫地望、親屬關系、官場履歷等等。學者可以利用這些數據做歸類和分析。
郝若貝夫婦去世以前將這套數據庫遺贈給哈佛大學。在包弼德等人的領導下,數據庫的內容和軟件不斷更新,近年成為哈佛與北京大學、臺北中研院史語所等機構共同啟動的“中國歷代人物傳記資料庫項目”的基礎。
我用過這個數據庫。它和二十四史這類古籍數據庫不同的地方在于,能夠顯示很多相關聯的東西,比如一個人不同的字號、官銜、地域、親屬聯系等,都做了鏈接,這些鏈接就給研究者很大的幫助。還有地理信息的標引,如果你要在地圖上找這些人都能找到,精確到某個縣某個村。這就比其他古籍數據庫更進一步。
當然1990年代以后做中文文獻數據庫的主力是在中國大陸。

目中,由453人與新儒家朱熹來往的2717封信中歸納出的社會網絡關系。圖片來自CBDB網站。

澎湃新聞:對歷史學界影響較大的中英文數據庫有哪些?
楊繼東:最常用的就是JSTOR,它包含了北美一些最重要的亞洲研究刊物,比如《哈佛亞洲學報》(Harvard Journal of Asiatic Studies)。JSTOR原本是非盈利性機構,它最早是從我以前所服務的密歇根大學發展起來的。其特點是只收錄歷史過刊,一般是3-5年以前的研究成果。進入21世紀以后,JSTOR還將工作范圍擴展到歐美地區的主要藝術博物館、圖書館,將這些機構搜藏的大量藝術品拍攝成數字照片,并在此基礎上建立ARTstor圖像資料庫。資料庫的中國藝術圖像來自紐約大都會藝術博物館、舊金山的亞洲藝術博物館、英國圖書館的主導的國際敦煌項目等等。

而收錄最新的期刊的全文數據庫有Project MUSE,還有ProQuset,歐洲也有幾家數據庫。
ProQuest公司總部在密歇根州安阿伯市。檢索美國大學的博士論文,最常用的工具就是ProQuest Dissertations數據庫。美國幾乎所有大學的博士論文,除了在本校圖書館或檔案室有留底外,還要向ProQuest公司寄送一份拷貝。但此庫只提供索引,閱讀全文需購買。
除了刊物以外,越來越多西方學術專著也開始以電子和印刷兩種方式出版。比如谷歌(Google)與密歇根、哈佛、斯坦福、牛津大學以及紐約公共圖書館合作推出的圖書數字化工程。這個電子圖書館包含數百萬各種語言的書籍,其中1923年以前發表的書籍已經進入公有領域,可以在線閱讀,1923年以后的出版物可以全文檢索。如果想查閱20世紀30年代以前的西方報道和研究中國的書刊,可以利用這一圖書館。在中國國內利用谷歌檢索有一定麻煩,但以谷歌圖書館為基礎建立起來的 HathiTrust Digital Library 似乎暢通無阻。這是目前美國最大的線上圖書館,它對版權保護的辦法跟谷歌圖書館一樣,即以1923年為界做不同的處理。
另一方面,來自中國的電子學術期刊和書籍也在北美逐漸普及。中國大陸的清華同方、萬方、超星、阿帕比等企業的數字信息產品,以及港臺電子學術期刊,都開始被北美學者使用。

澎湃新聞:您負責的斯坦福東亞圖書館如何選擇購買文史類數據庫?目前采購電子資源和紙質書的比例分別是多少?
楊繼東:具體買什么數據庫由懂得中文、日文、韓文的館員跟師生聯系,了解最新學術動態,按他們的需求采購新的資源。我們每年出錢,由數據庫的供應商負責維護數據庫。
東亞圖書館每年約投入130—140萬美元采購中、日、韓三個語種的數據庫。我此前在北京開會驚訝地發現,北大圖書館每年用來采購中文圖書的經費跟我們差不多。我認為需要呼吁增加國內圖書館的投入。美國超過20所的大學圖書館的資源采購費用達到2000萬美元,哈佛一年有4000—5000萬美元,斯坦福有2500萬,這還不包括醫學圖書館、法學圖書館和商學院圖書館。中國一流大學的圖書館每年的采購費才3000—4000萬人民幣,這是沒辦法比的。
你別看進圖書館大樓的人越來越少,用圖書館資源尤其是網上資源的人還是很多的。
至于電子資源和紙質書的比例,如果是美國的醫學院和理工科圖書館,電子資源能達到95%甚至更多,基本可以實現“無紙化”。但文科圖書館80%的經費還是用在采購紙質書籍上,包括斯坦福、哈佛這樣的學校。這個比例可能會下降,但我個人覺得下降的余地不太大。
這涉及閱讀習慣的問題,很多人還是覺得要從頭至尾閱讀書籍的話,紙質本是最舒服的。很有意思的是,現在美國的中學生可以選擇教科書用電子版或紙質版,但是絕大部分孩子還是選擇紙質書。那些厚厚的精裝本裝在書包里很沉,但色彩鮮艷、翻頁容易,比如我讀高中的女兒就用紙質本教材。
這里還要區分書和刊。期刊將來會全部電子化,因為閱讀一篇文章的時間遠遠少于閱讀一本書,而且研究者不一定要閱讀整篇文章,他可能只是快速瀏覽,找個頁碼引用一下。所以期刊電子化的程度將遠遠超過書籍。
很多圖書館都在逐漸下架紙質期刊,比如加州大學系統,它建立了一南一北兩個倉庫,將所有紙質版刊物劃歸這兩個倉庫,每個倉庫只留一個備份,其他的全部不需要。因為保存這些東西是要花費大量資源的,需要空間、人力等等。而數據庫的維護都是公司在做,圖書館向它們付年費就可以了。
據我所知,中國的大學圖書館大部分經費都花在購買數據庫上,特別是購買理工科的外文數據庫。像北大圖書館購買中文圖書的經費只占1/10左右,這個比例在其他圖書館大概也差不多。所以這些錢都被外國做電子期刊的公司賺去了。

歷史研究“扁平化”了嗎?社科文獻學面臨轉型?
澎湃新聞:研究資源的電子化,是否降低了歷史研究的門檻?過去學者爬梳史料主要依靠卡片,要看《四庫全書》等大部頭著作需要去圖書館。而現在,許多典籍已經數字化,主題設定下的資料搜集可以利用計算機搜索完成。
臺灣科技史學者黃一農就倡導“e考據”的研究方法,利用電子資源迅速檢索大量信息,短短幾年內便在他未曾涉足過的“紅學”領域做出了不少研究成果。他認為文科研究會產生天崩地解的變化。您怎么看?
楊繼東:研究門檻確實在降低,以前可能只有大家才能研究的東西,現在一般學者都能研究,甚至不是科班出身的人也能研究。在數字時代之前,學者們就在比拼記憶力,比如陳寅恪在失明之后,仍然能憑借記憶通過口述做研究,這讓人十分佩服。但是電子時代這不重要了,一個普通研究者獲得資料的能力可能就遠遠超過陳寅恪。
資料的獲取和檢索越來越方便,所以對找資料的能力要求會降低,尤其是像《二十四史》、《全唐詩》、《全唐文》、《四庫全書》這些比較大眾化的史料都擱在那里大家都能利用。這種檢索資料的能力以后不會成為衡量一個學者學術水平高下的主要指標,但是,其他方面的能力,比如理論、學識,包括歸納、分析到最終得出結論的能力,這些東西是無法替代的,也是無法通過搜索數據庫而習得的。這些能力還是需要大量訓練來培養。
而資源的豐富也有弊端,例如很多人用檢索代替閱讀。我讀張廣達先生的研究生接到的第一個任務是把《資治通鑒》從頭到尾讀一遍。當時覺得很累,但是讀完之后收獲非常大,讀了有將近一年的時間。如果純粹依靠檢索,不通過系統的閱讀,你很難發現很多重要的問題和新的研究領域、研究興趣。所以在電子時代,強化閱讀是一個很大的挑戰。
澎湃新聞:數字時代使得學術研究“扁平化”,是不是也會產生大量學術垃圾?
楊繼東:社會公眾對學術資源的接觸和了解確實比以前容易得多了。你要是真的想做學術的話條件確實比以前好很多。這個趨勢我們應該歡迎,它能讓學術研究有更多的受眾、更多的讀者。
但現在有一個問題就是有些數據庫里文章同質化很嚴重,甚至還有很多互相抄襲。
所以舊的門檻消失了,新的門檻又出現了,你怎么樣識別那些優秀的原創性的學術成果,這就是很重要的能力了。比如你研究唐太宗,你在清華同方里面搜索唐太宗能找出很多很爛的文章,把這些文章全部下載下來沒有什么用處。那你就要靠你自己的能力去檢索和篩選那些優秀的文章。所以學術上的“大同社會”還很遠。

澎湃新聞:現在我們做的只是把資源電子化,數字檢索史料也有局限,除了簡單的文獻檢索和查找功能以外,有沒有依靠技術對史料做進一步分析的可能?比如有人通過電腦技術分析詞頻來研究紅樓夢的作者。
楊繼東:現在歐美有一種說法叫“數字人文學”(digital humanities),就涉及到用電腦技術做研究的方法。一個非常普遍的應用是GIS(地理信息系統),用于歷史地理方面的研究,分析歷史上的地理、人文現象。還有,在古漢語研究中,在讀音和文字之間建立關系,讓電腦模擬古漢語的讀音,我知道在芝加哥大學就有美國的學生在做這個項目。這可以開拓很多新的研究領域。
美國有很多人在做數字人文學。因為相較于紙質出版的研究成果來說,它的研究成果形式可以多樣化、多層次。它能夠突破紙質出版的局限,更能吸引讀者。這確實是一個趨勢。
澎湃新聞:大學里有一些教授傳統的文獻檢索方法的課程,比如社科文獻學,是否還適應今天的研究者的需要?
楊繼東: 我認為這門課還是有必要的,但如果我來上這個課肯定會做出大的改變。檢索學術資料畢竟和搜索一般生活信息不同,是有技術含量的。
我想這門課應該包括怎樣檢索西文的和中文的數據庫,去了解各種數據庫功能的差異和質量的優劣。數據庫也是用不同的字庫建成的,有的是用國標碼字庫,有的使用臺灣大五碼字庫,有的用Unicode也就是國際統一碼,字庫里面字的大小、多少都不一樣,所以數據庫也是不平等的。這里面有很多專業知識要學習。
你在研究當中不能忽略這些專業的知識,比如說你的電腦里面首先要有Unicode Extention B這個字庫,然后你的電腦才能有足夠的字顯示古漢語文獻,因為美國一般的新電腦里面只有兩萬個漢字左右,如果你不再裝一個字庫,你就達不到相應的檢索能力。
在數字時代還是需要學會怎么樣使用這些數據庫,如何檢索,這不是baidu、 google就能找到的,它需要很專業的知識。所以這種課主要是看老師能不能與時俱進,更新上課的內容。
新技術帶來的弊端:檢索代替閱讀,出現“數字鴻溝”
澎湃新聞:數字時代的史學研究有哪些問題?
楊繼東:我剛才說的檢索代替閱讀就是很大的弊端。
還有很多人指出過(數據庫檢索的問題),比如檢索武則天的相關資料,如果只輸入“武則天”,不了解關于武則天的其他稱呼,是找不全的。過去中華書局出的人名索引就比較好,把武則天的各種稱呼都列出來,做成索引。我也一直呼吁做數據庫的人要學習紙本時代做的索引,把索引融入數據庫,檢索武則天不僅出現有武則天的詞條,對于武則天的其他稱呼比如武后、武才人等等詞條都能顯示。所以數據庫也需要做得更加精細。
數據庫制作過程也不一樣。有些數據庫,比如愛如生,主要是靠人工輸入,這樣就比較精確。愛如生是做得比較好的,它的負責人劉俊文先生之前是北大歷史系的教授,研究唐代法律制度的權威。但是絕大部分數據庫做不到這一點,都是通過OCR軟件掃描識別文字,錯誤較多。所以也有必要讓讀者了解各種數據庫的缺陷,自己做相應的校對工作。

澎湃新聞:過去,圖書館買一套《二十四史》花不了多少錢,但數據庫就貴得多了。數字時代的歷史研究,是否造成了新的“不公平”?
楊繼東:是的。數字資源對有些人做研究也是不利的,像清華同方數據庫一年要一萬美元,很多小的學校買不起。過去只要師生需要《二十四史》,學校就可以去買,幾百美元就夠了。
所以現在就造成新的數字鴻溝(Digital Divide),以前覺得不錯的美國州立大學,現在就發現越來越難以承擔師生對數字資源的需求。在美國學術資源越來越向大的圖書館傾斜。美國版權保護特別嚴厲,未經許可的網上共享要進監獄的。這就對很多中小型學校產生很大影響,這不僅體現在中文數據庫上,西文數據庫也是如此。
這個局面怎么克服,目前還沒有很好的方案。不給錢完全開放獲取也無法維持。我們也想了一些辦法,像斯坦福東亞館每年就會向6個外地學者提供游學金(travel grant),讓他們來本館作研究,每人獲得700美元的旅費資助。但這也是供不應求。所以數字資源的影響很復雜,不可一概而論。

數字技術改變歷史研究形態了嗎?
澎湃新聞:傅斯年曾說“史料即史學”,20世紀初期的“新史學”講求運用新工具、新方法去盡量擴充史料,某種程度上是在強調史料在史學研究中的中心地位。當我們借助現代化的電腦網絡技術用在一定范圍內“窮盡”史料之后,史料在史學研究中的地位是否將發生變化?
楊繼東:一些常見的史料大家都能見著,不需要太多個人技能。但不可否認,許多新史料有待發掘。珍稀資料的重要性恐怕沒有下降,反而在上升。就像20世紀初敦煌文書的出土,極大地改變了人們對中國中世紀歷史的認識,漢簡的出土也讓人們對秦漢歷史有了一個全新的認識。所以新資料的發掘是十分重要的,可能會形成一個新的研究領域。
比如今年7月份我們將在斯坦福舉行的一個會議(Beyond the Book: A Conference on Unique and Rare Primary Sources for East Asian Studies Collected in North America),就聚焦于新史料。美國有大量和東亞有關的資料待發掘。比如美國國會圖書館所藏的有關中日戰爭的資料很少為人所知,新澤西的州立大學Rutgers收藏了許多二戰后聯合國在華救濟署的資料。還有很多美國大學圖書館藏有二戰后美軍繳獲的日軍繪制的高分辨率的中國地圖,在我以前供職的賓夕法尼亞大學就有幾千張,在華盛頓大學和斯坦福大學也有好幾千張。這些都是非常有價值的資料。還有美國人以前到中國旅游所拍的照片、攝影記錄都在民間大量存在。還有位于費城的長老會檔案館,里面就收藏有大量有關中國的手稿資料。明尼蘇達大學有基督教青年會以前在中國的各種檔案、照片資料。這些資料對中國近代史的研究都非常有用,所以史料也是新的領域,學者需要不斷發掘新資料。
有些資料現在甚至連目錄都沒有,更別說數字化。我們希望展現這些資料的來龍去脈、歷史價值。
澎湃新聞:所以技術帶來的“扁平化”僅限于現有資料搜索。您覺得計算機還帶來了更深層次的改變嗎,比如文史研究的形態?
楊繼東:人文科學領域的研究成果的數字化可能是一方面。另一方面是學科滲透,現在美國的學者就特別注重跨學科訓練和背景,也會主動學習不同學科的知識,比如搞歷史的你懂點地質、地理、氣象,搞語言的知道考古等其他方面的知識。所以一個人文學科的學者如果其他方面的能力比較強的話,他能夠做出一些吸引人的成果。比如GIS(地理信息系統)就是現在比較流行的。
還有學問和學術的呈現方式會發生改變。據我所知,在美國有幾個華裔學者就在計劃做一個數字項目,他們想通過數字虛擬影像呈現上海在過去一百年里面建筑景觀所發生的變化。你可以在1920年代或者1940年代的上海街道上體驗風情。這只有通過數字技術方式才能實現。
總體上,我認為電子時代對學術研究的影響能夠和造紙術、印刷術相提并論。而且它不僅對學術產生深遠影響,對每個人的生活也都會產生巨大影響。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司