- +1
臺大資訊工程學教授:新技術能為歷史研究提供什么幫助
數字時代,資訊科技能夠為傳統歷史學研究帶來怎樣的變化?就目前歷史學界的研究體驗來說,一是研究者可以利用新技術帶來的數字資源,突破原有時間、空間的界限,能夠實現短時間內占有更多的研究資料,二則是新技術帶給傳統歷史學研究的新方法、新思路。但另一方面,也有不少史學研究者對新技術提供的服務表示不滿和遺憾。
作為歷史研究的主體,以往談及數字時代的史學研究,多是由歷史研究者發聲。那么,作為數字資源服務的提供方,簡單地說,就是歷史文獻數據庫、檢索系統的建設者來說,他們如何理解這個問題?又如何思考數字時代的歷史學研究?
5月29日,上海交通大學人文學院邀請臺灣大學數位人文研究中心主任項潔教授做客歷史系,介紹臺灣大學自1996年以來在史料數字化上的工作,并以臺灣歷史數位圖書館(Taiwan History Digital Library--THDL)為例,從史料收集與數位化、數位典藏庫建置方法、人文研究如何應用數位數據庫等議題交流看法和心得。會后,澎湃新聞(www.usamodel.cn)采訪了項教授。

項潔是臺灣大學資訊工程學系的特聘教授,同時也是臺灣大學數位人文研究中心的主任,曾任臺灣大學圖書館館長。近幾年來,他一直致力于數字人文的研究,尤其是歷史文獻數據庫的開發。他主持開發的臺灣歷史數位圖書館、云南民間古文書的數據庫等,在學界都有一定的影響力。據他介紹,臺大從1996年開始進行歷史文獻的數字化工作,2002年臺灣開始普遍展開數位典藏的工作,2007年,已積累了十年工作經驗的臺大成立了數位典藏研究中心,后來改名數位人文研究中心。從“數位典藏”到“數位人文”,名稱改換背后,其實是一個理念的變化。
“我個人覺得數字典藏是被動的,數據放在那里等待被使用。數字人文是主動的,試圖與研究者的需求產生關系。”所謂“被動”,就是說數據庫中存儲的千千萬萬條文獻數據,對使用者來說,它們只是等待被檢索的對象。除了檢索之外,使用者似乎對于整個系統也沒有更多面向的使用。而“數位人文”,用項教授自己所下定義來說,就是透過資訊科技用數字資源進行人文研究。淺白一點說,他開發、建設的系統并不是僅僅實現資料的檢索,而是要為研究者提供一個“能觀察”的環境,在這個系統中,能夠呈現資料之間的脈絡關系,以此彌補史料本身存在的不足,以及數字化之后,信息所呈現出的龐雜紛亂。
多年從事歷史文獻數據庫的開發和建設,項教授對于接觸過的資料也產生過一些研究想法,不過他對自己的定位很明確,“我現在做的不是學術,是學術服務業”。
項潔:歷史學和人類學是我從小的喜好,在臺灣我也花了十余年做了大量的數字史料方面的工作。對我來說,思考如何透過信息科技來使用這些數字資源從事歷史研究,這似乎是很自然的一件事。
澎湃新聞:曾與一位歷史研究者談及電子資源的使用,他說,我們使用電子資源時,所感受的不足或者“麻煩”,其原因不在于技術本身,而在于技術開發者和資源使用者之間的溝通,使用的人不懂技術,管技術開發的人又不知道使用者需要什么,而一旦他們認識到這個問題,技術完全能做得更好。您怎么看這個問題?
項潔:我的學生大多是學資訊的,每年我要花很多時間跟他們講,我們的工作不是要幫歷史學家做研究,給他們找答案。歷史研究是一門詮釋的學問,這不像計算機科學,你提出一個問題,它給你一個答案。我認為,我的工作是要給歷史學家一個能觀察的環境。
起初,我們做數字化的工作,一些歷史學家除了檢索之外,似乎對系統沒有更多面向的使用,我想這不是他們的錯,是我們的錯,我們沒有提供一個研究者愿意使用,有興趣使用的系統。

澎湃新聞:您認為,歷史學家需要怎樣的數字系統?
項潔:一個好用的系統。以THDL為例,我們的目的一方面是要提供既深且廣的第一手臺灣史料,比如,我們“明清臺灣行政檔案”部分包括了80%的20世紀以前的中文官方檔案;“古契書”的史料囊括了從1666年到日治初期,涵蓋清代全臺灣的資料,具有相當的代表性。另一個方面,我們也在思考這個系統能不能把臺灣史研究借由數位資料和資訊科技帶到一個不一樣的層次。
傳統檢索系統是這樣的,它以precision(求準率)和recall(求全率)作為系統使用指標,其背后的預設是文件之間沒有關聯。我們在網頁上使用的搜索引擎、圖書館的自動化系統和大部分digital libraries(數字圖書館)都是這樣的。所謂“求準率”,就是說,檢索結果是不是你要的內容;所謂“求全率”,就是說,是不是能顯示所有相關內容。這兩個指標是很難在一個系統兼而有之,一般求準率高的系統,求全率就低,百度、谷歌就是這樣,其文件和文件之間沒有關聯,反而是在“打仗”,誰贏了,誰就顯示在前面。
文件與文件之間是什么關系?對不同的史料來說,是不一樣的。檔案中的文件多數是彼此相關的,存在脈絡;而對于一些散亂的民間文獻,其脈絡并不清晰,需要研究者去發現,把它聯系起來。
那么,我希望檢索系統能夠盡量提供文件的各種脈絡以及觀察脈絡的環境。也就是說,你輸入一個搜索詞,檢索成果可以是一個有意義的文件集,給使用者提供各種方法讓他觀察其中的脈絡。
澎湃新聞:您說,最初與人類學家一起做數字人文的工作,彼此曾產生過很多爭論,能談談嗎?歷史學者和技術開發者處理歷史信息的差異在哪兒?
項潔:人文學者講求精讀,從少量的數據里看出豐富的內涵。數字人文則希望有能力在精讀之前,先粗略地鳥瞰整個數據群,其前提是要有足夠多的數據。
一開始,我們的爭論——當然還是學理上的爭論,主要在于數據的數字化,尤其是詮釋數據(metadata)的建立,要到什么地步才算合理。人文學者希望越詳細越好,但太詳細,數字化的量就勢必不會足夠大,那么,就達不到鳥瞰的效果。這里還有一個問題,就是資料數據的“標準化”,這關系到詮釋數據(metadata)字段的設計,數字化的主要目的是使用,標準化會更方便使用。

澎湃新聞:為了更好地實現“鳥瞰”資料的效果,THDL有哪些分析工具,可供其他數據庫開發借鑒?
項潔:我是希望在我建設的系統界面中,呈現多種與檢索結果相關的資料,所以,你可以在我們的檢索界面看到與檢索結果相關的地理分布圖、時間分布圖,還有檢索后分類,這是將檢索結果依據年代、出處、作者、分類、地域五種面向分類,力圖呈現出整體分布情況,這些信息就可以形成一個信息的集合,希望這個集合有利于使用者發現文獻之間的脈絡。


在“臺灣總督府檔案”數據庫中有很多文書、契約資料,我們設有gis工具,提供“臺灣堡圖”、“地形圖”、“衛星地圖”、“古今對照”、“行政區域”五種底圖,利用我們的檢索工具,可以查看不同類型的契書在地理上的分布情況。

另外,我們也可以通過數據庫的設計發現隱藏于語意中的資料之間的脈絡。THDL中有近40,000件地契文書,這些文書來自一百余種不同的出處,這些契約文書彼此有什么關系:哪些契約是關于同一塊(或相鄰)土地的文書?哪些契約是關于同一個大家族的?如果不借助資訊科技,要重建文件之間原有的脈絡,得耗費極大的人力和時間。那么,我們的數據庫如何實現這個脈絡的聯結呢?
我們可以自動選取契書的標題、人名、四至、土地面積、售價、地號以及時間等信息特征,通過上述信息的比對,就可以找出彼此有關聯的契書,而這個工作單靠人力去完成是很難的。我們把這些有關聯的契約文書串聯起來,可以形成一塊土地在不同地主手中的轉移圖。目前我們在三萬多件契約中,已經形成了2376個土地轉移圖,其中有一塊地的流轉由103件契約構成,可見這塊土地背后是一個多么有趣的故事!

上圖兩個文件中涉及的人名、地名均不同,文件出處也不同,我們很容易忽略二者之間的關聯。但是仔細看,就會發現兩個文件涉及的土地“四至”相同,系統便認定這兩份文件是來自同一塊土地的兩張契約,由此即可建立兩個文件之間的聯系。

這是一塊苗栗永和山地區的土地交易情形,圖中的主角是率先開墾土地的廖姓家族。這個圖直接呈現出的資料之間的脈絡是我們通過技術可以實現的,但是這個圖在社會史、經濟史和家族史上呈現的意義,是需要歷史學家去研究的。
這樣的方法我們也應用于明清朝廷奏折的分析,你可以發現奏折、上諭之間的引用、包含的關系,借此研究者可以觀察朝廷政務討論中的脈絡。
澎湃新聞:從您的角度看,數字化對歷史學研究的積極作用是什么?
項潔:首先,陸續發現的歷史文獻越來越多,也出版了不少資料集,但是一個問題是,資料集出版后,如果再出現相關的資料怎么辦?與出版業相比,數字平臺的好處就是可以持續追加。這是一個動態的資料集合。對歷史學研究來說,這當然是個便利條件。
其次,就研究來說,我以為,文獻之間的脈絡是可以通過數據庫來實現的,而“文本”與“人文”之間的脈絡則是歷史學家需要去研究的。大量的數位史料應該是可以拓展歷史研究的想象空間。當然,在用數位資料的同時,也需要認識到資訊科技運用在人文研究上所存在的限制——數據庫對相關資料的取樣是否均衡,其數據統計的意義,歷史研究者在利用數據庫資料進行研究時,這些問題是需要研究者思考的。
澎湃新聞:從技術層面來說,西方學界的史料數位化是怎樣的?
項潔:他們更強調資料的互操作性。因此在數據著錄工具、檢索協議、視覺呈現上有很多很好的工作和成果。相比之下,對于史料脈絡的思考上反而沒有那么清楚。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司