講座｜包弼德：何謂數字人文？何為數字人文？

閆力元辛雙宏

2023-11-16 16:29

來源：澎湃新聞

2023年10月27日，哈佛大學講席教授包弼德應邀在上海交通大學人文學院進行了題為“何謂數字人文？何為數字人文？”（What are the Digital Humanities and Why are They Important?）的公開講座。此次講座同時也是上海交大人文學院20周年紀念活動之一，由上海交通大學人文學院王寧教授主持。

數字人文是借助計算機和數據科學等方法和手段進行的人文研究，近半個世紀，尤其是近十多年來，隨著計算機技術手段的蓬勃發展，數字人文研究方興未艾。包弼德教授首先介紹了人文與數字人文的定義及差別，并以CBDB（中國歷代人物傳記數據庫）為例介紹了目前數字人文研究的情況，討論了如何支持數字人文的發展。以下是講座記錄：

講座現場（攝影：張藝菡）

什么是人文？可以有三層意思，首先，人文是人類創造出來借以達意的媒介，可以是語言文學，也可以是藝術和音樂；第二，人文是我們創造的敘事，通過現在和過去的關系定位現在，通過此處與彼處的關系定位此處，這同時包含時間上和空間上的意義，也就是歷史和人文地理；第三，人文是關于我們是如何行動的學說，包括哲學、宗教等等。有人認為，在中國，人文可以對標為國學，國學以儒學為本，但國學這個詞帶一點意識形態意味。我寧可說人文就是文史哲。論語中有句話叫“述而不作，信而好古”，可是蘇軾認為述而不作是不夠的，必得有創造，必得有新意，人文研究也是如此，必須述而作，傳統和創新都需要。

數字人文和傳統人文研究的不同，有四個方面：一是數字資源，二是數據（data），三是用計算性方法查找和提取數據，四是用計算性方法分析數據，把數據可視化，來創造新的信息。也可以說，數字人文是在數字環境下促成周期研究，一個研究周期包括找到研究問題、收集數據、查找資料數據信息，整理、分析數據等環節，這些環節都可以運用數字人文方法。

數字資源是數字人文和傳統人文的不同點之一。數字人文需要借助大量的電子資源展開研究。可現在的電子資源數據庫越來越貴。信息革命的時代，大家有一些愿景，覺得可以借助這個潮流，讓原本比較難獲得的資源數字化后供給全世界。但不公平的情況仍然存在，資金充裕的大學數字資源多，資金匱乏的大學資源少。

第二個不同點是數據（data），數字人文就是有很多數據的人文。數據是什么？數據（data）是可以被作為單一實體處理并加以編碼的一個事實或統計數據。可是data不是information（信息），data是個實體，必須把data整理聯合起來，才可以成為信息。舉一個例子，這張圖是《宋史·呂祖謙傳》中的一段話：

這一段話中有很多數據，包括人名、地址、職官、社會關系、親屬關系，通過文本挖掘的技術手段，可以從這一段話中提取出許多數據，并展示給大家。

第三個不同是數字人文用計算性方式查找和提取數據?，F在有兩個比較普遍的方法，一個是專名識別（Named Entity Recognition），比如如果有一個詞典包含了所有地名，我們就可以依據這個數據庫進行文本挖掘，看某個文本包含了哪些地名；另外一個方法是正則表達式（Regular Expression），正則表達式就是找到文本信息的規律，借助計算機編程進行提取這些信息。舉一個簡單的例子，比如我們要找到一個文本中的書名，書名往往分布在書名號（《》）之間，這就可以寫一個計算機程序，提取所有書名號之間的文本。

也有一些更復雜的正則表達式，比如之前提取《宋人傳記資料索引》兩萬五千條傳記中的信息，設計正則表達式花了很久時間，但之后幾天之內就把這些信息全都提取了出來，這就需要計算機專業人才的協助。歐洲的魏希德教授利用這一方法主持開發了Marcus平臺，可以幫助我們進行一些文本信息（如人名、地名等）的標注。

第四是用計算性方式去分析數據，把數據可視化，創造信息。舉兩個例子，分別是北宋和南宋進士的地理分布和呂祖謙的學術網絡。有意思的是，從呂祖謙的學術網絡中，我們容易發現朱熹的地位還是要比呂祖謙更重要。

我自己主要研究思想史，尤其是唐宋元明士大夫的思想史。我利用數字人文進行群體傳記學的研究。但文學研究者利用數字人文時的關注點往往和歷史學家有所不同。歷史學家往往對人物有興趣，而文學研究者對詞匯更有興趣。文本分析的一個重要視角是互文性（intertextuality），即討論文本之間的引用情況，例如《呂氏春秋·必己》和《莊子·山木》文本的互文情況。借助互文性研究的相關技術，我們可以得到所有先秦文獻的“文本重復使用”的情況，如圖所示：

最近自然語言處理工具ChatGPT的廣泛運用引發了很多討論。在大學里，一個很重要的問題就是學生在作業中可不可以使用ChatGPT。我們現在的基本看法是，幾乎沒有辦法阻止學生使用ChatGPT，關鍵在于我們如何用它更深入地去研究哲學或者文學。我曾做過一個嘗試，先用英文問ChatGPT佛學是什么（What is Buddhism）？然后用簡體中文問：佛教是什么？再用繁體中文問：佛教是什麼？會得到三個不同的回答。這是因為ChatGPT會學習不同語言的語料庫，簡體中文、繁體中文和英文的回答不一樣，是因為背后的學術傳統不同，這很有意思。

今天第二個話題，我要以CBDB為例，介紹目前數字人文研究的情況。CBDB的基本觀念很簡單，從文本中提取各類人物數據，整理聯合起來，創造新的知識。研究者可以使用數據庫研究群體傳記學，將CBDB應用到統計分析、社會網絡分析、空間分析等研究。

CBDB由三個學校機構合作開發，分別是北京大學中國古代史研究中心、臺灣“中研院”歷史研究所和哈佛大學費正清研究中心。

CBDB是為了群體傳記學的研究而創建。1972年歷史學者L.Stone對于群體傳記學的定義是：“透過對一群人之生平作集體性研究，而對這群歷史人物之共同背景特征所作的探討。其采用的方法為建立一個研究的場域，然后詢問一組統一化的問題——關于出生與死亡、婚姻與家庭、社會出身與其繼承的經濟地位、居住地、教育、個人財富之數量與來源、職業、宗教、公職經驗等等。”

這里提到了“個人財富之數量和來源”，如果你們經?？粗袊哪怪俱懞蛡饔涃Y料，就會發現這些傳記中很少涉及個人財富的相關信息，但是在歐洲的傳記資料里面常?？吹健Ｎ液蜌W洲的學者開會，他們認為CBDB數據庫缺乏一個非常重要的表：錢，也就是財富。我們聽取建議增設了這個表，但目前沒有增添一條數據，因為中國的傳記資料中很少涉及這個方面。這應該是中歐傳記數據的一個不同。

CBDB數據的來源很廣泛，例如宋代的傳記資料我們從336種來源中提取信息。目前為止，CBDB總計已經收錄了53萬人物信息，社交網絡信息超過18萬，親屬關系收錄最多，超過53萬。除此之外還包括地址、社會區分、入仕、職官等核心實體。

我們把實體放入不同的表中，可以找出不同的表之間的關系。比如，在中國，人有名，有號，有字，有行第，有小名，有小字，所以我們做了別名編碼表，這是最簡單的表，有17個。但地址編碼表的數量就很多，有三萬多個；社會關系和親屬關系編碼表差不多五百個。把這些編碼表和數據表聯合起來，就形成了關系型數據庫。

在關系型數據庫中，如果我們想要知道一個人在一生中經過了什么地點，會先做一個人名表，這是最重要的，沒有它就不知道主人公是誰，然后我們將地名表與之對應。但是如何確定一個地名和人物的關系呢？這個地點是他的籍貫嗎？或是他的故居嗎？或是他的工作地嗎？這時我們把地點（places）和關系（relations）的表相對應，就能解決問題?；蛘哒f，我們想知道某個時代的所有宰執官員間是否有親屬關系，就需要把人名、任官、親屬關系等表格聯系起來考察。

CBDB是關系型數據庫，組織不同實體間的聯系，這是關系型數據庫的主旨。我們從傳記資料中提出不同類型的數據，放在不同的實體之內，同時在這些不同實體之間建立了多種形式的聯系，通過將不同的實體聯系起來，我們可以得到一些新信息，來解決一些問題。

CBDB有很多查詢入口，每個查詢入口對應不同的輸出內容，可以進行循環搜索。在社會關系查詢窗體中，CBDB能夠找到人物之間的社會關系網絡。我們在此基礎上設計了一個四值度量法，用于社會關系的親疏遠近。比如我的朋友是第一度，朋友的朋友是第二度，以此類推。如下圖，查詢王陽明到第三度的社會關系，可以得到這個社會網絡圖：

或者我們可以用CBDB來做空間分析，例如可以考察親屬關系的地理分布。比如江西吉州的親屬關系分布圖，可以發現，北宋時期親屬分布圖是全國性的、很分散的，可是到宋末元初就地方化了。這種現象的形成不但在吉州，在金華、紹興、贛州等各個地方都是這樣。CBDB會證明有這樣的現象，但不會解釋為什么有這樣的現象，而這正是學者們，特別是歷史學者們該做的——解釋事件發生的原因。我的新書《志學斯邑：十二至十七世紀婺州士人之志業》（Localizing Learning: The Literati Enterprise in Wuzhou, 1100-1600）就討論了這個問題，中文版預計在明年出版。

CBDB也可以用來進行統計分析，下圖是對唐代男性和女性死亡年齡的數據統計圖，可以發現唐代女性在青壯年時期的死亡率明顯高于這一時期的男性，這是由于生育風險。

CBDB不是一個傳記辭典，盡管在不斷修訂，但并不要求數據各方面都精確無誤。CBDB服務于群體傳記學研究，致力于把很多數據聯合在一起，形成一個大概的模型。我們也可以提供某一個人傳記的各方面數據，然而作為數據庫，更重要的是提供范圍和數量上更大規模的數據，從而對研究提供幫助。

CBDB一直在發展。我們的內容在不斷更新，現在查詢到的數據圖和明年的可能會有細微的不同，我們在不斷增加歷史數據，擴大數據庫，比如一直在進行的對地方志和清代朱卷的數據挖掘、明代書信項目等，社會人士也可以通過API進行眾包輸入，擴充和校對數據。我們希望專業的人可以加入，幫助我們完善CBDB數據庫。

今年三月哈佛大學舉辦了“業界工具：通往未來”（Tools of the Trade: The Way Forward）的數字人文國際會議，來自中國、日本、美國、加拿大、歐洲各國的學者都介紹了自己的研究成果和數字人文項目，他們的PPT都已在網絡公開。2018年，我在一次會議上討論了網絡基礎設施建設的問題。什么是數字人文基礎設施？最基本的是硬件設施，但也包含了代碼庫、軟件等方面的要求。之所以要做這些基礎設施，是因為我們的數據庫正在多元化，有很多獨立的數據庫，彼此之間關聯很少。打比方，如果你要查閱一本書，不確定它有沒有被數據化，就需要到很多地方、通過不同途徑進行查詢，查人物也是一樣。所以要提高查詢的效率，我們就需要把多元化的數據庫聯合起來，提供一鍵式的跨數據庫學術資料檢索服務，這需要開發通用平臺作為中國研究的網絡基礎設施，這是一個挑戰。