长兴郴障科技有限公司

澎湃Logo
下載客戶端

登錄

  • +1

講座|包弼德:何謂數字人文?何為數字人文?

閆力元 辛雙宏
2023-11-16 16:29
來源:澎湃新聞
? 翻書黨 >
字號

2023年10月27日,哈佛大學講席教授包弼德應邀在上海交通大學人文學院進行了題為“何謂數字人文?何為數字人文?”(What are the Digital Humanities and Why are They Important?)的公開講座。此次講座同時也是上海交大人文學院20周年紀念活動之一,由上海交通大學人文學院王寧教授主持。

數字人文是借助計算機和數據科學等方法和手段進行的人文研究,近半個世紀,尤其是近十多年來,隨著計算機技術手段的蓬勃發展,數字人文研究方興未艾。包弼德教授首先介紹了人文與數字人文的定義及差別,并以CBDB(中國歷代人物傳記數據庫)為例介紹了目前數字人文研究的情況,討論了如何支持數字人文的發展。以下是講座記錄:

講座現場(攝影:張藝菡)

什么是人文?可以有三層意思,首先,人文是人類創造出來借以達意的媒介,可以是語言文學,也可以是藝術和音樂;第二,人文是我們創造的敘事,通過現在和過去的關系定位現在,通過此處與彼處的關系定位此處,這同時包含時間上和空間上的意義,也就是歷史和人文地理;第三,人文是關于我們是如何行動的學說,包括哲學、宗教等等。有人認為,在中國,人文可以對標為國學,國學以儒學為本,但國學這個詞帶一點意識形態意味。我寧可說人文就是文史哲。論語中有句話叫“述而不作,信而好古”,可是蘇軾認為述而不作是不夠的,必得有創造,必得有新意,人文研究也是如此,必須述而作,傳統和創新都需要。

數字人文和傳統人文研究的不同,有四個方面:一是數字資源,二是數據(data),三是用計算性方法查找和提取數據,四是用計算性方法分析數據,把數據可視化,來創造新的信息。也可以說,數字人文是在數字環境下促成周期研究,一個研究周期包括找到研究問題、收集數據、查找資料數據信息,整理、分析數據等環節,這些環節都可以運用數字人文方法。

數字資源是數字人文和傳統人文的不同點之一。數字人文需要借助大量的電子資源展開研究。可現在的電子資源數據庫越來越貴。信息革命的時代,大家有一些愿景,覺得可以借助這個潮流,讓原本比較難獲得的資源數字化后供給全世界。但不公平的情況仍然存在,資金充裕的大學數字資源多,資金匱乏的大學資源少。

第二個不同點是數據(data),數字人文就是有很多數據的人文。數據是什么?數據(data)是可以被作為單一實體處理并加以編碼的一個事實或統計數據。可是data不是information(信息),data是個實體,必須把data整理聯合起來,才可以成為信息。舉一個例子,這張圖是《宋史·呂祖謙傳》中的一段話:

這一段話中有很多數據,包括人名、地址、職官、社會關系、親屬關系,通過文本挖掘的技術手段,可以從這一段話中提取出許多數據,并展示給大家。

第三個不同是數字人文用計算性方式查找和提取數據?,F在有兩個比較普遍的方法,一個是專名識別(Named Entity Recognition),比如如果有一個詞典包含了所有地名,我們就可以依據這個數據庫進行文本挖掘,看某個文本包含了哪些地名;另外一個方法是正則表達式(Regular Expression),正則表達式就是找到文本信息的規律,借助計算機編程進行提取這些信息。舉一個簡單的例子,比如我們要找到一個文本中的書名,書名往往分布在書名號(《》)之間,這就可以寫一個計算機程序,提取所有書名號之間的文本。

也有一些更復雜的正則表達式,比如之前提取《宋人傳記資料索引》兩萬五千條傳記中的信息,設計正則表達式花了很久時間,但之后幾天之內就把這些信息全都提取了出來,這就需要計算機專業人才的協助。歐洲的魏希德教授利用這一方法主持開發了Marcus平臺,可以幫助我們進行一些文本信息(如人名、地名等)的標注。

第四是用計算性方式去分析數據,把數據可視化,創造信息。舉兩個例子,分別是北宋和南宋進士的地理分布和呂祖謙的學術網絡。有意思的是,從呂祖謙的學術網絡中,我們容易發現朱熹的地位還是要比呂祖謙更重要。

我自己主要研究思想史,尤其是唐宋元明士大夫的思想史。我利用數字人文進行群體傳記學的研究。但文學研究者利用數字人文時的關注點往往和歷史學家有所不同。歷史學家往往對人物有興趣,而文學研究者對詞匯更有興趣。文本分析的一個重要視角是互文性(intertextuality),即討論文本之間的引用情況,例如《呂氏春秋·必己》和《莊子·山木》文本的互文情況。借助互文性研究的相關技術,我們可以得到所有先秦文獻的“文本重復使用”的情況,如圖所示:

最近自然語言處理工具ChatGPT的廣泛運用引發了很多討論。在大學里,一個很重要的問題就是學生在作業中可不可以使用ChatGPT。我們現在的基本看法是,幾乎沒有辦法阻止學生使用ChatGPT,關鍵在于我們如何用它更深入地去研究哲學或者文學。我曾做過一個嘗試,先用英文問ChatGPT佛學是什么(What is Buddhism)?然后用簡體中文問:佛教是什么?再用繁體中文問:佛教是什麼?會得到三個不同的回答。這是因為ChatGPT會學習不同語言的語料庫,簡體中文、繁體中文和英文的回答不一樣,是因為背后的學術傳統不同,這很有意思。

今天第二個話題,我要以CBDB為例,介紹目前數字人文研究的情況。CBDB的基本觀念很簡單,從文本中提取各類人物數據,整理聯合起來,創造新的知識。研究者可以使用數據庫研究群體傳記學,將CBDB應用到統計分析、社會網絡分析、空間分析等研究。

CBDB由三個學校機構合作開發,分別是北京大學中國古代史研究中心、臺灣“中研院”歷史研究所和哈佛大學費正清研究中心。

CBDB是為了群體傳記學的研究而創建。1972年歷史學者L.Stone對于群體傳記學的定義是:“透過對一群人之生平作集體性研究,而對這群歷史人物之共同背景特征所作的探討。其采用的方法為建立一個研究的場域,然后詢問一組統一化的問題——關于出生與死亡、婚姻與家庭、社會出身與其繼承的經濟地位、居住地、教育、個人財富之數量與來源、職業、宗教、公職經驗等等。”

這里提到了“個人財富之數量和來源”,如果你們經??粗袊哪怪俱懞蛡饔涃Y料,就會發現這些傳記中很少涉及個人財富的相關信息,但是在歐洲的傳記資料里面常??吹健N液蜌W洲的學者開會,他們認為CBDB數據庫缺乏一個非常重要的表:錢,也就是財富。我們聽取建議增設了這個表,但目前沒有增添一條數據,因為中國的傳記資料中很少涉及這個方面。這應該是中歐傳記數據的一個不同。

CBDB數據的來源很廣泛,例如宋代的傳記資料我們從336種來源中提取信息。目前為止,CBDB總計已經收錄了53萬人物信息,社交網絡信息超過18萬,親屬關系收錄最多,超過53萬。除此之外還包括地址、社會區分、入仕、職官等核心實體。

我們把實體放入不同的表中,可以找出不同的表之間的關系。比如,在中國,人有名,有號,有字,有行第,有小名,有小字,所以我們做了別名編碼表,這是最簡單的表,有17個。但地址編碼表的數量就很多,有三萬多個;社會關系和親屬關系編碼表差不多五百個。把這些編碼表和數據表聯合起來,就形成了關系型數據庫。

在關系型數據庫中,如果我們想要知道一個人在一生中經過了什么地點,會先做一個人名表,這是最重要的,沒有它就不知道主人公是誰,然后我們將地名表與之對應。但是如何確定一個地名和人物的關系呢?這個地點是他的籍貫嗎?或是他的故居嗎?或是他的工作地嗎?這時我們把地點(places)和關系(relations)的表相對應,就能解決問題?;蛘哒f,我們想知道某個時代的所有宰執官員間是否有親屬關系,就需要把人名、任官、親屬關系等表格聯系起來考察。

CBDB是關系型數據庫,組織不同實體間的聯系,這是關系型數據庫的主旨。我們從傳記資料中提出不同類型的數據,放在不同的實體之內,同時在這些不同實體之間建立了多種形式的聯系,通過將不同的實體聯系起來,我們可以得到一些新信息,來解決一些問題。

CBDB有很多查詢入口,每個查詢入口對應不同的輸出內容,可以進行循環搜索。在社會關系查詢窗體中,CBDB能夠找到人物之間的社會關系網絡。我們在此基礎上設計了一個四值度量法,用于社會關系的親疏遠近。比如我的朋友是第一度,朋友的朋友是第二度,以此類推。如下圖,查詢王陽明到第三度的社會關系,可以得到這個社會網絡圖:

或者我們可以用CBDB來做空間分析,例如可以考察親屬關系的地理分布。比如江西吉州的親屬關系分布圖,可以發現,北宋時期親屬分布圖是全國性的、很分散的,可是到宋末元初就地方化了。這種現象的形成不但在吉州,在金華、紹興、贛州等各個地方都是這樣。CBDB會證明有這樣的現象,但不會解釋為什么有這樣的現象,而這正是學者們,特別是歷史學者們該做的——解釋事件發生的原因。我的新書《志學斯邑:十二至十七世紀婺州士人之志業》(Localizing Learning: The Literati Enterprise in Wuzhou, 1100-1600)就討論了這個問題,中文版預計在明年出版。

CBDB也可以用來進行統計分析,下圖是對唐代男性和女性死亡年齡的數據統計圖,可以發現唐代女性在青壯年時期的死亡率明顯高于這一時期的男性,這是由于生育風險。

CBDB不是一個傳記辭典,盡管在不斷修訂,但并不要求數據各方面都精確無誤。CBDB服務于群體傳記學研究,致力于把很多數據聯合在一起,形成一個大概的模型。我們也可以提供某一個人傳記的各方面數據,然而作為數據庫,更重要的是提供范圍和數量上更大規模的數據,從而對研究提供幫助。

CBDB一直在發展。我們的內容在不斷更新,現在查詢到的數據圖和明年的可能會有細微的不同,我們在不斷增加歷史數據,擴大數據庫,比如一直在進行的對地方志和清代朱卷的數據挖掘、明代書信項目等,社會人士也可以通過API進行眾包輸入,擴充和校對數據。我們希望專業的人可以加入,幫助我們完善CBDB數據庫。

今年三月哈佛大學舉辦了“業界工具:通往未來”(Tools of the Trade: The Way Forward)的數字人文國際會議,來自中國、日本、美國、加拿大、歐洲各國的學者都介紹了自己的研究成果和數字人文項目,他們的PPT都已在網絡公開。2018年,我在一次會議上討論了網絡基礎設施建設的問題。什么是數字人文基礎設施?最基本的是硬件設施,但也包含了代碼庫、軟件等方面的要求。之所以要做這些基礎設施,是因為我們的數據庫正在多元化,有很多獨立的數據庫,彼此之間關聯很少。打比方,如果你要查閱一本書,不確定它有沒有被數據化,就需要到很多地方、通過不同途徑進行查詢,查人物也是一樣。所以要提高查詢的效率,我們就需要把多元化的數據庫聯合起來,提供一鍵式的跨數據庫學術資料檢索服務,這需要開發通用平臺作為中國研究的網絡基礎設施,這是一個挑戰。

(文中圖片由包弼德教授提供)

    責任編輯:顧明
    圖片編輯:張穎
    校對:欒夢
    澎湃新聞報料:021-962866
    澎湃新聞,未經授權不得轉載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            百家乐电投网址| 澳门百家乐官网赌钱| 澳门百家乐现场游戏| 作弊百家乐官网赌具价格| 现金梭哈| scc太阳城俱乐部| 网上百家乐如何打水| 网上百家乐官网破战| 九龙坡区| 老虎机遥控器多少钱| 玩百家乐新太阳城| 怎样赢百家乐官网的玩法技巧和规则 | 成都百家乐牌具| 百家乐翻天粤qvod| 百家乐官网局部| 百家乐官网注册赠金| 南京百家乐在哪| 金杯百家乐官网的玩法技巧和规则| 新利娱乐开户| 棋牌游戏平台哪个好| 大发888出纳柜台 在线| 百家乐方法技巧| 择日自学24| 赌神网百家乐官网2| 188金宝博娱乐城| 新皇冠现金网怎么样| 月华百家乐的玩法技巧和规则 | 手机棋牌游戏下载| 百家乐是个什么样的游戏 | bet365 uo15| 太阳城真人娱乐城| 澳门百家乐网上赌博| 百家乐风云人物| 查风水24山| 网上的百家乐官网是真是假| 百家乐官网街机| 筹码百家乐官网的玩法技巧和规则 | 百家乐视频游戏会员| 张家港百家乐赌博| 蓝盾百家乐打法| 尊龙百家乐娱乐场|