长兴郴障科技有限公司

澎湃Logo
下載客戶端

登錄

  • +1

研討會|破壁與賦能:多學科驅動下的數字人文

侯玥然/整理
2021-06-03 10:37
來源:澎湃新聞
? 私家歷史 >
字號

2021年5月22日,由南京農業大學數字人文中心主辦的“破壁與賦能:多學科驅動下的數字人文國際學術研討會”在南京農業大學召開。多位海內外重量級學者受邀參加了會議,包括哈佛大學包弼徳(Peter K. Bol)教授、上海圖書館劉煒副館長、北京科技大學潛偉教授、武漢大學王曉光教授、南開大學王利華教授、北京大學王軍教授、上海圖書館陳濤工程師、西北大學曲安京教授、復旦大學路偉東教授、南京大學陳靜副教授、萊頓大學魏希徳(Hilde De Weerdt)教授、杜倫大學德龍(Donald Sturgeon)助理教授以及南京農業大學包平教授等。南京農業大學黨委常委、副校長胡鋒教授和江蘇省哲學社會科學規劃辦公室主任許益軍致開幕辭。此次會議采用線上線下相結合的方式,共開展十三場專題報告及一場圓桌討論,并在騰訊會議和嗶哩嗶哩彈幕視頻網進行同步直播。

與會學者合影

劉煒:“數字人文平臺架構及語義互操作設計”

上海圖書館副館長、中國科技情報協會副理事長劉煒教授率先以“數字人文平臺架構及語義互操作設計”為題進行了報告。

劉煒教授從數字人文發展的態勢、技術發展的形勢、上海圖書館的數字人文建設、數字人文平臺的互聯及互操作等方分別進行了匯報。他認為當前處在發展初期的數字人文研究被“圖博檔”,即圖書館、檔案館、博物館所占領,基礎設施建設者占據了研究中的主導地位。然而同時,當下基礎設施建設仍然不夠到位。他指出,在當前的數字人文研究中,圖情領域研究者的核心競爭力在于解決“如何組織知識”這一問題。近二十年來,技術發展極其迅速,一批數字人文項目、工具和平臺被建設起來,但目前使用的技術基本集中于網絡互聯(Internet-connected)階段,縱然互聯網已經將所有的研究者們串聯在一起,每個研究者所使用的系統仍然是相互獨立的。

劉煒認為,數字人文的應用系統發展存在數字化、文本化和數據化幾個階段。他還特別強調,漢學材料在數字化階段需要保存原始圖像,這是中國數字人文發展中所面對的特殊問題之一。他通過一個“堆棧”圖向大家介紹了他心目中的數字人文的全景。理想中的數字人文的“堆棧”包括物質和精神兩大板塊以及制度、構成、方法、系統、界面五個層面,它們共同構成了數字人文的發展全景。他認為,未來云原生時代的數字人文平臺系統,也應包括系統和內容兩個方面的架構,同時,互聯網上的各個數字人文系統應該通過應用程序接口(Application Programming Interface, API)來進行互操作,例如工具書,應當通過建立接口的方式服務于任何數字人文平臺和系統。

同時,劉煒也提出,目前數字人文提出的技術、框架和設想一定要和商務模式結合起來。他認為,目前的數字人文平臺建設應該凸顯“內容架構”,從平臺建設之初,就應該在知識關聯的層面上打造宏觀架構,實現真正的知識管理。建立數字人文平臺,不外乎數據和方法兩個層面,其中,在數據層面應當實現“數據占有”和“書目控制”,在方法層面則應強調“獲得事實”和“循證研究”。此外,劉煒還指出數據服務應遵守FAIR(Findable, Accessible, Interoperable, Resuable)原則,并實現語義互操作,在系統底層解決信息的關聯問題。目前,上海圖書館正在建設“歷史人文大數據平臺”,以期實現“讓查全不是夢想,讓資料唾手可得,讓模型隨心所欲,讓計算隨遇而安,讓結果美輪美奐,讓人文研究不再困難”的愿景。

包弼徳(Peter K. Bol):“數字環境下的研究周期:面臨何種挑戰”

接下來,哈佛大學東亞語言與文明系包弼徳(Peter K. Bol)教授以“數字環境下的研究周期:面臨何種挑戰”為題進行演講,從研究周期問題出發,闡述了數字人文發展過程中的問題。包弼徳教授認為,一個完整的研究周期分為提出研究問題、查找資料、整理、分析、出版五個環節。其中,提出研究問題環節是所有研究者共同面對的,而數字人文則能夠在查找資料、整理、分析、出版這幾個環節提供重要幫助。

從查找資料、數據、信息的環節上看,在2015年,世界上的數字資料總量為2澤字節(zettabytes),到2020年,這一數據則已經達到了40澤字節,這個數據量,相當于美國所有高校圖書館資料綜合的50萬倍。這些數據形式多種多樣,并不全都與學術直接相關,如視頻、音樂、通俗文學、漫畫、游戲、照片等。對于學者來說,則可以在網上找到各類資源,如書籍、地理空間信息、數字化字畫資源、古籍原文等。包弼德教授認為,在資源的獲取上,有兩個重要問題,其一是跨資源平臺搜索,其二是大小機構間資源獲取能力不平等。

從數據整理環節來看,過去我們將信息記錄在紙上并保存在文件柜中,但今天我們將許多數據保存為電子文檔和圖片,并將其存儲于文件系統中。研究者使用不同的數據存儲形式,如電子表格、關系型數據庫、圖數據庫中,同時,也有人將資料存儲在“云端”,以便從不同設備進行訪問,這一切都使得當今分享數據與合作變得容易。然而,共享數據與合作也面臨挑戰。首先是數據存儲的空間問題,這涉及將數據存儲在何處以供分享。其次是許多學者害怕分享數據,不希望數據被自己項目以外的人使用,針對這個問題,包弼徳提出,數據只是數據,數據本身無價值,被廣泛的分析和使用才能讓數據真正具有價值。最后則是一些與學術無關的原因,如校園網內服務器的“斷網”等,這類問題在中國比較嚴重。在數據整理工作中,包弼德教授所在的CBDB開發團隊還在數據組織和分享中嘗試使用眾包模式,目前已經通過眾包平臺開展了對25,000余封明代書信的人工地址識別。

在數據分析的環節,數字人文方法及計算機科學技術,為人文科學的發展做出了極大貢獻。包弼徳認為,知識推進包括三個部分,分別是知識的專門化,理論和典范的轉移,以及工具的變遷。正如同顯微鏡和望遠鏡的發明使得自然科學家得以觀察到從前無法觀察的事物那樣,數字人文發展中引入的新工具也使得人文科學家能夠觀察到從前無法觀察之物。針對這個觀點,包弼徳進一步討論了數字人文帶來的“概念飛躍”——文本挖掘和文本挖掘改變了閱讀方式,基于關系型資料的建模推動了人物傳記資料構建,群體傳記學的發展解決了更多研究問題,空間分析使得數字化方志得以轉化成為空間對象,社會網絡分析促進了對人物關系的深入研究。

如何維持可以繼續進行的數據庫項目,工具和平臺?在這個問題上,包弼徳教授認為“商業化就是大眾化”。目前CBDB也在進行一些商業化工作,例如目前國內的高校可以從中文在線“引得”數字人文資源平臺購買CBDB數據庫使用許可,以使用完整版本的CBDB數據。

潛偉:“科學史研究的數字化問題”

隨后,北京科技大學科技史與文化研究院院長潛偉教授以“科學史研究的數字化問題”為題進行了發言。潛偉教授指出,在“大數據”時代下,需要積極利用信息技術開展“新文科”建設。在科技史這個相對小眾的學科中,數字化的發展存在嚴重缺位。近年來,無論是“數字人文”還是“數字史學”的研究都呈現上升趨勢,雖然目前科學史領域的相關研究較少,但計量史學、數字人文、數字史學、e考據等趨勢,都對科技史研究產生了一定影響。

定量研究的方法,在科學史研究中由來已久。自十九世紀下半葉以來,德堪多、高爾頓、雷諾夫、洛特卡、默頓、貝爾納、普萊斯、竺可楨、趙紅州等學者都曾使用量化方法研究科技史中的問題。潛偉教授自己及其研究團隊,也曾就“科學圖形面積比例與學科硬度測量”、“《宋史》記載的高頻次學科”、“宋代科技成果曲線與科技政策曲線”等問題開展過科技史方面的定量分析。

潛偉認為,數字史學的發展有兩種模式。一種是問題導向,這是傳統史學擅長的方法,致力于學術問題的分析與解決,更關注思想;另一種則是數據導向,注重數據驅動,數據轉換、提取、清洗和漂亮的可視化呈現。科技史的數字化分為三個階段,首先是史料的數字化存儲和檢索管理,其次是可視化展示,最后是基于大規模歷史數據挖掘的量化分析研究。近年來,科技史領域對古籍的數字化亦發生興趣,產生了一批相關研究成果。目前,潛偉及其所在的團隊正致力于中國古代金屬技術相關研究。最近,他的研究團隊從圖情領域借鑒了新方法來建設中國古代金屬技術詞表,以構建知識之間的關聯。 自去年起,團隊著手建設了“文物科技標本庫和數據庫”,使用三維掃描、計算機輔助計算等新技術對文物進行信息采集和技術復原,并通過文物數據與地理信息系統的結合進行遺址選址的預測。

潛偉強調,數字化不等于數據化。建設具有邏輯關系的結構化量化數據庫,才是實現數字史學的關鍵。科技史的數字化既有文獻數據庫,也有文物遺址的數字化應用;既有古代文獻挖掘整理,也有近現代文獻的科學計量研究。當前,知識管理、數據挖掘、三維掃描、數值模擬、地理信息系統、聚類分析、社會網絡分析,已成為科技史數字化的主要方法。他樂觀地指出,科技史工作者先天具有技術向,科技史研究數字化未來可期。

王曉光:“文化遺產智能計算:方向與路徑”

武漢大學信息管理學院副院長、數字人文研究中心主任王曉光教授以“文化遺產智能計算:方向與路徑”為題進行了報告。文化遺產作為記錄人類文明的重要載體和媒介,擁有著豐富的歷史文化和知識內涵。盡管數據資源在人文社會科學研究中日益重要,但當前的數字化建設還處于“搖籃本”時代,大量數字資源尚未成為可計算、可深度加工的數據生產要素。

對此,王曉光教授提出“文化遺產智能計算”,指出借助大數據、人工智能、云計算、5G等前沿技術對文化遺產蘊含的信息與知識進行采集、分析、組織、挖掘、表達、傳播和展示。通過從傳統文獻資源到智慧數據的轉換升級,真正支撐人文研究,實現文化遺產“活起來”的目標和愿景。目前,以歐洲“歷史時光機”項目、芬蘭Sampo系列項目以及“數字敦煌”項目為代表的一批文化遺產智能計算的典型案例正在進行中。

王曉光介紹到,文化遺產智能計算任務包括文本、視覺、時空和歷史虛擬再現四個維度,其實現路徑包括了數字化、智能計算和大規模富語義智慧數據三個過程,這也是從實物到數據、再到知識、最終到智慧的過程。目前,武漢大學正在全力建設文化遺產智能計算實驗室,從數據基礎設施建設、古籍深度挖掘與再造、圖像語義理解與計算、文化遺產地理系統、遺產3D建模與虛擬呈現五大方面探索文化遺產資源的創造性轉化和創新性發展。王曉光教授表示,挖掘文化遺產中更深層次的歷史文化知識是數字人文研究的重要內容,文化遺產智能計算需要多學科共同參與,利用先進的數字技術對文化遺產進行數字化再造與活化。文化遺產智能計算將構建新型數字基礎設施,成為繁榮數字文化產業,開啟數字文明的關鍵。

王利華:“數字資源與數字陷阱:一名普通學者的‘數字史學’實踐”

下半場第一場,由南開大學歷史學院暨生態文明研究院王利華教授率先以“數字資源與數字陷阱:一名普通學者的數字史學實踐”為題進行報告。

王利華教授認為,從地球生成到今天,人類已經歷了物理世界、化學世界、生物世界、人類世界、文明世界到虛擬世界的迭深和嵌入。人類的生存狀態在發生顛覆性的變化,這種變化也帶來史學的顛覆。 數字技術給歷史學帶來諸多變化,改變了資源獲取方式,帶來新的工具,推動學科聯系,并描繪了新的歷史鏡像。

王利華教授介紹了自己早起建立歷史資料數據庫并從事研究的經歷。他通過對唐以前大量文獻的數字化和分析,提出在中古時代中國北方地區以食羊肉而非豬肉為主的結論。在教學工作中,王利華也曾在多種情境下感受數字化帶來的便利。與此同時,在史料數字化過程中,王利華也曾面對許多問題,如同名異物問題、資料信度問題、資料轉化造成錯誤的問題等。

此外,王利華結合自己從事“中國當代環境保護史數字資源數據庫”建設的經驗,指出了一些數字史學發展過程中可能存在的問題。其中,最大的問題是“誰來作苦力”——在史學數據庫的建設中,有一些優秀的學者成為了“數字史學的犧牲者”,未能產出理想的研究成果。另外,他還提出“由數字平臺操控學術評價”的危害。他認為,目前各大數字平臺的學術評價體系存在弱點,在論文查重方面也存在如公共知識被判定為抄襲等諸多問題,這可能造成對學術的戕害。

王軍:“數字人文能為歷史做什么——人工智能技術在史料處理中的應用”

北京大學信息管理學院王軍教授以“數字人文能為歷史做什么——人工智能技術在史料處理中的應用”為題,展示館了北京大學數字人文研究中心的最新研究成果。

北京大學數字人文發展的一個重要方向,是幫助歷史學家從事研究工作。王軍教授表示,數字人文并不期待能夠在研究環節代替人文學者,而旨在為歷史研究提供輔助工具。歷史學家鄧廣銘先生有言,歷史研究有四把鑰匙,即目錄、年代、地理和職官。歷史學所做的工作,即在古典文獻的基礎上,在時空和政治制度的多維空間下,思考歷史上的人與事。在這個框架之下,數字人文應當為歷史學家提供一些工具。文獻載體對歷史研究方法有決定性影響,傳統印本時代的年表、輿圖、職官志、圖書目錄、人名辭典等資料和工具書,在數據庫時代已被轉換成為各種數據庫。但目前數據庫能為學者提供的輔助,無非是快速數據查找和大規模資料存儲,如何從大規模的資料中,還原地理時空以及職官制度的多維思考空間,實現如譚其驤先生從文獻文本構建歷史地圖籍那樣的工作,仍舊有待思考。 

王軍教授認為,在智能時代,大數據環境和人工智能應用是兩大特征。一方面,數字技術的普及和開放共享風氣的形成使得學者面臨歷史資料的再發現,產生了“讀不完的材料”,也帶來網絡時代“數字文獻學”要解決的一系列問題。王軍認為,解決這些問題的方法是實現文本材料的數據化、結構化和語義化。另一方面,人工智能代表著計算機處理技術的極大提升,計算機已經具備較強的搜索能力甚至理解能力,從基于規則的專家系統發展到基于學習的人工智能。

目前,王軍教授及其團隊正致力于在兩三年之內為學術界提供一個“漢語古籍大數據分析平臺”。該平臺的核心部分在于自動句讀和命名實體自動識別,王軍在現場向大家展示了這套系統的自動句讀及命名實體識別過程。此系統目前從先秦上古文本到明清及近現代文本的平均自動句讀準確率已達94%左右,在詩詞韻文上的準確率甚至達到99%。在命名實體自動識別方面,系統已經能識別人名、地名、時代名和職官名,其中,該在標注語料上的識別準確率達到99%,在泛化語料上的識別準確率接近88%。在識別速度上,系統將8000字文本進行句讀需要約20秒時間,進行命名實體識別則需要約25秒。團隊下一步的目標,是在此系統中實現關系提取。隨后,王軍還向大家展示了其團隊開發的“宋元學案知識圖譜”系統。這套系統在命名實體識別的基礎上,將87個宋元學案進行可視化描繪,對學案中各學派學者人數變化、地理分布、著作信息、官職信息、人際關系網絡、學術傳承關系等各個層面的信息進行生動刻畫。

王軍表示他在數字人文研究中的終極目標,是實現系統的“自然語言問答”。他樂觀地指出,如果能將二十四史的全部信息輸入到這套系統中,并用自然語言問答來訪問該系統,就能“復活”歷史與文化,實現人與歷史的直接對話。

陳濤:“史料資源圖像知識框架構建與應用”

接下來,上海圖書館及上海科學技術情報研究所高級工程師陳濤博士以“史料資源圖像知識框架構建與應用”為題進行了報告。

陳濤博士指出,圖像是一種重要的史料。當前的資料平臺中,圖像更多的是作為附件而非“資源”存在,且各平臺間的圖像獨立存儲在各自的服務器上,不能進行交互,造成了“圖像孤島”現象。上海圖書館的想法,則正是希望能夠讓這些圖像“活”起來,通過使用 “國際圖像互操作框架(International Image Interoperability Framework, IIIF)”,實現圖像之間的“互操作、可獲取、可展示、可關聯、可比較、可分析”,使圖像成為可以流通、共享、交互的數據節點。IIIF已經在全球掀起熱潮,國內方面,除了上海圖書館的“歷史人文大數據平臺”項目之外,各大高校、博物館中也有多項數字人文項目使用了該框架。IIIF并非一個平臺或系統,而是定義了一套交互的“標準”,目前包含“圖像、呈現、搜索、驗證”四個API,其中“呈現API(Presentation API)”是核心。基于IIIF,陳濤所在的團隊提出了“史料資源圖像知識框架”,該框架包含“圖像資源IIIF重組”、“圖像資源數據化提取”、“圖像資源語義化關聯”以及“圖像資源智慧化應用”四個部分。

以IIIF為基礎,結合關聯數據、知識圖譜、圖數據庫等技術,陳濤團隊開展了“多維圖像智慧系統(簡稱MISS平臺)”建設。該平臺支持多種格式的圖像資源一站式在線組織、發布、復用、語義標注、分享等,目前可支持億級像素的超清、超大圖像資源的在線交互,為史料資源再利用提供了堅實的技術堡壘。目前,平臺由上海市高等院校海外交流聯誼會及上海市海峽兩岸教育交流促進會新文科專業委員會發布與運營。MISS平臺具備資源層、功能層、研究探索層三層架構。在資源層,平臺可以將海內外的資源進行導入;在功能層,平臺將資源按照圖數據庫結構進行存儲,并能實現資源內容重組、OCR、多層標注、協同研究、對象識別及關聯等操作;在研究探索層,則可開展語義鏈接、圖像內容檢索、史料圖像復用、知識圖譜分析等。目前,MISS平臺已經能導入海內外超過20所高校、圖書館、博物館的資源,這為研究者整合研究資源提供了便利。此外,陳濤還著重介紹了平臺建設中正在實現的新設想,如通過圖像復用及重組保持圖像版本的唯一性、建設圖像多模態注釋體系、設計圖像內容注釋模型和圖像語義標注流程等。

陳濤認為,可以將“數字人文”理解成一棵大樹。人文數據是這棵樹的樹根,研究數據是樹葉,數字人文的成果是樹果,資源描述框架則是樹干。想要將不同的樹葉連起來,則需要關聯數據(Linked Data)和IIIF兩個樹枝。同時,從人文數據到研究數據的提取,又需要大數據(Big Data)和人工智能(Artificial Intellegence, AI)兩項技術。他將這五項技術,合稱為數字人文研究中的LIBRA技術理論。

曲安京:“中國出土文獻的數字人文研究”

下午的會議中,第一場報告人是西北大學科學史高等研究院曲安京教授,他的演講題目為“中國出土文獻的數字人文研究”。

目前,曲安京教授所在的西北大學科學史高等研究生院,正在進行出土文獻與數字人文方面的研究,他們的目標是實現“中國出土文獻語料庫”之構建與應用。出土文獻的目標范圍,包括簡牘、金文 、甲骨文等,西北大學團隊期望在“中國出土文獻語料庫”的基礎上,開展諸如簡牘的復原和綴連等歷史問題的數字人文研究,并為中文信息處理領域提出一些新鮮的問題,如短文本處理等。曲安京教授向聽眾們闡述了團隊選擇出土文獻進行研究的理由。他認為,中國出土文獻文本規模適中,同時又與傳世文獻存在結構上的顯著差異,值得單獨進行研究。構建“中國出土文獻語料庫”的意義在于,將數字人文的研究方法應用到出土文獻的研究領域,為傳統出土文獻的研究提供新方法。在語料庫構建完成后,團隊亦期望能夠在此基礎上進一步提出歷史問題和中文信息處理問題并進行解決。

曲安京指出,數字人文研究中,語料庫的構建是一項沉沒成本極高的工作。因此,他的團隊在選擇出土文獻作為研究對象時,立足點并不僅僅是基礎設施建設,而更多放在數字人文研究和語料庫應用之上。在未來,團隊還希望進一步推動數字人文基礎設施建設和數字人文方法的創新與應用,形成以科學史為交叉點的全國高校“數字人文”多學科融合交流平臺,為歷史、考古、情報、信息等多學科在數字信息環境下的發展,構建基礎設施、提供實驗場所、創新研究方法。

路偉東:“數字人文背景下長時段中國歷史人口研究”

來自復旦大學中國歷史地理研究所(以下簡稱復旦史地所)的路偉東教授以“數字人文背景下長時段中國歷史人口研究”為題進行了報告。他指出,歷史地理研究的對象是典型的具有時間屬性的空間數據,歷史地理學者關注數字人文是從GIS(地理信息系統)開始的。早在二十年前,在葛劍雄教授和包弼德教授(Peter K. Bol)的帶領下,復旦史地所和哈佛大學就曾一起推動了CHGIS項目的建設。這一項目的本質是基于史學考據的科學數據生產。該項目已經公布一批免費使用的標準歷史基礎數據,在海內外廣受關注。但路偉東教授認為,對于個體研究者來說,如何將這些數據、技術、理論與方法運用在自己的研究實踐中,進行真正面向學術問題關切的個案研究,可能是一個更值得思考的問題。在過去的十幾年間,路偉東教授持續關注清代歷史人口相關問題,他認為自己在研究中“有一點點工作勉勉強強可以歸入數字人文的范疇”,他的演講就主要圍繞這些工作展開。

路偉東教授表示,兩千年的中國歷史人口發展中,有一個重要的轉折點就是清末民初人口增長模式發生了結構性變化,在這個轉折點上發生了一次全國性的人口調查,即宣統人口調查。研究宣統人口調查對于觀察中國人口和社會由傳統向現代轉型,具有重要學術意義和現實價值。但是對于這次調查數據質量,學界存在較大爭議,認可這次調查結果的學者將其稱為“中國歷史上第一次真正具有現代人口普查意義的人口調查”,反對者則認為這次調查的數據非常糟糕,與其說是調查不如說是編造。無論是支持者還是反對者,能夠看到的數據都非常有限,主要是出自民國學者分省統計表,基本上只有“戶、男口、女口、性別比” 等少量字段。實際上,就這份簡單的統計表還不是原始數據,而是王士達、陳長蘅等人從清朝民政部宣統人口調查匯總表中抄錄并修訂而來,被抄錄的原始數據則收藏在臺北“國史館”中,為分縣統計數據。大約十年前,路偉東教授在甘肅省圖書館偶然發現了宣統年間人口調查的基層原始文獻,即“地理調查表”,該文獻以自然聚落為單位,大約記錄了7000個聚落的戶口等數據。這些原始的文獻引發了路偉東教授的思考。

第一個問題是城市人口等級模式。傳統時代后期中國究竟有多少城市人口?這個問題很有趣,但是很難回答。主要原因是缺少數據,一方面中國傳統文獻中的歷史人口是以保甲體系為單位的納稅戶口,而非以城鄉為單元的全部人口;另一方面,文獻中有限的城市歷史人口又大多是行政治所類城市。在這種情況下,研究的問題似乎可以轉化成為——假如可以在一個特定的區域內根據有限的行政治所城市人口,構建一個不同行政等級的城市人口非等差比例模型,就可以差補全部城市人口。這一做法,在邏輯上看似符合普遍認知,即省城人口多于府城人口,府城人口多于縣城人口。但實際上卻存在嚴重錯誤,因為傳統時代決定城市行政等級的核心要素不是,或者至少不只是城市人口,反過來也無法推斷一個與城市行政等級相吻合的城市人口等級模式。用地理調查表的數據可以用來檢驗這樣的結論,其實,這一問題更深層的社會背景是傳統時代行政城市的首位度很低,對于人口和資源的虹吸效應很弱;人口與水源和交通等地理要素的相關性也較低;相較之下,人口是趨于離散的,人口的空間分布相當平滑,這與當代人口空間分布存在顯著差異。許多現在看起來遠離交通線和水源的“窮鄉僻壤”,在改革開放前都曾存在大量人口,這些人口實際上大部分都是傳統時代中后期逐漸遷入的。路偉東教授強調,如果我們偏離這樣的基本歷史認識,用不同的地理因子匹配歷史人口,通過復雜的計算可能就會得出錯誤結論 。

第二個問題是中國傳統社會的城市化水平。這個問題一方面呼應了對傳統中國社會結構穩定性的討論,另一方面在某種程度上也迎合了對于歷史中國輝煌過往的想象,學界討論比較熱烈。許多知名學者,如珀金斯(D. H. Perkins)、諾斯坦(Frank Notestein)、喬啟明、施堅雅(G. W. Skinne)、趙岡、饒濟凡(Gilbert Rozman)等,都曾根據自己定義的“城市”,即人口大于某一個閾值為城市,估算中國傳統社會晚期的城市化水平。路偉東通過對這些研究者的估計數據與“地理調查表”數據的對比,發現他們的結論均存在錯誤。路偉東認為,探討現代話語的城市化水平有兩個基本前提,其一是嚴格人為界定的城市和城市空間邊界,其二是基于空間邊界的科學人口普查數據。但是歷史中國這兩個條件均不具備,所以實際上討論歷史時期的城市化水平是一個偽命題。現實工作中,還有很多工作和研究歷史時期的城市化水平一樣,就是把歷史問題強行納入到現實的框架中進行討論,“新瓶裝舊酒”,最終,通過復雜的數據計算和眼花繚亂的數學公式堆砌,得出漏洞百出、似是而非的結論。

此外,路偉東還講解了一個通過靜態截面數據展示人口動態遷移過程的案例。戰爭與戰爭引發的饑饉瘟疫是中國歷史人口短時間內劇烈波動的核心要素。同治西北的戰爭造成了約千萬量級的人口損失,通過繁瑣的文獻梳理可以發現,這一時期的人口遷移模式不是橫向的水平遷移,即從戰爭區域逃離到非戰爭區域;而是在戰爭區域內部的縱向垂直遷移,即從小的聚落逐層逐級遷往較大的核聚落,尤其是那些有城墻和守衛的行政治城。這一問題體現在數據上就是聚落的數量在減少,但聚落的規模在擴大。將“地理調查表”中千人以上聚落進行可視化展示,會發現這些聚落的分布是集聚而非離散的,并且數據分布在戰時人口損失特別嚴重和特別不嚴重的兩個極端區域,前者顯然是由于戰爭期間人口收縮的結果,后者則是戰爭期間及戰爭后避難人口入遷導致的。

使用“地理調查表”中的戶口數據,路偉東還對葛劍雄教授主編的六卷本《中國人口史》中的部分研究進行了驗證。在《中國人口史》中,第五卷和第六卷作者對宣統人口調查數據的認識不同,數據前后無法銜接。通過使用人口重心模擬1776年至1953年西北人口變動,路偉東發現,使用《中國人口史》第五卷中關于宣統人口數的校正數據,和使用“地理調查表”人口數據計算出的人口與重心存在方向性的不同,在排除幾種不可能的解釋之后,他認為《中國人口史》第五卷中的人口校正數據是錯誤的。除此之外,基于“地理調查表”,路偉東及其團隊還開展了一系列其它工作,比如開發聚落在線定位網站、基于隨機森林回歸模型重建西北地區歷史人口空間分布、輔助建設《清朝歷史地理信息系統》以及建設絲綢之路沿線歷史人口數據庫等。路偉東指出,在一套看似簡單的數據上,傳統人文研究者可以工作十年甚至更久,這是因為需要將看似簡單枯燥的數據放在更宏大的時空背景中研究,才能透過數據觀察復雜多面向的歷史,不斷地感知和走近歷史現實。

最后,路偉東教授表達了他身為歷史學者對數字人文研究的一些看法。數字人文引起學界的普遍關注不過最近十余年,但如果談到人文計算或者人文計量,其實可以回溯得更久遠一些。若干年前在史學界曾經興起過計量史學的熱潮,但近年來計量史學已漸漸淡出主流史學研究者們的視野,表面上看,其原因是計量史學那種過于追求技術、數據和計算的研究偏離了傳統史學范式,同時,也不排除,有相當一部分計量史學工作者于有意或無意間流露出的技術炫耀和數據傲慢,引發了傳統史學工作者的厭惡與嫌棄,近而形成了溝壑式的學科成見。但路偉東認為,這些只是問題的表象,其更本質的原因在于計量史學將復雜綜合的歷史現象和社會關系全部歸結于簡單的數學函數關系,用單一的“數據變量”取代了構成歷史主體的人的主動歷史實踐,以及研究者本身對歷史復雜性的個性化全面理解和整體認知,由此最終掩蓋了人文和人文研究的光輝。但是,最近十幾年“數字人文”的火熱,和之前計量史學興起的時代背景已有不同。路偉東認為現在的數字人文堪稱“千萬年未有之大變局”,最近十年信息技術的巨大進步不僅僅引發了全新的技術變革,也帶來了社會結構質的飛躍,其背后更深層次的數據基礎是,包括歷史文本在內的幾乎所有信息都開始逐漸脫離物理的載體,不斷數字化。在這樣的時代背景下,無論傳統人文學者對數字人文存在怎樣的質疑和批評,毫無疑問,當下撲面而來的數字人文浪潮已經給傳統人文研究帶來了強烈的沖擊,實際上,比這種沖擊更重要,也更嚴重的問題是,我們目前已經處于一個完全不可逆的數字化進程中,再也無法回頭。數字人文的崛起是信息技術向傳統人文研究滲透與介入的結果,但數字人文既不是傳統人文研究的終結者,也不是傳統人文研究的附屬品,在不遠的將來,數字人文發展的最終指向一定會有自己獨特的研究理論、方法、范式,以及學術關切和知識體系。從這一視角看,當下蓬勃發展的數字人文浪潮,只不過是從剛剛開啟的那扇數字人文大門的縫隙里透出的第一縷曙光。路偉東表示,未來的路還有很長,值得大家的共同努力。

陳靜:“迭代更新還是打破重構?數字人文之于交叉學科的價值”

來自南京大學藝術學院的陳靜副教授以“迭代更新還是打破重構?數字人文之于交叉學科的價值”為題進行了報告。她表示,目前理工科中交叉學科的開展情況較好,有生物醫學、物理化學、天文物理以及各學科與統計學的交叉等。文科中,則有文化研究、性別研究、審美人類學、藝術社會學等。陳靜教授提到,逐漸走向沒落的“文化研究”領域曾面對與當下“數字人文”相似的困境,當時盛寧、周憲、張紅兵、呂新雨等學者的研究中,曾就研究范式、學科化、本土資源和問題意識、既有框架下的發展意義等展開討論,這些對文化研究的探討會引發關于數字人文的思考。

陳靜教授探討的核心問題,在于基于中國語境的人文與實踐問題的一系列理論與方法。她認為,數字人文的建設性意義在于直面新一輪技術變革帶來的大挑戰、響應國家主導的“新文科”策略、滿足學科建設的內部匱乏與突破剛需、以及形成新的學術共同體與評價體系。在理論探討之外,陳靜也介紹了她的研究團隊近兩年正在開展的中國傳統色彩知識研究。“色彩”作為一種跨領域的存在,分散于典籍、織繡、器物乃至口頭知識中。陳靜及其研究團隊希望通過數字人文的手段從生產主體、生產方式、知識存在方式及知識特點四個層面體現數字時代的知識生產轉型。項目期望做到傳統手工藝的有籍可查、有物可考、有據可依、有人可問,實現方法論和應用層面的多個目標,并對接產業需求。

魏希徳(Hilde De Weerdt):“東亞數字人文的關鍵問題”

隨后,Markus古籍半自動標記平臺的主持開發者、來自荷蘭萊頓大學的魏希徳(Hilde De Weerdt)教授以“東亞數字人文的關鍵問題”為題進行了演講,從五個有關問題出發,探討東亞數字人文的問題與挑戰。

首先是近年來東亞數字人文研究主要成果的問題。其一是創建了全文人名地理信息資料庫,且維護并擴大了這些資料庫,如CBDB、CHGIS、C-Text等;其二是不同機構開發了促進數字人文研究的工具和平臺,如魏希徳教授自己所在的研究團隊開發的MARKUS文本標記平臺、COMPARATIVUS文本對比平臺和PARALLELS版本對比平臺等;其三是不同研究機構的開發者開始一起設計交換信息、提供工具使用權的渠道,如馬克斯-普朗克人類歷史科學研究所開發的RISE平臺等;其四是在各個方面上東亞數字人文的發展越來越快,國際數字人文期刊越來越歡迎東亞數字人文研究的相關文章;其五是東亞數字人文研究數量不斷增加,并呈現出多樣化的取向,多個領域的期刊上都推出了關于數字人文的特刊,且產生了新的電子書項目;其六是與中國的情況相似,海外的數字人文研究也出現了虛擬的學術共同體,學術共同體內部通過電子媒體互相交換經驗和分享資源。

第二個問題則是東亞數字人文面對的關鍵挑戰。魏希徳教授認為,目前東亞數字人文面對的挑戰分別為學術界內的障礙、技術性的挑戰、文物管制上的不同、以及數字人文認識論性的挑戰。其中她特別強調,技術性的問題往往沒有學者想象的那樣嚴重,以機器學習技術為例,在MARKUS的開發過程中很早就設計了機器學習模組,并將其運用至資料的命名實體識別等過程。但她同時也指出,由于MARKUS開發時間較早,當時所采用的技術以現在來看已顯落后。目前,萊頓大學已經拿到歐盟和荷蘭國科會的兩項大項目,兩個項目的主要目標是描繪長時期的“物質基礎建設的社會史(social history of material infrastructures)”,如通過對地方志、考古報告等文獻的數字分析,探究中國各地的城墻、道路、橋梁等的建設、瓦解和重組;利用挖掘出的數據研究各地的區域發展或縮小等。給歷史學家開發較好的機器學習服務,也是兩個項目的核心目標。從今年九月開始,萊頓大學將開放9個博士及博士后職位,包括數字歷史、數字考古、人工智能與軟件開發等,她也歡迎對此感興趣的聽眾申請。在認識論性的挑戰方面,魏希徳認為數字人文有兩條道路,一條是計算機學性的,利用各種計算機學的計量研究方法;另一條是理論性的,也常常是批判性的。可惜的是目前這兩條道路往往是分開的,而她認為無論是研究方面還是教學方面,兩種方法都缺一不可,應該將計算性的研究與批判性的理論聯合在一起。計算機學的研究方法往往源自于自然科學與社會科學領域,必須把人文科學方面的關懷和研究流程與這些科學的模式結合在一起。

第三是對數字人文的不同理念與不同的制度嵌入對國際性合作的影響問題。在理念影響方面,仍然存在面向計算機學的數字人文與面向理論性、文化性的數字人文地位不平等的問題。在東亞數字人文研究中,后者比前者更少出現在數字人文的會議上。在國際合作的問題上,一般來講數字人文的項目以一個國家的邊界為限,以每個國家的官方語言為主,魏希徳認為數字人文需要更多多語言的研究、工具和平臺。目前,中國的數字人文研究界大部分平臺只支持漢語,事實上其它在中國歷史上被利用的語言也需要被包含進來,魏希徳認為,此問題的改善可能需要靠加強國內、國際合作來實現。最近,MARKUS系統中已經開始支持更多語言,如在中文和英文之外支持韓文材料的處理等。

第四個問題是國內和國際性標準的優勢與缺陷。魏希徳指出,不同的標準各有優劣,但多語言性的研究以及資料庫與工具的結合無疑需要共同的標準。舉例而言,在剛開始做基礎建設設施時,她就開始尋找有關于基礎設施的本體(Ontology)或術語集,但這非常困難。這樣的方法和工具本應存在,她的團隊也希望能夠在未來為大家提供這樣的工具。

最后一個問題是數字人文的教學。目前國外已經有一些教學項目提供數字人文教材、暑期學校等,在這個方面,魏希徳也希望大家能努力分享自己的教學課程和資源。

德龍(Donald Sturgeon):“從計算機科學和中國歷史研究的角度反思數字人文的相遇”

接下來,由英國杜倫大學助理教授德龍(Donald Sturgeon)進行了題為“從計算機科學和中國歷史研究的角度反思數字人文的相遇”的報告。德隆教授是著名的C-Text項目的唯一創辦者。

德龍教授先介紹了自己的相關背景。他在本科時學習數學,中間經過漢語、哲學、東亞研究等多次學習、研究轉向,目前在杜倫大學計算機科學系工作。他本次演講的核心內容在于從人文科學與計算機科學的兩個角度討論數字與人文的合作問題,特別是教學方面的問題。德龍教授曾在哈佛大學東亞系為碩士生開設“中國研究的數字方法”課程,也曾在杜倫大學計算機科學系為三年級本科生開展“人文、社會科學中的計算模型”課程。這兩門課程雖然在細節上有所不同,但在內容和評定方法方面有相似之處,都涉及文本處理、文本相似性、社會網絡分析及作者身份識別,并采用期末報告的方式進行考核。德龍教授從兩次教學經驗的對比出發,以探討數字與人文兩種學科間合作的可能性與難題。

根據德龍教授的觀察,人文背景的碩士生在數字方法課中面對諸多挑戰。在概念上的挑戰方面,這些學生要學習計算機思維,理解電腦運作,以及學習評估每種方法應用的難度;在實用上的挑戰方面,需要從零學習編程,并花時間學習如何使用有力工具。反觀計算機科學系的學生,也同樣面對許多挑戰。在概念上的挑戰方面,這些學生往往受限于計算機思維而欠缺問題意識,不善于評估什么分析值得做;在實用上的挑戰方面,則面對不知道怎么尋找適當的研究空白,和傾向于選擇保守研究題目的問題。這兩類學生也各有優勢和缺點:人文背景的學生具有非常強的問題意識,但不一定能夠實際做到想做的工作;計算機科學的學生則往往從工具出發思考問題,依賴成熟的數據集,他們的研究課題成功率高卻缺乏創意和突破。

德龍在教學中發現,“人文、社會科學中的計算模型”課堂上的計算機科學系學生,常常使用來自Kaggle網站的成熟數據完成他們的期末報告。該網站提供各類便于計算機學者使用的數據集,如Twitter情感分析數據、圖片分類數據等。同時,Kaggle會對數據“可用性”進行基于數據集元數據的評估,評估指標包括是否有元數據及簡單介紹、數據格式是否清晰、是否針對指定目標等,而完全不包括資料的完整性、可靠性、客觀性,也不包括指定目標的重要性和難度。德龍認為,這或許能夠代表計算機科學的學生看待數據集的典型思路。德龍曾在這堂課上向學生們介紹了TEI(Text Encoding Initiative)/XML,希望學生可以用已標記好的豐富文本嘗試數字人文研究。然而在閱讀學生們報告的過程中,他發現學生們往往不愿意接受這些文本標記,因為它們的標簽透明度不夠高,需要翻閱TEI說明才能了解,這對學生來說是一種過于繁雜的挑戰。但學生們相對愿意接受有線上查詢系統的RDF(Resource Description Framework,資源描述框架)資料,因為它們具有“自說明系統”和更為簡單的數據結構。此外,德龍還發現學生們對于自然語言處理,尤其是文本情感分析類的題目極為偏愛,因為這些題目具有清晰易懂的指定目標和簡單的評價方法。接下來,德龍進一步探討了機器可讀性(Readability)和可處理性(Processability)方面的問題。他指出,機器可讀并不代表機器可處理,需要進一步將數據鏈接到本體或知識圖譜,引入領域知識或常識,以使其具有機器可處理性,在此方面,Wikidata是一個優秀的案例。

德龍提出了幾個他認為數字人文學者在開展項目時可以考慮的問題。其一是把相關資料鏈接到內容廣泛的一般性知識圖譜,以補充“理所當然”的領域知識或常識;其二是考慮參與Wikidata的知識圖譜建設,提出新性質并提供自己的標識符;其三是把數據庫包裝成適合機器學習處理的項目,在Kaggle等平臺上分享,吸引計算機學者參與;其四是為數據提供簡單完整的說明,這會使得數據更容易被其它領域的研究者使用。

包平:“方志物產數字人文研究實踐與思考”

最后,由本次會議的東道主,來自南京農業大學的包平教授以“方志物產數字人文研究實踐與思考”為題進行了報告。包平教授首先向大家介紹了本次會議召開的原因。在開展研究的過程中,他的團隊在項目推進過程中遇到了很多難以在內部突破的問題,因此決定求教外部力量,這也是本次會議召開的初衷。同時,因為一直對思考跨學科發展有所思考,他特地將兩個領域的專家召集起來進行討論。包平教授對在場各位專家的到來表示感謝,并在演講中對南京農業大學數字人文研究團隊的工作進行了簡要報告。

包平教授介紹到,方志是中華獨有的一種歷史文獻,約占存世古籍的十分之一。從宋代以后,物產成為方志中一個重要的欄目。較為幸運的是,此前已經有幾代人將方志資料進行整理,如萬國鼎先生在建國初年所整理的一百余冊《方志物產》手抄本,摘錄有3600多萬字的物產信息專題資料。《方志物產》的材料在空間維度上涵蓋了國內所有行政區域,在時間維度上涵蓋宋代以降約九百年的舊志,在內容上涵蓋了多種罕見或廣義方志,是獨一無二的古籍再造,也是規模最大的地方志物產資料集成匯錄,并且具有完備的查檢系統,可以輔佐追溯和還原物種演變的路線圖。上世紀九十年代開始,王思明教授帶領一支團隊開始了《方志物產》的數字化工作,先是對原始文獻進行掃描,而后又開展全文錄入。侯漢清教授的團隊,則在十幾年前就開始進行文本的自動斷句、自動標點、引書、本體構建等研究工作,此為《方志物產》智能整理的開端。從2008年開始,包平教授開始接手此項任務并開展新的系列工作,團隊中的朱鎖玲、李娜、徐晨飛等博士分別從實體名稱智能識別、社會網絡、深度學習、關聯數據等角度進行了體系化探索。2018年,團隊獲批國家社會科學基金重大項目,繼而深入開展幾項新的研究,包平教授對這些研究的進展依次進行了詳述。

首先是《方志物產》資料的再輯錄、整理與數字化。《方志物產》手抄本資料也有缺漏,團隊目前正在進行再輯錄和整理,并對原有材料開展糾錯和校對,現已補充了1696種方志物產資料,總量已達9071種。同時,團隊還進行了方志物產素材庫構建,目前該素材庫已經能夠基本實現物產的導入、導出、瀏覽、抽檢、刪除、修改、統計和用戶管理等功能。其二是方志物產資料的多層級自動標注,在這個方面,團隊已經制定了相應規范并搭建了一體化標注平臺,開展分詞、詞性和命名實體識別等工作。其三是知識庫的構建,團隊進行了面向領域專家的問卷調查工作,充分了解需求,目前已構建新的知識組織框架,并著手處理關聯數據發布和本體構建問題。這三個子課題相互關聯,最終目的設計并實現方志物產知識庫原型系統,提供檢索、可視化、關聯功能。其四是方志物產知識發現與考證,該子課題當下正處在構想階段,其核心就是解決方志物產的“同物異名”和“異物同名”問題,目前團隊希望通過結合上下文、引入外部資料、構建分類體系等方式構建智能考釋模型。其五是方志物產資料深度利用,在這個方面,團隊希望將他們的研究與社會需求從宏觀、微觀層面結合起來。對此,包平給出了幾個典型應用場景,包括通過梳理方志物產資料以挖掘傳統種質資源,地標產品的歷史文化內涵挖掘,以及藥用物產的智能整理與利用等。

包平提到,在研究開展的過程中,團隊也遇到了版本與資料完整性、集外字、別名、同物異名、同名異物、知識庫構建、理論體系與技術方法構建等問題,對此,他們正在積極尋求解決方案。包教授在結語中先引用《未來簡史》尤瓦爾?赫拉利的一段話:每股科學的陽,都包含著一股人文主義的陰,反之亦然。陽給了我們力量,而陰則提供了意義和倫理判斷。現代性的陽和陰,就是理性和感性、實驗室和博物館。延伸出若把方志物產知識組織與挖掘的技術體系喻為陽,那么物產與自然、社會發展的關系則是陰;把物種演變的生物學屬性喻為陽,其多樣的形態與人文的解釋又成為陰;數字人文是數字技術快速發展,學科間交叉融合的產物,其研究范式尚在形成之中,我們只有多一些合作賦能,多一些爭鳴批判,發展方能行穩致遠。

最后,他還向大家展示了南京農業大學設計的“中華方志物語”標志,未來團隊的知識庫正式發布時,將會使用這個logo。

    責任編輯:彭珊珊
    校對:徐亦嘉
    澎湃新聞報料:021-962866
    澎湃新聞,未經授權不得轉載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            百家乐博娱乐网赌百家乐| 百家乐赢家球讯网| tt娱乐城网址| 赌场百家乐投注公式| 互博百家乐官网现金网| 盈得利百家乐娱乐城| 百家乐官网麻将牌| 明升88 | 实战百家乐的玩法技巧和规则| 百家乐官网家居 | 玩百家乐都是什么人| 澳门百家乐会出老千吗| 百家乐官网高科技出千工具 | 百家乐真人游戏娱乐场| 百家乐官网单注打| 百家乐官网路单破| 百家乐官网游戏软件开发| 皇廷娱乐| 大发888检测技能| 百家乐顶路| 新葡京百家乐官网娱乐城 | 德州扑克规则视频| 幸运水果机游戏| 百家乐一邱大师打法| 百家乐好赌吗| 百家乐存在千术吗| 找真人百家乐官网的玩法技巧和规则 | 大发888游戏平台 17| 威尼斯人娱乐城信誉怎样| 百家乐皇室百家乐| 百家乐8点| 香港百家乐马书| 吉利百家乐的玩法技巧和规则| 致胜百家乐软件| 赌百家乐的玩法技巧和规则 | 全迅网百家乐官网的玩法技巧和规则 | 线上真人游戏| 全讯网新3| 至尊百家乐20111110| 罗盘24山度数| 财神百家乐官网的玩法技巧和规则 |