- +1
歷代人物傳記資料庫的視覺化實驗:如何繪制中國的家譜樹?
中國家譜樹的繪制實驗報告
——基于中國歷代人物傳記資料庫的視覺化實踐
The Drawing Experimental Report of Chinese Family Tree based on
the Visual Practice of Biographical Database of Chinese Dynasties
內容摘要:
如果大量的家譜數據庫被公開,歷史研究者就可能利用歷史資料追根溯源——把相關的人物按照家庭關系連接起來,以獲得更悠長、更廣泛的家族族譜,并繪制出一棵家族大樹,讓我們獲得一張“尋根”的地圖。
本文描述了一個大型家族樹繪制的過程,在過程中發現了RT 算法的不適性,但這種不適性卻能夠幫助學者在觀察中快速發現歷史文獻中的問題,尤其是唐宋時期的“一子多父”現象。本文中的兩個案例,都為歷史研究提出了新的問題。
關鍵詞: 視覺化、可視化、家譜、家族樹、RT 算法
我們都曾經問過“我從哪里來”, 這個“哪里”指從母親的子宮轉向到家庭、地方、地區、國家,時代、文化、基因等概念。家譜是我們尋根最直接的依據,家族樹則是家譜中常見的一種信息呈現方式,它不僅可以表現家族的血緣關系,也象征著生命持續地繁衍發展。隨著視覺技術的發展以及越來越多的人口數據庫的開放,我們可以通過個人信息推斷出更多的家庭關系,并連接起比傳統家譜更縱深、更寬闊的樹形結構。那么是否可以將開放的家譜數據繪制成為參天大樹?
一、相關項目
目前有許多商業開發的家譜軟件包、網站提供給個人去查詢自己的家族歷史, 例如:MacfamilyTree 軟件[1] 以及網站 w ww.archives.com,可以幫助擁有大型家譜的個人去觀察自己的家族結構。但是這些家譜樹看起來一點都不像自然的樹形,甚至無法看清其中的支系關系。

“幾個世紀以來,家譜關系一直以手工繪制的幾十個人圖表的形式呈現。系譜軟件現在可以在技術上容納數十萬個個體的數據集。然而,沒有任何軟件能夠以一種清晰的方式將大型數據集視覺化”。[3]

可以說,研究者們還在尋找合適的家族樹形來展現大型家譜信息。那么我們是否可能運用中國歷代人物信息發現大型的家族樹呢?發現之后,還能否看到不同家族樹的姿態差異呢?
二、中國歷代人物傳記資料視覺化實踐
我們采用中國歷代人物傳記資料庫( 以下簡稱:CBDB),它是由哈佛大學歷經數年主持開發而成的,包含從傳記資料索引、史料、文學作品、官方文書等收錄的7 世紀至19 世紀的37 萬人的資料。[6] 但是,CBDB 并不是一個純粹或者現成的家譜數據庫,其中只有一部分人有家族關系記錄。
我們在家譜中檢查兩個人之間的家庭關系性質,例如檢查兩個人之間是否有共同的父親,從而確定兄弟關系;找到兄弟關系,從而確定他們共同的父親;找到多個人之間是否有共同的祖父,則可以確定他們是否是同一輩人。構成一棵棵家譜樹形是我們的初衷,因此我們采用了RT 算法(Reingold-Tilford Algorithm),運用Processing 程序將每個家族(按照姓氏)的個人轉化為節點,節點之間相互用線連接,根據父子關系由下向上延展出層層分支,最終生成了幾個姓氏的視覺化家譜圖像。(圖3)


這些圖像都顯示出了人口總量的差異以及同一家族的信息在不同朝代的差異。例如,崔氏家族鼎盛于隋唐時代;李氏家族自唐代就是一個大型家族。整體來說,我們可以看到CDBD 數據庫中擁有的數據集中于唐、宋、明、清朝幾個歷史階段,朝代之間則有信息的空白。每一個姓氏并沒有形成一個整體的家族樹,而是一個個小的叢林。明代區域的一棵棵小家庭樹如同展開的雨傘,并不縱深,只有四五代人的信息;而唐宋之間有一些明顯的家族樹,其中橫陳了大量的雜亂連線,讓人無法看清。(圖4)

三、問題的梳理與新發現
當我們以手工方式清理唐宋時期的雜線結構時發現,那些看起來雜亂的橫線大部分是由于“一子多父”的情況造成的。也就是說,RT 算法并不能滿足“一子多父”的關系,它是一個單向發展的、父親的位置總是處于子女中心的關系分布方式,而當多個父親出現時,這些父親只能被留在一個無法控制的位置與子女之間拉出一條不合理的長線。這些長線看起來是橫向的,實際上則應該是縱向的,只是因為父子關系之間的層級高差不大,而RT 算法無法控制第二個父親與子女之間的橫向距離,因此彼此之間橫向距離較遠的父子之間的連線就變成了亂線。這個亂線的現象在Jokbo 中同樣存在,但是作者并沒有對其進行深度的解釋。
我們調整了RT 算法,并結合手工整理(縮小部分樹枝之間的分布距離),看到了王氏、張氏、李氏、崔氏及朱氏家族中所有的“一子多父”案例。(圖5)

存在“一子多父”現象的王氏大家族

存在“一子多父”現象的李氏大家族
那么是什么造成了這樣一種不可能的生物家族結構呢?
根據個案的考察,我們發現“一子多父”的現象有多種情況。例如有的人完全嫁接于另一個家庭、多個父親的名字看起來相似、多個父親的名字完全一致。而兩個父親的現象更多出現在大家族的中段,或是小家族的根部。我們猜想有些原始文獻本身是錯誤記錄的,某些家族關系則是人為嫁接的,而有些則是在歷史文獻抄錄、數據庫錄入中出現的,這些混亂的現象恰恰應該是歷史信息的真實狀態。例如一個人的兩個父親都叫張植,這可能是因為這兩個張植在CDBD 數據庫中有不同的識別號碼。(圖6)

從繪制中國歷代家譜樹的目標來說,RT 算法并不合適,它只適合于由下向上的分支結構,而我們的數據庫中存在向下分支的需要。因此,RT 算法好像增大了噪聲的音量,讓可能深埋于數據庫中的虛假、矛盾、錯誤的信息變得明顯了起來,為歷史學研究激活了新的問題點。
四、實證研究案例
在“一子多父”的家族樹中,我們對其中一些特點突出的家族結構進行考證,嘗試利用文獻資料考察這些特點形成的原因。
1. 對王阮的攀附質疑
在王氏的家族樹中,我們發現了王果家族的家族譜系中有一支明顯的嫁接支系。樹冠結構中的王阮是南宋中興詩壇的重要詩人,與張孝祥、朱熹、周必大、范成大、 王質、陸游等著名詩人交游甚密。根據《宋史》,其曾祖、祖父、父親都是有功之人,王阮本人對自己的祖輩倍感自豪,在詩詞中也經常炫耀家世,例如《題東林一首》《 謝趙宰拜襄敏墓并留題二首》 都是表達對祖父的敬佩懷念之情。[7] 但是,王阮自豪的祖輩關系在家族樹中卻看起來是嫁接的。(圖7)嫁接點的人物是王阮的父親王彥博的兩個兒子:王龜齡和王松齡,從名字的構成來看王阮與兄弟們無血緣關系。

王彥博的兩個父親也是值得探究的問題點,CDBD 所搜錄的宋人傳記資料索引(電子版)中王彥博的父親是王丕,但王丕支系的祖輩并沒有顯赫的人物。雖然王阮在《雪山集序》 中記錄過其父王彥博因為靠近秦檜而被除名后死于貶所,但是擁有曾祖王韶對于王阮來說應該是有利的,因為王韶與大文人蘇轍、王安石都有交情,而作為王韶曾孫的王阮,與南宋著名文人交往也是在身份上對等的。

因此,我們可以懷疑,王阮頌揚祖父的詩文可能是刻意的自我身份表達,而其祖父未必是王阮的祖父。王阮是宋代詩歌研究中經常提及的人物,他也是歷史學者研究的對象,但是王阮家世中的疑點至今沒有學者提及,而是將王阮作品當作可信的史料。將家族樹與史料對照之后,歷史學家可能對王阮其人、其作品會有新的解釋。
2. 對崔氏家族關系的考察
在“一子多父”的樹林中,有不少大型的家族樹,集中于隋唐時期,其中李氏的家族樹最為龐大,而崔氏則有不少的獨立家族樹,是什么原因造成了崔氏家族樹多且相對較大的現象呢?一方面,當我們對比崔氏家族研究的文獻來觀察家
族樹時,了解到崔氏家族確實是中國中古時期的世家大族,它有不同的支系,對于中國古代歷史研究有著重要的意義。
而至今可查的崔氏家族相關的研究都是以世系表格的形式呈現人物關系,并不能表達家族之間的宏觀關系。我們所繪制的家族樹沒有歷史文獻描述得那么長,卻將個體之間的關系明確地聯系了起來,呈現了與文獻描述所一致的一些支系結構。例如鄭州崔氏的家族樹就非常獨立和清晰,具有比文獻更多的信息。

另一方面,某些家族樹通過人工比對合并之后,呈現了比文獻記載更清楚的家族結構。例如,當我們在家族樹圖中合并了崔寅等三個同名同姓的祖父、父親和兒子的位置之后,兩只家族樹合為一棵大樹,這個結構恰好應對了《世系表二下》所描述的家族關系:“清河大房:逞少子諲,宋青、冀二州刺史。生靈和,宋員外散騎常侍。生后魏贈清河太守宗伯。生休、寅。休號大房”“清河小房:寅字敬禮,后魏太子舍人,樂安郡守?!?同時,這個家族樹結構充實了《世系表》記中所記載的家族支系中“房”的概念,例如“崔氏定著十房:一曰鄭州,二曰鄢陵, 三曰南祖,四曰清河大房,五曰清河小房,六曰清河青州房,七曰博陵安平房,八曰博陵大房,九曰博陵 第二房,十曰博陵第三房”[8]。文中所謂的“房”與“房”之間的邏輯關系并不清晰。家族樹的結構表明,清河大房、清河小房共有一個六世祖父,應算同一個支系,與青州房的開端也不是同時代。因此可以說,“崔氏十房”的房與房之間并不是同期形成的。也許這也正是為什么“不少學者在對崔氏家族進行研究時就非常容易混淆這兩個支系的成員”[9] 的原因。(圖8)
以上兩個實證研究案例都揭示了尚未被研究者意識到的問題。我們認為,這種將視覺化結構圖與文獻對照的考察方法應該是有效的、有需求的,它可以幫助學者更有效率地獲取信息,快速地發現歷史文獻中的矛盾點,并對應史料進行進一步考證。
總結
我們的實踐證實,繪制整個中華民族的族系森林是尚不可能的事情,盡管這個初衷是符合邏輯的。原因在于:一方面歷史數據并不充分;另一方面,點線型的樹形結構只適用于表現小型家族,并不適用于展示上千人大型家族脈絡和人物關系我們獲得了對于中國歷代人物家族關系的鳥瞰視野,發現了一些大型的家族,以及“一子多父”的普遍現象?!耙蛔佣喔浮钡默F象讓我們相信,真實的人類家族關系并不會如同自然的樹形一般生長,它的結構可能兼具生物性與非生物性特征。
RT 算法雖然并不適用于繪制“一子多父”的家族樹,但是其不適應性恰好可以讓研究者在家譜信息中快速發現問題點。這些家族樹看起來扭捏、機械,卻具有自然植物的方向性、層次感特征,恰如一個個盆景植物,糾合了人為和自然兩種力量,人為的干預也包括錯、漏、虛、實。
注釋:
[1] https://www.syniumsoftware.com/macfamilytree
[2] Park, Jin Wan. “Information Aesthetics With Visual Genealogy Project.” Leonardo, vol. 44, no. 5, 2011, pp. 464–465. JSTOR, JSTOR, www.jstor.org/stable/41421782.
[3] A. Bezerianos, P. Dragicevic, J.-D. Fekete, J. Bae, B. Watson, "Geneaquilts: A system for exploring large genealogies", Visualization and Computer Graphics IEEE Transactions on, vol. 16, no. 6, pp. 1073-1081, Nov 2010.
[4] M. Ghoniem, J.-D. Fekete, and P. Castagliola. On the readability of graphs using node-link and matrix-based representations: a controlled experiment and statistical analysis. Information Visualization, 4(2):114– 135, 2005.
[5] M. Wattenberg, F. B. Viegas, "The Word Tree an interactive visual concordance", IEEE Transactions on Visualization and Computer Graphics, vol. 14, pp. 1221-1228, 2008.
[6] https://projects.iq.harvard.edu/chinesecbdb/home
[7] 王可喜:《南宋詩人王阮生平事跡考》[J],《長江學術》,2009年第2 期 ,137-144 頁。
[8] 、[9] 吳桂美:《東漢崔氏家族世系及地望的考辨》[J],《古籍整理研究學刊》,2007 年1 月,第81-88 頁。
該項目入選IEEE VIS 2018 (2018年國際可視化學會藝術單元項目)
入選名單:http://visap.net/program



后記: 這是我們少有地涉足中國歷史學數據的一次實驗性創作,得到了來自社會科學、數字人文科學的各位的朋友的鼓勵和支持。 如有學術探討的興趣,歡迎聯系我們。
原文發表于《裝飾》雜志2018年11月期。
向帆 朱舜山
2018年11月29日于清華園
本文首發于微信公眾號“向帆”,稿件原標題為《中國家譜樹的繪制實驗報告》,澎湃新聞湃客頻道經授權轉載,未經允許禁止轉載。
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司