长兴郴障科技有限公司

澎湃Logo
下載客戶端

登錄

  • +1

如何量化語言親密度?自然語言處理在計算社會科學中的應用

2022-09-21 12:01
來源:澎湃新聞·澎湃號·湃客
字號

原創 裴嘉欣 集智俱樂部

導語

語言交流在我們的社會生活中扮演著重要角色,因此,文本分析被廣泛地應用于社會科學研究中。隨著社交媒體大數據時代的到來,計算社會科學興起,傳統文本分析逐漸從手工編碼過渡到數據驅動的大規模文本分析。在集智俱樂部「計算社會科學第二季第七期」,密歇根大學安娜堡分校信息科學在讀博士裴嘉欣以量化語言親密度的研究為例,介紹自然語言處理的基本流程,并重點討論了如何將傳統的手工編碼拓展到大規模自動化的文本分析。以下是此次讀書會內容的整理。

研究領域:自然語言處理,計算社會科學

裴嘉欣 | 講者

秦曉艷 | 整理

鄧一雪 | 編輯

1. 從手工編碼到大規模文本分析

語言在社會生活中扮演了很重要的角色,人與人之間的交流、法律條文、社會組織、人的思考等,都是以語言為載體進行的。同時語言在社會科學研究中也非常重要,例如:社會學中會研究性別詞匯在不同場景中的表達;傳播學中對新聞、社交媒體的討論;心理學中對人際溝通、辯論、觀點和態度的研究;政治學中對政治觀點的研究,均與語言(文本)相關。因此,文本分析被廣泛地應用于傳統的社會科學研究中。

在傳統的社會科學研究中,文本分析主要分為4個過程:確定研究問題;準備數據;手工編碼;得出結論。

隨著計算社會科學的興起,研究中使用的數據規模增大,傳統文本分析存在一定的局限性:

(1)數據規模小。由于傳統文本分析采用手工編碼,因此可以處理的數據量級限制在100~10k;

(2)很難被重復使用。對于任何一個哪怕是類似的問題,都需要重復的編碼;

(3)可復現性差。手工編碼過程受到編碼人員個人經驗的影響,其他研究者很難復現和驗證其他人所做的工作。

因此,傳統文本分析逐漸從手工編碼過渡到大規模文本分析。

2. 大規模文本分析的基本流程

大規模文本分析的基本流程包括:確定研究問題;準備數據;手工編碼;訓練模型;分析數據;得出結論。

可以看出,與傳統文本分析相比,大規模文本分析中的手工編碼是數據驅動的,并且手工編碼的目的不再是為了直接得出結論,而是為了訓練模型,進而將模型應用于數據中,這一過程使得文本分析不再受到數據規模的限制。以下詳細闡述大規模文本分析的每個階段。

確定研究問題

確定研究問題應該從大的角度出發。例如,我們可以研究“什么樣的微博會獲得更多點贊”,這是一個切入點較大的問題,其數據量也較大,得出的模型適用于多個微博用戶場景;而如果我們研究“Papi醬微博評論的點贊分析”,這便是一個切入點較小的問題,最終的研究結論很難適用于其他的微博用戶,其研究數據量小,是一個傳統的文本分析問題。

確定研究問題應該從理論出發。例如“人類群體的情感是如何在一天之內變化的”是一個建立在理論根基上的研究問題;而“基于Python的微博情感挖掘”是一個僅僅基于工具和模型而脫離理論根基的問題,其研究意義不大。

確定研究問題還應該從可獲取的數據出發。目前在計算社會科學中取得重要研究成果的領域集中在社交媒體、新聞、科學領域等,可以發現,這些領域都擁有很多數字化的數據,便于研究者進行深入研究。

準備數據

準備數據主要包括數據收集和數據預處理。在數據收集階段,我們需要從研究問題出發確定數據,確保數據有一定的代表性和可挖掘性。同時,原始數據中的臟數據將會對結果的準確性產生影響,一般需要對無效數據、機器人數據、確實數據和非特定語言數據等類型的臟數據進行預處理。

手工編碼

數據驅動的手工編碼階段首先需要進行采樣,采樣的同時需要考慮類別不平衡問題對模型結果的影響;其次,確定明確的編碼方式和清晰的標注規則,進而確定標注人員和標注系統,標注人員可以選擇學生、專業人員和眾包平臺等,常見的眾包平臺有 Amazon mechanical turk 和Prolific。以上完成之后,由于標注中會有很多未知的因素,需要通過不斷地預先試驗來確定最優的標注方案,最后采用一致性檢驗衡量試驗標注和最終標注的質量。

訓練模型

訓練模型階段需要根據任務的不同選擇不同的模型。基于詞的模型,例如:Bag of Words/embedding + Linear model/SVM,速度較快但模型效果較差。預訓練語言模型,例如Bert、Roberta等,模型準確率高但速度較慢。

分析數據并得出結論

最后,可以將得到的模型用于更大的數據集上進行數據分析,研究感興趣的話題或者社會現象,進而得出結論。

3. 量化語言親密度:

性別、社交距離和匿名性的影響

現實生活中,我們會對不同的人問不同的問題。例如:“在你的家庭中,你最擔心誰先去世”,這是一個比較親密的問題,我們更傾向于問關系親密的朋友或家人,卻很少問陌生人;在向陌生人打招呼時,“今天天氣怎么樣”似乎不利于話題的深入,我們更傾向于選擇“你最喜歡的電影是什么”,這樣的問題更有利于話題的深入和彼此的初步了解。

因此,我們產生兩個感興趣的話題:這些問題有什么不同? 什么因素決定這些問題的合適性?我們將其看作一個計算社會科學與文本分析相結合的研究,將基于大規模文本分析的基本流程展開研究和討論。

為了衡量這些問題的不同,我們引入心理學中“親密度”的概念。在社交關系中,我們與陌生人的親密度低,與戀人、家人之間的親密度高;在社交行為中,問路、握手是親密度較低的行為,接吻、擁抱是親密度較高的行為。因此,基于研究背景可知,在語言中,“在你的家庭中,你最擔心誰先去世”是一個親密度較高的問題,“今天天氣怎么樣”是一個親密度較低的問題,而“你最喜歡的電影是什么”的親密度介于前兩者之間。因此可以定位研究問題:如何量化語言中的親密度?

圍繞“如何量化語言中的親密度?”這一問題,在 r/AskReddit 平臺上收集了近300萬個問題,并且根據不同月份進行采樣,每個月采樣1000個問題,便于后續進行數據標注。

由于每個人對親密度的感知和衡量親密度的尺度不同,標注問題的親密度是一個挑戰,為確定明確的編碼方式和標注規則,采用 Best-Worst-Scaling 方法來標注親密度:標注者被要求選擇最親密和最不親密的問題;其次通過標注的親密度產生問題對之間的比較,進而采用排序算法計算出每個問題的親密度得分,實現了量化語言中的親密度的過程。

基于標注完成的數據,訓練預測親密度的 NLP 模型,稱之為RoBERTa模型。由圖可以看出,該模型的輸入為某一個問題,輸出為該問題的親密度評分。

以上完成了基于采樣數據的數據標注及模型訓練,模型可以預測某個問題的親密度,完成了量化語言親密度的工作。進而我們可以將模型應用于更大的數據集上,分析決定問題合適性的因素是什么,進而得出結論。該研究定位三大可能的因素:社交距離、性別和匿名性。

首先研究了社交距離對人與人之間的問題親密度的影響。采用人與人在社交網絡中的分割度表示社交距離,研究了社交網絡中的分割度與語言親密度的關系,如下圖。圖中的橫坐標代表人與人在社交網絡中的分割度,分割度越小,則存在更加直接的聯系;縱坐標則為親密度。曲線整體呈U型,說明了“最親密的關系發生在關系最親密的朋友之間以及完全的陌生人之間”,前者普遍發生于人與人的交往中,而后者說明在與陌生人交往的過程中,隨著分割度的增加,人們逐漸打破了交往的社會約束,因此最親密的關系也有可能發生在完全的陌生人之間。

其次研究了性別對人與人之間的問題親密度的影響。主要研究了“男性對男性”、“女性對女性”、“男性對女性”、“女性對男性”四個性別組在四個不同平臺上的親密度,如下圖可知, 不論在哪個平臺,男性之間的對話是最不親密的,說明男性之間存在更強的社會約束。相比而言,女生與女生之間的對話親密度最高,說明女性之間的對話更容易打破原有的社會約束。

最后研究了匿名性對人與人之間的問題親密度的影響。首先說明三類匿名身份:Depersonalized accounts:賬號中沒有明確的身份標記;Name Containing:賬號中僅包含與個人身份相關的用戶名;Anonymous accounts:賬號中包含“throwaway” 或“anonymous”字樣。研究了三類匿名身份與親密度的關系,發現賬號類型為Anonymous的賬號會問最為親密的問題,而即使賬號中僅包含與個人身份相關的用戶名時(Name Containing),人們也不會提出較為親密的問題。說明只有當人們完全脫離社會約束時,才會問一些更加親密的問題。

4. 總結

在大數據時代以及計算社會科學的研究背景下,傳統的手工編碼逐漸過渡到大規模文本分析,大規模文本分析主要通過預先訓練模型,進而將模型應用于更大規模的數據集上來分析數據,克服了大規模數據集上傳統文本分析手工編碼困難、很難被重復利用、可復現性差的局限性。因此,大規模文本分析被逐漸應用于計算社會科學的研究中,例如語言中的親密度研究,通過大規模文本分析量化了語言中的親密度,進而研究了語言親密度的影響因素,得出了一系列可解釋性的結論,在心理學、計算社會學科學和自然語言處理領域具有較大的研究價值與意義。

主講人簡介

裴嘉欣,密歇根大學安娜堡分校信息科學博士在讀,研究方向為計算社會科學和自然語言處理,致力于構建新的自然語言處理模型來分析大規模人類行為,目前主要關注人際傳播和科學傳播,相關成果發表于ACL, EMNLP, WWW等會議。

主頁鏈接:

https://jiaxin-pei.github.io/

計算社會科學讀書會第二季

計算社會科學作為一個新興交叉領域,越來越多地在應對新冠疫情、輿論傳播、社會治理、城市發展、組織管理等社會問題和社科議題中發揮作用,大大豐富了我們對社會經濟復雜系統的理解。相比于傳統社會科學研究,計算社會科學廣泛采用了計算范式和復雜系統視角,因而與計算機仿真、大數據、人工智能、統計物理等領域的前沿方法密切結合。為了進一步梳理計算社會科學中的各類模型方法,推動研究創新,集智俱樂部發起了計算社會科學系列讀書會。

集智俱樂部「計算社會科學讀書會第二季」由清華大學羅家德教授領銜,卡內基梅隆大學、密歇根大學、清華大學、匹茲堡大學的多位博士生聯合發起,自2022年6月18日開始,持續10-12周。本季讀書聚焦討論Graph、Embedding、NLP、Modeling、Data collection等方法及其與社會科學問題的結合,并針對性討論預測性與解釋性、新冠疫情研究等課題。

新一季由清華大學羅家德教授領銜,卡內基梅隆大學、密歇根大學、清華大學、匹茲堡大學的多位博士生聯合發起,自2022年6月18日開始,持續10-12周。本季讀書將聚焦討論Graph、Embedding、NLP、Modeling、Data collection等方法及其與社會科學問題的結合,并針對性討論預測性與解釋性、新冠疫情研究等課題。

原標題:《如何量化語言親密度?自然語言處理在計算社會科學中的應用》

閱讀原文

    本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            威尼斯人娱乐城老品牌lm0 | 老虎机游戏在线玩| 百家乐官网庄闲比率| 菲律宾百家乐官网太阳城| 赌博百家乐技巧| 淮安市| 澳门百家乐登陆网址| 姚记娱乐城信誉最好| 长春百家乐官网的玩法技巧和规则| 大发888博彩网站xa11| 百家乐官网牌| bet365地址| 电脑版百家乐分析仪| 超级百家乐官网2龙虎斗| 中国德州扑克比赛| 百家乐网投注| 百家乐官网走势图解| 乐九娱乐| 百家乐娱乐下载| 百家乐官网的视频百家乐官网| 澳门百家乐赌场| 大丰收百家乐官网的玩法技巧和规则 | 百家乐l路单| 金博士百家乐官网的玩法技巧和规则| 万博网址| 赌博百家乐规则| 百家乐转盘技巧| 百家乐官网是怎么赌法| 顺平县| 博狗博彩网站,| 百家乐娱乐送白菜| 百家乐官网网络赌博网址| 太阳城绿萱园| 巴黎人百家乐的玩法技巧和规则 | 百家乐官网认牌| 网上百家乐官网作弊下载| tt娱乐城网址| 真人百家乐蓝盾娱乐网| 免水百家乐官网的玩法技巧和规则| 百家乐官网英皇娱乐城| 水富县|