长兴郴障科技有限公司

澎湃Logo
下載客戶端

登錄

  • +1

維基百科星星之火,照亮科研征途之路

2021-09-02 11:22
來源:澎湃新聞·澎湃號·湃客
字號

維基百科星星之火,照亮科研征途之路 原創 胡一冰 集智俱樂部 收錄于話題 #復雜科學前沿2021 ,136個

導語

達爾文在一百多年前曾贊美“通俗科學讀物”的重要性,他不是在贊美這些讀物對大眾理解的影響,而是在贊美它們對于“科學的進步”。近日 SSRN 上的一項研究通過隨機對照實驗的方法印證了維基百科——這一最大的現代通用和通俗著作庫對知識傳播的影響。研究表明,維基百科不僅反映了科學文獻的現狀,它還有助于塑造科學文獻。

集智俱樂部也在組織「集智百科」這一長期項目,力求建立復雜性科學及相關領域全面、可靠的在線百科全書,歡迎對復雜性科學感興趣、熱愛知識整理和分享的朋友加入。詳情見文末。

研究領域:科學學,維基百科,因果推斷,知識傳播

胡一冰 | 作者

劉培源 | 審校

鄧一雪 | 編輯

論文標題:

Science Is Shaped by Wikipedia: Evidence From a Randomized Control Trial

論文地址:

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3039505

1. 通俗讀物對科學的影響

達爾文曾認為,對于科學的進步的來說,一般的、通俗讀物和科學論文一樣重要。正如他撰寫的《物種起源》不僅是開創性的科學著作,同樣也是受人喜愛的暢銷書。現在人們能通過許多開網站獲取知識,這些公共知識庫(public repositories of knowledge)能很好的促進個人和社會的發展,例如人類基因組、StackOverflow、種子銀行等等。

盡管如此,仍有許多重要的科學知識無法在公共知識庫中獲取,尤其是發表在一些重要學術期刊上的研究成果或理論。人們對這部分知識的了解往往止步于付費文檔、晦澀術語和糟糕的寫作等等。但如果這些深奧的科學見解被轉化為平易近人的通俗文章,是否可以在便捷的公共知識庫中獲取呢?

圖1:公共知識庫(知識共享平臺)為無數學習者提供了學習資源

維基百科想必大家并不陌生,有研究表明維基百科涵蓋了頂尖學術型本科生討論的90%以上的話題,以及初級研究生研討的約一半左右的話題。很明顯維基百科反映了科學,但它也同樣塑造了科學嗎?科學家們在瀏覽維基百科文章時產生新的想法嗎?為了客觀衡量維基百科對科研的影響,近日在 SSRN 上發表的一項研究通過大數據和實驗兩種方法,發現了其中蘊含的因果關系,即當科研成果作為參考文獻添加到維基百科后,這些論文將會有更多的學術引用。

2. 維基百科,最好的通俗讀物數據庫之一

維基百科是一個由用戶生成和編輯的在線百科全書,是目前同類中最大的百科全書。截至2017年,維基百科有530萬篇文章。這些內容是由大約3000萬注冊編輯完成的,其中大約12萬人是活躍者。在過去的十年中,平均每年有3000萬余次編輯,其中包括創建新文章和完善現有文章。維基百科涵蓋各種各樣主題,其中每500萬篇文章中有50~100萬篇是關于科學主題的,并且這些文章都適合大多數本科生及研究生水平讀者。

圖2:自維基百科成立以來每年增加的詞匯和文章數量

先前的一些實證研究表明,對特定研究主題的接觸會影響科學家的研究和文獻引用。例如有人發現《紐約時報》發表一篇文章的增量效應會顯著增加潛在研究論文的引用,其中第一年的引用增加了72.8%。

維基百科的存在讓科學信息變得更易獲取,該研究預計它也會對科學文獻產生影響。然而,這種影響很難通過熟知的引文檢索等方式得出,比如曾經有研究發現只有0.01%的科學文章直接引用維基百科條目。那么,該研究者假設這不是因為維基百科沒有影響,而是傳統的學術引用沒有捕捉到維基百科的影響。為了驗證這一點,研究者們開發了一種詞匯測量方法,并利用學者們論文中的文字直接測量效果。

3. 研究數據來源介紹

該研究有四個主要的數據來源,分別是——

(1)完整的維基百科編輯歷史,包括自維基百科成立以來對每個頁面的每一次修改。編輯歷史共包括510萬篇文章,3.53億次編輯,174億字。一般來說,新的維基百科文章開始時很短,內容會隨著時間的推移慢慢豐富。比如圖3描繪了新創建的超過20個單詞的文章的大小分布。這里我們可以看到,大部分的文章開始不到200字。在分布的尾部仍有一部分字數很多的文章,這可能是由于重命名或重新分配大型現有文章而導致的。

圖3:所研究數據范圍內新創建的超過20個單詞的百科文章字數分布

(2)第二個是自1995年以來從5215份Elsevier期刊上發表的所有文章的全文版本,用它來代表科學文獻的狀態。一方面研究需要文獻全文來了解使用的詞匯,以此判斷它們是否反映了維基百科中使用的詞匯。另一方面還需要各文獻的發表信息,例如作者、發表年份等等。

(3)第三是從Web of Science獲得的學術期刊文章的引用數據。它提供了定向鏈接,表明哪些論文引用了哪些論文。這一信息也被匯總為每篇論文的每月總被引次數。

(4)第四個數據源是作為隨機控制實驗而創建的一組維基百科文章。

4. 數據觀察分析與結論

該分析的目的是檢驗維基百科文章內容和科學文獻中的技術內容之間的廣泛關聯,具體表現為確定維基百科和《科學》在許多主題的大量文章中是否存在同步變化。同步變化表現在語義相似度(semantic similarity)和時間線(timeline)上。

(1)語義相似度。研究者們使用了余弦相似度(cosine similarity),一種“向量空間模型”(Vector Space Model)來評估科學文獻中的內容是否與維基百科中的內容相似。也就是說,將每個文檔中的單詞形成一個向量,然后對兩個向量進行比較。

圖4:化學主題中維基百科和科學文章之間的相似性密度

(2)時間線。為了檢驗維基百科和科學研究之間的關系,該研究查看了維基百科中新文章出現前與后短期內的科學文章。具體時間線界如圖5所示:維基百科中文章的出現時期為首次創建后的三個月,而研究所覆蓋的時間范圍包括文章發表前6個月和之后的6個月。研究假設如果維基百科對科學發展有影響,那么維基百科文章創建后發表的論文將比之前發表的論文更像百科文章。

圖5:維百科文章的科研影響研究時間窗

研究者們對數據進行基本分析后,如圖6所示,明確得到了維基百科的文章創作與科研文獻的發表有明顯正相關關系。不過這種趨勢針對于一些專業科學術語,例如“臭氧”一詞在維基百科和《科學》之間體現了相關性,但是像“反應”這種詞匯卻無法體現這一趨勢。

圖6:維基百科的文章創作與科研文獻的發表的相關性

5. 隨機對照試驗及結論

從觀察得到的相關性結論具有啟發意義,但這并不是因果關系。為此,在2013至2016年期間,該研究設計了多組對照實驗來確定維基百科對學術科學的因果影響。具體做法是:讓來自頂尖大學的博士生根據他們各自的研究領域來撰寫新的科學主題維基百科文章,其中隨機挑選一半的文章上傳到維基百科,另一半則不上傳,仍采用對比一定時間窗內文章的相似度的方式,來考慮這些文章對科學文獻的不同影響。

圖7反映對照組和實驗組中的維基百科文章對科學文獻的影響。其中綠色為沒有上傳至維基百科網站上的文章(對照組)影響,藍色是上傳至網站上的文章(實驗組)影響,通過對比兩組文章與科學文獻的相似性后發現:對照組低相似度的文章數量增加,而高相似度的文章數量下降。而實驗組結果相反,低相似度文章少,高相似文章多。這表明添加一篇新的維基百科文章會導致類似的科學文獻數量增加。此外,研究者們推導估計,維基百科的每一篇文章(在一定程度上)可以影響250篇科學文獻。

圖7:對照組和實驗組中的維基百科文章對科學文獻的影響

6. 維基百科與科研關系的引申問題

對照實驗的發現客觀的驗證了維基百科對科學文獻的影響,為了更好地理解維基百科文章的影響,研究者們還對以下三個問題進行進一步的思考:

(1)維基百科文章的對科學文獻的哪些部分有影響?

我們通常把科學文獻結構分成摘要、介紹、方法、結果和結論幾部分。研究表明,除了摘要部分,維基百科對文獻其他部分均有統計學上的顯著影響,其中方法部分的統計顯著性最弱,而介紹部分最強。這說明維基百科文章對科學的背景以及作者與該領域其他方面的聯系產生了最大的影響。方法論部分的弱顯著性說明科學家們更傾向于根據維基百科的內容來塑造他們的實驗,而非將其置于上下文之中。

(2)將維基百科作為資源對科學文獻的質量影響是好是壞?

研究人員將這個棘手的問題又拆分成兩個子問題:使用維基百科作為來源的文章被引次數會更少嗎?維基百科是否有助于引導科學家找到好的靈感?根據目前的研究看來,并沒有發現任何證據表明受維基百科影響的文章比不受維基百科影響的文章獲得更多或是更少的引用。

對于第二個個子問題,實驗組中的維基百科文章文末均添加了2-3篇參考文獻,研究人員在該篇維基百科文章發布后的兩年中查看這些參考文獻的平均每月引用量。結果顯示,維基百科的文章頁面瀏覽量增加一倍會使文章引用量增長13%。

(3)某些特定群體(例如無法獲得傳統期刊文章的群體)是否獲益過多?

人們可能會認為,公共知識庫對那些其他知識來源較少的人特別有價值,例如無法獲得科學期刊的發展中國家研究人員。相反,如果研究者們不能訪問維基百科引用的期刊文章,他們從維基百科文章中的收獲可能會更少。我們通過考慮基于國內人均GDP的差異效應來檢驗這些維基百科效應的影響。結果表明,相對富裕的國家比貧窮的國家能從中受益更多。可能原因一是在人均GDP較低的地區,維基百科的使用量較低。原因之二可能是能訪問學術期刊是充分受益于維基百科文章的必要條件。

7. 研究總結與其現實價值

該研究分析了公共科學知識庫的影響,通過隨機對照試驗,研究者發現維基百科科學文章的創建會影響科學文獻中數百篇后續文章——這有力地證明了維基百科是傳播知識的重要來源。該項工作超越了相關性來建立因果關系,不難得到這樣的結論:維基百科不僅反映了科學文獻的現狀,它還有助于塑造科學文獻。

研究者們希望這項發現能夠足以激勵更多科學家采取積極行動為維基百科提供文章和編輯。當然,這絕不局限于個人行為。研究者們期望相關公共政策干預能促進科學的發展,例如降低這些公共知識平臺運營成本,組織各行業專業協會開發全面的在線知識庫等。

參與集智百科,助力復雜科學

集智百科的目標是做復雜性科學領域科學、全面、客觀的百科全書,以“知識從我而來,問題到我為止”為宗旨。目前我們詞條已經涵蓋復雜系統、人工智能、統計物理、因果科學、計算社會科學等復雜性科學的關鍵領域,未來我們還會不斷為百科添加更多內容。

現在,我們的團隊有各式各樣的成員,包括海內外知名高校的學生、教授、以及來自各行各業的科學詞條愛好者,分別處理審校、翻譯、編輯、傳播等工作。我們有一個共同點:對復雜性科學有著濃厚的興趣,且樂于分享自己的知識。

集智百科采用“眾包生產”模式,持續吸引更多志愿者加入這個團隊,使百科詞條內容得到擴充,并為每位志愿者提供相應獎勵與資源,建立個人主頁與貢獻記錄,使其能夠繼續探索復雜世界。

如果你有意參與更加系統精細的分工,掃描二維碼填寫報名表。期待你的加入!

集智百科報名表

原標題:《維基百科星星之火,照亮科研征途之路》

閱讀原文

    本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            赌博百家乐官网玩法| 百家乐官网群html| 58百家乐官网的玩法技巧和规则 | 财神娱乐城怎么样| 百家乐庄闲点数| 百家乐官网休闲游戏| 申博太阳城娱乐城| 正宗杨公风水24山分金| 百家乐官网怎么打啊| 大发888官方sscptdf88yb| 网上百家乐博彩正网| 视频百家乐官网网站| 娱乐城免费领取体验金| 立博百家乐的玩法技巧和规则| 金榜百家乐官网娱乐城| 鹤山市| 索罗门百家乐的玩法技巧和规则| 现金百家乐| 百家乐分路单| 百家乐官网娱乐平台网77scs| 网络百家乐路子玩| 百家乐软件官方| 百家乐官网五湖四海娱乐城| 手机百家乐的玩法技巧和规则| 赌博博彩论坛| 百家乐博娱乐场开户注册| 葡京百家乐技巧| 百家乐官网桌子10人| 黑河市| 大发888手机版下载安装到手| 百家乐官网波音独家注册送彩| 波音开户| 百家乐变牌桌| 百家乐美女荷官| 星期8百家乐官网娱乐城| 澳门百家乐官网娱乐城送体验金| 百家乐赌博软件下载| 百家乐官网分| 墨尔本百家乐官网的玩法技巧和规则 | 稳赢的百家乐官网投注方法| 在线百家乐官网官方网|