长兴郴障科技有限公司

澎湃Logo
下載客戶端

登錄

  • +1

學(xué)術(shù)論文正被高價(jià)出售給大模型訓(xùn)練,作者卻零收入

澎湃新聞?dòng)浾?喻琰
2024-08-16 13:57
來源:澎湃新聞
? 未來2% >
字號(hào)

·越來越多的學(xué)術(shù)出版商正將研究論文賣給科技公司用以訓(xùn)練人工智能(AI)模型,而作者收入為零。

大語言模型(LLM)因訓(xùn)練數(shù)據(jù)問題再次引發(fā)爭議。日前,國際著名期刊《自然》(《Nature》)雜志編輯伊麗莎白·吉普尼(Elizabeth Gibney)發(fā)布一篇題為《你的論文被用來訓(xùn)練人工智能模型了嗎?幾乎可以肯定》一文。文中作者表示,當(dāng)前有越來越多的學(xué)術(shù)出版商正在將研究論文授權(quán)給科技公司,用于訓(xùn)練人工智能(AI)模型。有學(xué)術(shù)出版商借此賺取了2300萬美元,而作者卻收入為零。這些交易在很多情況下并未征求作者的意見,引發(fā)了部分研究人員的強(qiáng)烈不滿。

“如果你的論文還沒有被用作AI訓(xùn)練數(shù)據(jù),很可能很快就會(huì)成為訓(xùn)練的一部分。”伊麗莎白·吉普尼在文中指出,當(dāng)前學(xué)術(shù)論文作者在面對出版商出售其版權(quán)作品時(shí)幾乎無權(quán)干涉。對于公開發(fā)表的文章,也沒有現(xiàn)成機(jī)制來確認(rèn)這些內(nèi)容是否被用作AI訓(xùn)練數(shù)據(jù)。在大語言模型使用中,如何建立更加公平的機(jī)制保護(hù)創(chuàng)作者的權(quán)益,值得學(xué)術(shù)界和版權(quán)界廣泛討論。

大語言模型(LLM)通常依賴從互聯(lián)網(wǎng)上抓取的大量數(shù)據(jù)進(jìn)行訓(xùn)練。這些數(shù)據(jù)包括數(shù)十億片段的語言信息(稱為“標(biāo)記”),通過分析這些標(biāo)記之間的模式,模型得以生成流暢的文本。學(xué)術(shù)論文因其內(nèi)容豐富、信息密度高,相比大量普通數(shù)據(jù)更有價(jià)值,是AI訓(xùn)練中的重要數(shù)據(jù)來源。數(shù)據(jù)分析師斯特凡·巴克(Stefan Baack)來自全球非營利組織Mozilla基金會(huì),他分析指出,科學(xué)論文對大語言模型的訓(xùn)練有很大幫助,尤其是在科學(xué)主題上的推理能力方面。正是由于數(shù)據(jù)的高價(jià)值,各大科技公司紛紛斥巨資購買數(shù)據(jù)集。

該文指出,今年《金融時(shí)報(bào)》與OpenAI達(dá)成協(xié)議,將其內(nèi)容授權(quán)給后者;被稱為“美國貼吧”的Reddit也與谷歌簽署了類似的交易。這些交易體現(xiàn)出版商試圖通過合法授權(quán)避免自己的內(nèi)容被AI模型無償抓取。

文章透露,上月英國的學(xué)術(shù)出版商Taylor & Francis與微軟簽署了一項(xiàng)價(jià)值1000萬美元的協(xié)議,允許微軟訪問其數(shù)據(jù)以改進(jìn)AI系統(tǒng)。而在6月,美國出版商Wiley通過向某家公司提供內(nèi)容用于AI訓(xùn)練,收入高達(dá)2300萬美元。而這些巨額收入與論文作者沒有任何關(guān)系。

當(dāng)前,研究人員正嘗試用技術(shù)手段幫助作者識(shí)別其作品是否被用于AI模型訓(xùn)練。西雅圖華盛頓大學(xué)的人工智能研究員露西·盧·王( Lucy Lu Wang) 稱,如果一篇論文已經(jīng)被用作模型的訓(xùn)練數(shù)據(jù),在模型訓(xùn)練完成后就無法將這篇論文移除。

不過,即便能證明論文被用于AI訓(xùn)練,但在法律層面仍然面臨爭議。文中指出,出版商認(rèn)為,使用未經(jīng)授權(quán)的受版權(quán)保護(hù)內(nèi)容進(jìn)行訓(xùn)練是侵權(quán)行為;而另一種法律觀點(diǎn)則認(rèn)為,大語言模型并未直接復(fù)制內(nèi)容,而是通過學(xué)習(xí)來生成新文本。

值得注意的是,并非所有研究者都反對將他們的作品用于AI訓(xùn)練。斯特凡·巴克表示,他很樂于看到自己的研究成果被用來提高AI的準(zhǔn)確性,并且不介意AI“模仿”自己的寫作風(fēng)格。然而,他也承認(rèn),并非所有人都能輕松應(yīng)對這一問題,尤其是那些面臨AI競爭壓力的職業(yè),如藝術(shù)家和作家。

事實(shí)上,關(guān)于使用受版權(quán)保護(hù)的知識(shí)作品來訓(xùn)練 AI 模型的訴訟案件此前已引起過廣泛關(guān)注。

8月14日,《華盛頓郵報(bào)》報(bào)道,美國多名視覺藝術(shù)家和插畫家對AI圖像生成工具的集體訴訟案取得突破進(jìn)展。他們曾指控Midjourney和Stability AI等初創(chuàng)公司在未經(jīng)同意的情況下使用作品來訓(xùn)練AI模型。這起案件在本周取得了關(guān)鍵性進(jìn)展。美國地區(qū)法官威廉·奧里克允許該案的關(guān)鍵部分繼續(xù)推進(jìn),這意味著法庭已經(jīng)決定某些指控有足夠的法律證據(jù),可以繼續(xù)審理下去,接下來隨著法律審理的過程,可能會(huì)披露這些公司在開發(fā)AI工具時(shí)的內(nèi)部交流情況。

    責(zé)任編輯:宦艷紅
    圖片編輯:張同澤
    校對:丁曉
    澎湃新聞報(bào)料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司

            反饋
            百家乐论坛官网| 百家乐注册开户送彩金| 明升国际娱乐城| 百家乐赌场| 百家乐官网好津乐汇| 百家乐下注技巧| 做生意选店铺位置| 现金百家乐| 全讯网址| 银河百家乐的玩法技巧和规则 | 金宝博备用网址| 百家乐赔率计算| 名人百家乐官网的玩法技巧和规则| 澳门赌场娱乐城| 百家乐破解仪恒达| 百家乐官网技术辅助软件| 在线真钱游戏| 大发888娱乐场下载iypu rd| 时时博百家乐的玩法技巧和规则 | 德州扑克单机| 百家乐反缆公式| 百家乐靠什么赢| 鼎尚百家乐官网的玩法技巧和规则 | 大发888 ipad版| 百家乐有无技巧| 百家乐真人娱乐城陈小春| 博必发百家乐官网的玩法技巧和规则| 铜陵市| 大发888娱乐城手机| 优博家百家乐娱乐城| 太阳城百家乐官网客户端| 娱乐城注册送彩金| 二八杠小游戏| 大发888老虎机下载| 大发888wofacai官网| 大发888娱乐城登录| 永利百家乐娱乐平台| 百家乐十佳投庄闲法| 百家乐官网娱乐平台网77scs| 易胜博百家乐官网娱乐城| 百家乐官网博娱乐场|