- +1
學(xué)術(shù)論文正被高價(jià)出售給大模型訓(xùn)練,作者卻零收入
·越來越多的學(xué)術(shù)出版商正將研究論文賣給科技公司用以訓(xùn)練人工智能(AI)模型,而作者收入為零。
大語言模型(LLM)因訓(xùn)練數(shù)據(jù)問題再次引發(fā)爭議。日前,國際著名期刊《自然》(《Nature》)雜志編輯伊麗莎白·吉普尼(Elizabeth Gibney)發(fā)布一篇題為《你的論文被用來訓(xùn)練人工智能模型了嗎?幾乎可以肯定》一文。文中作者表示,當(dāng)前有越來越多的學(xué)術(shù)出版商正在將研究論文授權(quán)給科技公司,用于訓(xùn)練人工智能(AI)模型。有學(xué)術(shù)出版商借此賺取了2300萬美元,而作者卻收入為零。這些交易在很多情況下并未征求作者的意見,引發(fā)了部分研究人員的強(qiáng)烈不滿。
“如果你的論文還沒有被用作AI訓(xùn)練數(shù)據(jù),很可能很快就會(huì)成為訓(xùn)練的一部分。”伊麗莎白·吉普尼在文中指出,當(dāng)前學(xué)術(shù)論文作者在面對出版商出售其版權(quán)作品時(shí)幾乎無權(quán)干涉。對于公開發(fā)表的文章,也沒有現(xiàn)成機(jī)制來確認(rèn)這些內(nèi)容是否被用作AI訓(xùn)練數(shù)據(jù)。在大語言模型使用中,如何建立更加公平的機(jī)制保護(hù)創(chuàng)作者的權(quán)益,值得學(xué)術(shù)界和版權(quán)界廣泛討論。
大語言模型(LLM)通常依賴從互聯(lián)網(wǎng)上抓取的大量數(shù)據(jù)進(jìn)行訓(xùn)練。這些數(shù)據(jù)包括數(shù)十億片段的語言信息(稱為“標(biāo)記”),通過分析這些標(biāo)記之間的模式,模型得以生成流暢的文本。學(xué)術(shù)論文因其內(nèi)容豐富、信息密度高,相比大量普通數(shù)據(jù)更有價(jià)值,是AI訓(xùn)練中的重要數(shù)據(jù)來源。數(shù)據(jù)分析師斯特凡·巴克(Stefan Baack)來自全球非營利組織Mozilla基金會(huì),他分析指出,科學(xué)論文對大語言模型的訓(xùn)練有很大幫助,尤其是在科學(xué)主題上的推理能力方面。正是由于數(shù)據(jù)的高價(jià)值,各大科技公司紛紛斥巨資購買數(shù)據(jù)集。
該文指出,今年《金融時(shí)報(bào)》與OpenAI達(dá)成協(xié)議,將其內(nèi)容授權(quán)給后者;被稱為“美國貼吧”的Reddit也與谷歌簽署了類似的交易。這些交易體現(xiàn)出版商試圖通過合法授權(quán)避免自己的內(nèi)容被AI模型無償抓取。
文章透露,上月英國的學(xué)術(shù)出版商Taylor & Francis與微軟簽署了一項(xiàng)價(jià)值1000萬美元的協(xié)議,允許微軟訪問其數(shù)據(jù)以改進(jìn)AI系統(tǒng)。而在6月,美國出版商Wiley通過向某家公司提供內(nèi)容用于AI訓(xùn)練,收入高達(dá)2300萬美元。而這些巨額收入與論文作者沒有任何關(guān)系。
當(dāng)前,研究人員正嘗試用技術(shù)手段幫助作者識(shí)別其作品是否被用于AI模型訓(xùn)練。西雅圖華盛頓大學(xué)的人工智能研究員露西·盧·王( Lucy Lu Wang) 稱,如果一篇論文已經(jīng)被用作模型的訓(xùn)練數(shù)據(jù),在模型訓(xùn)練完成后就無法將這篇論文移除。
不過,即便能證明論文被用于AI訓(xùn)練,但在法律層面仍然面臨爭議。文中指出,出版商認(rèn)為,使用未經(jīng)授權(quán)的受版權(quán)保護(hù)內(nèi)容進(jìn)行訓(xùn)練是侵權(quán)行為;而另一種法律觀點(diǎn)則認(rèn)為,大語言模型并未直接復(fù)制內(nèi)容,而是通過學(xué)習(xí)來生成新文本。
值得注意的是,并非所有研究者都反對將他們的作品用于AI訓(xùn)練。斯特凡·巴克表示,他很樂于看到自己的研究成果被用來提高AI的準(zhǔn)確性,并且不介意AI“模仿”自己的寫作風(fēng)格。然而,他也承認(rèn),并非所有人都能輕松應(yīng)對這一問題,尤其是那些面臨AI競爭壓力的職業(yè),如藝術(shù)家和作家。
事實(shí)上,關(guān)于使用受版權(quán)保護(hù)的知識(shí)作品來訓(xùn)練 AI 模型的訴訟案件此前已引起過廣泛關(guān)注。
8月14日,《華盛頓郵報(bào)》報(bào)道,美國多名視覺藝術(shù)家和插畫家對AI圖像生成工具的集體訴訟案取得突破進(jìn)展。他們曾指控Midjourney和Stability AI等初創(chuàng)公司在未經(jīng)同意的情況下使用作品來訓(xùn)練AI模型。這起案件在本周取得了關(guān)鍵性進(jìn)展。美國地區(qū)法官威廉·奧里克允許該案的關(guān)鍵部分繼續(xù)推進(jìn),這意味著法庭已經(jīng)決定某些指控有足夠的法律證據(jù),可以繼續(xù)審理下去,接下來隨著法律審理的過程,可能會(huì)披露這些公司在開發(fā)AI工具時(shí)的內(nèi)部交流情況。





- 澎湃新聞微博
- 澎湃新聞公眾號(hào)
- 澎湃新聞抖音號(hào)
- IP SHANGHAI
- SIXTH TONE
- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司