學(xué)術(shù)論文正被高價(jià)出售給大模型訓(xùn)練，作者卻零收入

澎湃新聞?dòng)浾?喻琰

2024-08-16 13:57

來源：澎湃新聞

·越來越多的學(xué)術(shù)出版商正將研究論文賣給科技公司用以訓(xùn)練人工智能（AI）模型，而作者收入為零。

大語言模型（LLM）因訓(xùn)練數(shù)據(jù)問題再次引發(fā)爭議。日前，國際著名期刊《自然》（《Nature》）雜志編輯伊麗莎白·吉普尼（Elizabeth Gibney）發(fā)布一篇題為《你的論文被用來訓(xùn)練人工智能模型了嗎？幾乎可以肯定》一文。文中作者表示，當(dāng)前有越來越多的學(xué)術(shù)出版商正在將研究論文授權(quán)給科技公司，用于訓(xùn)練人工智能（AI）模型。有學(xué)術(shù)出版商借此賺取了2300萬美元，而作者卻收入為零。這些交易在很多情況下并未征求作者的意見，引發(fā)了部分研究人員的強(qiáng)烈不滿。

“如果你的論文還沒有被用作AI訓(xùn)練數(shù)據(jù)，很可能很快就會(huì)成為訓(xùn)練的一部分。”伊麗莎白·吉普尼在文中指出，當(dāng)前學(xué)術(shù)論文作者在面對出版商出售其版權(quán)作品時(shí)幾乎無權(quán)干涉。對于公開發(fā)表的文章，也沒有現(xiàn)成機(jī)制來確認(rèn)這些內(nèi)容是否被用作AI訓(xùn)練數(shù)據(jù)。在大語言模型使用中，如何建立更加公平的機(jī)制保護(hù)創(chuàng)作者的權(quán)益，值得學(xué)術(shù)界和版權(quán)界廣泛討論。

大語言模型（LLM）通常依賴從互聯(lián)網(wǎng)上抓取的大量數(shù)據(jù)進(jìn)行訓(xùn)練。這些數(shù)據(jù)包括數(shù)十億片段的語言信息（稱為“標(biāo)記”），通過分析這些標(biāo)記之間的模式，模型得以生成流暢的文本。學(xué)術(shù)論文因其內(nèi)容豐富、信息密度高，相比大量普通數(shù)據(jù)更有價(jià)值，是AI訓(xùn)練中的重要數(shù)據(jù)來源。數(shù)據(jù)分析師斯特凡·巴克（Stefan Baack）來自全球非營利組織Mozilla基金會(huì)，他分析指出，科學(xué)論文對大語言模型的訓(xùn)練有很大幫助，尤其是在科學(xué)主題上的推理能力方面。正是由于數(shù)據(jù)的高價(jià)值，各大科技公司紛紛斥巨資購買數(shù)據(jù)集。

該文指出，今年《金融時(shí)報(bào)》與OpenAI達(dá)成協(xié)議，將其內(nèi)容授權(quán)給后者；被稱為“美國貼吧”的Reddit也與谷歌簽署了類似的交易。這些交易體現(xiàn)出版商試圖通過合法授權(quán)避免自己的內(nèi)容被AI模型無償抓取。

文章透露，上月英國的學(xué)術(shù)出版商Taylor & Francis與微軟簽署了一項(xiàng)價(jià)值1000萬美元的協(xié)議，允許微軟訪問其數(shù)據(jù)以改進(jìn)AI系統(tǒng)。而在6月，美國出版商Wiley通過向某家公司提供內(nèi)容用于AI訓(xùn)練，收入高達(dá)2300萬美元。而這些巨額收入與論文作者沒有任何關(guān)系。

當(dāng)前，研究人員正嘗試用技術(shù)手段幫助作者識(shí)別其作品是否被用于AI模型訓(xùn)練。西雅圖華盛頓大學(xué)的人工智能研究員露西·盧·王（ Lucy Lu Wang）稱，如果一篇論文已經(jīng)被用作模型的訓(xùn)練數(shù)據(jù)，在模型訓(xùn)練完成后就無法將這篇論文移除。

不過，即便能證明論文被用于AI訓(xùn)練，但在法律層面仍然面臨爭議。文中指出，出版商認(rèn)為，使用未經(jīng)授權(quán)的受版權(quán)保護(hù)內(nèi)容進(jìn)行訓(xùn)練是侵權(quán)行為；而另一種法律觀點(diǎn)則認(rèn)為，大語言模型并未直接復(fù)制內(nèi)容，而是通過學(xué)習(xí)來生成新文本。

值得注意的是，并非所有研究者都反對將他們的作品用于AI訓(xùn)練。斯特凡·巴克表示，他很樂于看到自己的研究成果被用來提高AI的準(zhǔn)確性，并且不介意AI“模仿”自己的寫作風(fēng)格。然而，他也承認(rèn)，并非所有人都能輕松應(yīng)對這一問題，尤其是那些面臨AI競爭壓力的職業(yè)，如藝術(shù)家和作家。

事實(shí)上，關(guān)于使用受版權(quán)保護(hù)的知識(shí)作品來訓(xùn)練 AI 模型的訴訟案件此前已引起過廣泛關(guān)注。

8月14日，《華盛頓郵報(bào)》報(bào)道，美國多名視覺藝術(shù)家和插畫家對AI圖像生成工具的集體訴訟案取得突破進(jìn)展。他們曾指控Midjourney和Stability AI等初創(chuàng)公司在未經(jīng)同意的情況下使用作品來訓(xùn)練AI模型。這起案件在本周取得了關(guān)鍵性進(jìn)展。美國地區(qū)法官威廉·奧里克允許該案的關(guān)鍵部分繼續(xù)推進(jìn)，這意味著法庭已經(jīng)決定某些指控有足夠的法律證據(jù)，可以繼續(xù)審理下去，接下來隨著法律審理的過程，可能會(huì)披露這些公司在開發(fā)AI工具時(shí)的內(nèi)部交流情況。

責(zé)任編輯：宦艷紅

圖片編輯：張同澤

校對：丁曉

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)

#人工智能 #大模型 #版權(quán)糾紛 #數(shù)據(jù)