长兴郴障科技有限公司

澎湃Logo
下載客戶端

登錄

  • +1

學術論文正被高價出售給大模型訓練,作者卻零收入

澎湃新聞記者 喻琰
2024-08-16 13:57
來源:澎湃新聞
? 未來2% >
字號

·越來越多的學術出版商正將研究論文賣給科技公司用以訓練人工智能(AI)模型,而作者收入為零。

大語言模型(LLM)因訓練數據問題再次引發爭議。日前,國際著名期刊《自然》(《Nature》)雜志編輯伊麗莎白·吉普尼(Elizabeth Gibney)發布一篇題為《你的論文被用來訓練人工智能模型了嗎?幾乎可以肯定》一文。文中作者表示,當前有越來越多的學術出版商正在將研究論文授權給科技公司,用于訓練人工智能(AI)模型。有學術出版商借此賺取了2300萬美元,而作者卻收入為零。這些交易在很多情況下并未征求作者的意見,引發了部分研究人員的強烈不滿。

“如果你的論文還沒有被用作AI訓練數據,很可能很快就會成為訓練的一部分。”伊麗莎白·吉普尼在文中指出,當前學術論文作者在面對出版商出售其版權作品時幾乎無權干涉。對于公開發表的文章,也沒有現成機制來確認這些內容是否被用作AI訓練數據。在大語言模型使用中,如何建立更加公平的機制保護創作者的權益,值得學術界和版權界廣泛討論。

大語言模型(LLM)通常依賴從互聯網上抓取的大量數據進行訓練。這些數據包括數十億片段的語言信息(稱為“標記”),通過分析這些標記之間的模式,模型得以生成流暢的文本。學術論文因其內容豐富、信息密度高,相比大量普通數據更有價值,是AI訓練中的重要數據來源。數據分析師斯特凡·巴克(Stefan Baack)來自全球非營利組織Mozilla基金會,他分析指出,科學論文對大語言模型的訓練有很大幫助,尤其是在科學主題上的推理能力方面。正是由于數據的高價值,各大科技公司紛紛斥巨資購買數據集。

該文指出,今年《金融時報》與OpenAI達成協議,將其內容授權給后者;被稱為“美國貼吧”的Reddit也與谷歌簽署了類似的交易。這些交易體現出版商試圖通過合法授權避免自己的內容被AI模型無償抓取。

文章透露,上月英國的學術出版商Taylor & Francis與微軟簽署了一項價值1000萬美元的協議,允許微軟訪問其數據以改進AI系統。而在6月,美國出版商Wiley通過向某家公司提供內容用于AI訓練,收入高達2300萬美元。而這些巨額收入與論文作者沒有任何關系。

當前,研究人員正嘗試用技術手段幫助作者識別其作品是否被用于AI模型訓練。西雅圖華盛頓大學的人工智能研究員露西·盧·王( Lucy Lu Wang) 稱,如果一篇論文已經被用作模型的訓練數據,在模型訓練完成后就無法將這篇論文移除。

不過,即便能證明論文被用于AI訓練,但在法律層面仍然面臨爭議。文中指出,出版商認為,使用未經授權的受版權保護內容進行訓練是侵權行為;而另一種法律觀點則認為,大語言模型并未直接復制內容,而是通過學習來生成新文本。

值得注意的是,并非所有研究者都反對將他們的作品用于AI訓練。斯特凡·巴克表示,他很樂于看到自己的研究成果被用來提高AI的準確性,并且不介意AI“模仿”自己的寫作風格。然而,他也承認,并非所有人都能輕松應對這一問題,尤其是那些面臨AI競爭壓力的職業,如藝術家和作家。

事實上,關于使用受版權保護的知識作品來訓練 AI 模型的訴訟案件此前已引起過廣泛關注。

8月14日,《華盛頓郵報》報道,美國多名視覺藝術家和插畫家對AI圖像生成工具的集體訴訟案取得突破進展。他們曾指控Midjourney和Stability AI等初創公司在未經同意的情況下使用作品來訓練AI模型。這起案件在本周取得了關鍵性進展。美國地區法官威廉·奧里克允許該案的關鍵部分繼續推進,這意味著法庭已經決定某些指控有足夠的法律證據,可以繼續審理下去,接下來隨著法律審理的過程,可能會披露這些公司在開發AI工具時的內部交流情況。

    責任編輯:宦艷紅
    圖片編輯:張同澤
    校對:丁曉
    澎湃新聞報料:021-962866
    澎湃新聞,未經授權不得轉載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            西畴县| 太阳城巧克力社区| 百家乐官网翻天youtube| 线上百家乐信誉| 百家乐官网赌博游戏| 大发888真钱游戏下载官网| 澳门百家乐官网单注下注| 网上百家乐官网合法吗| 在线提供百家乐| 网上百家乐真的假| 永利百家乐娱乐| 百家乐官网补牌规制| 大发888电话| 澳门百家乐心理| 皇冠百家乐官网赢钱皇冠| 大发888官网注册送58| 百家乐德州扑克轮盘| 百家乐玩法守则| 巴黎百家乐官网地址| e世博线上娱乐| 百家乐秘诀| 罗马百家乐官网的玩法技巧和规则 | 广州百家乐官网赌场| bet365存| 大发888娱乐场下载ypu| 大发888娱乐场优惠| 玩百家乐官网去哪个娱乐城最安全 | 迪威百家乐赌场娱乐网规则| 百家乐官网开线| 网上百家乐官网靠谱吗| TT国际娱乐城| 易胜娱乐| 凯旋门娱乐| 松原市| 大发888 这类平台| 福布斯百家乐的玩法技巧和规则 | 百家乐知道| 财神百家乐的玩法技巧和规则 | 百家乐官网代理条件| 赙彩百家乐官网游戏规则| 亿博娱乐城|