长兴郴障科技有限公司

澎湃Logo
下載客戶端

登錄

  • +1

兩會對話丨黃海清委員:高質量語料數據決定大模型訓練效果上限,建議加快明確合理使用規則

澎湃新聞資深記者 秦盛 邵冰燕
2025-01-17 22:27
來源:澎湃新聞
? 10%公司 >
字號

“能夠助力人工智能實現‘換道超車’的是語料數據……高質量語料數據直接決定了大模型訓練效果的上限。”

在2025年上海兩會期間,上海市政協委員、上海庫帕思科技有限公司CEO黃海清在接受澎湃新聞獨家專訪時表示,未來,行業垂類大模型將成為中國大模型產業的主戰場。基礎大模型的數量會收斂至個位數,因此更多的大模型企業應該聚焦于研究ToB(面向企業)和ToG(面向政府)的商業模式。

上海市政協委員、上海庫帕思科技有限公司CEO黃海清

黃海清表示,目前階段,國內大模型與國外相比,最大的差距在于算力和語料數據。

當前,國內在算力方面已有很多布局,但也仍面臨諸多限制。在黃海清看來,能夠助力企業實現“換道超車”的是語料數據。

目前業界對于“數據瓶頸”一直存在不同看法。

黃海清表示,高質量的語料數據能極大降低大模型對算力的依賴,微調過的高質量語料數據,可能僅需百卡(GPU)就能達到萬卡的訓練效果,“高質量語料數據決定了大模型訓練效果的上限,高質量語料數據集的構建能極大降低大模型對算力的需求以及推動算力成本降低”。

他認為,此前,用于大模型訓練的數據大多來自互聯網公用數據,預計到2026年,這些公用數據就會消耗殆盡。此外,使用公用數據訓練出來的模型,差異通常不會很大。而中文語料庫在整個語料數據中的占比不足5%,數據量顯得更為稀少。

黃海清表示,未來語料數據應該向以“鮮活性、真實性、大樣本、完整性、多樣性、高知識密度為標志的高質量語料集”的方向發展。其中,高知識密度尤為重要,“要讓大模型成為博士、成為專家,首先語料和數據要具有博士生教材課程和論文期刊的水平。”

對于大模型規模法則Scaling Law(尺度定律,亦稱縮放定律)是否仍然有效,黃海清認為,Scaling Law還在起作用,但速度已放緩。除了算力,高質量語料數據的限制也是重要原因。

上海的數據服務行業在國內比較來看起步不算太早,庫帕思科技便是按照上海市委、市政府的要求,于2024年專門設立的語料公司,定位于功能性語料服務專業化運營平臺。曾擔任甲骨文(中國)軟件系統有限公司上海公司總經理,騰訊云副總裁,阿里巴巴集團副總裁、阿里云中國區總裁等職的黃海清在庫帕思成立后便上任CEO一職。

對于大模型行業的未來格局,黃海清認為,未來基礎大模型的數量會從“百模大戰”收斂到個位數,即十個以內。他判斷,“消失”的那些基礎大模型,“在激烈的市場競爭中,一種情況是企業走向消亡,另一種可能是企業朝著行業垂類大模型的方向發展。展望未來大模型,特別是中國大模型的發展趨勢,垂類大模型將成為競爭的主戰場。上海市委、市政府成立了大模型產業社區,發展行業垂類大模型,這無疑是正確的方向,因為只有行業垂類大模型才具備較高的技術門檻。”

黃海清還向記者表示,ToB和ToG市場的大模型商業模式,在未來將會成為主要探索的方向,特別是國央企智能化轉型等方面,將會存在非常大的市場,與行業垂類大模型的“千帆競發”相輔相成。

今年上海兩會,黃海清帶來《探索語料數據合理使用規則,推動大模型產業健康發展》的提案。黃海清表示,大模型的訓練數據通常是來自海量的公開數據集和網絡內容,這些數據集包括書籍、文章、網站和其他公開可用的內容。但當前我國著作權的“合理使用豁免條款”無法涵蓋大模型訓練,這給國內大模型公司造成了三個主要問題。

黃海清指出,一是授權難,模型公司難以通過合規渠道獲取語料,有礙于基礎模型和垂類模型的商業化應用推廣和技術迭代創新。二是成本高,當前購買語料的價格大部分是以版權計價的方式進行,授權周期通常為1年,到期還需銷毀,繼續使用需要再次收費。例如:訓練中國版Sora至少需要30萬小時視頻,如按版權計費,常規每小時4000元至5000元,總成本將超1.2億元,此成本非一般大模型公司所能承受。根據行業經驗,語料數據成本占訓練總成本的10%至30%。三是風險大,人工智能相關的版權糾紛呈現不斷上升趨勢。

對此,黃海清建議,一是加快明確大模型語料數據的合理使用規則,推動“文本與數據挖掘”在預訓練領域的適用。參考歐盟“文本與數據挖掘”合理使用條款或日本“非欣賞性原則”,實現在國內推行針對機器學習的數據合理使用,平衡著作權人權利和科技發展需要,解決授權難的問題。

二是,政府出臺鼓勵政策,支持語料數據企業加強自動化工具鏈平臺研發,降低語料數據成本。圍繞上海“金融、制造、教育、醫療、文旅、城市治理”等6大重點行業,“具身智能、自動駕駛、智能終端、科學智能、在線新經濟”等5大關鍵領域,加強自動清洗算子及自動標注算法等技術研發,打造AI自動化清洗與標注工具鏈平臺,取代傳統勞動密集型人工標注,降低語料成本。

三是加快人工智能生成物保護范圍的法律研究,制定規則明確的人工智能生成物的權屬與責任。可借鑒美國的“可轉換性”合理使用條款,對于經過“清洗、標注和注釋”處理后,不會對原始數據進行原樣展示的高質量語料賦予新的權利,不再受原始版權的干擾,解決風險大的問題。

    責任編輯:孫扶
    圖片編輯:蔣立冬
    校對:劉威
    澎湃新聞報料:021-962866
    澎湃新聞,未經授權不得轉載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            大发888 今日头条| 网络百家乐内幕| 网上真钱老虎机| 百家乐五湖四海娱乐场| 乐宝百家乐官网游戏| 有24天星名的罗盘| 易发棋牌官网| 百家乐qq游戏| 破解百家乐官网游戏机| 老虎机破解方法| 百家乐沙| 百家乐官网娱乐官网网| 尊龙国际开户| 百家乐平台开户哪里优惠多| 全迅网百家乐的玩法技巧和规则| 王牌百家乐官网的玩法技巧和规则| 百家乐官网不倒翁注码| 二八杠下载| 百家乐衬衣| 百家乐澳门路规则算法| 赌场百家乐官网的玩法技巧和规则 | 顶级赌场网址| 立即博百家乐娱乐城| 百家乐官网网上真钱娱乐| 百家乐官网长龙太阳城| 钱大发888斗地主| 菲律宾百家乐娱乐场| 百家乐游戏规则玩法| 视频百家乐官网破解| 棋牌游戏网站| 威尼斯人娱乐城网址是什么| 百家乐开户送彩网址| 百家乐官网刷钱| 永利高百家乐官网会员| 黄大仙区| 大发888资讯网net| 百家乐平注法到656| 尊龙百家乐娱乐城| 最新百家乐电脑游戏机| 百家乐投注翻倍方法| 百家乐最长的闲|