- +1
找準數據標注產業發展著力點
推動數據標注產業化,不僅夯實了人工智能算法訓練的基石,也有助于釋放數據要素的價值。新形勢下,促進數據標注產業高質量發展,需要在需求牽引、創新驅動、生態培育等方面找準發力點。
日前,一份名為《關于促進數據標注產業高質量發展的實施意見》的文件,迅速讓“數據標注產業”躍入大眾視野,也引發很多人的好奇:“數據標注”究竟是個什么樣的產業?國家為何如此重視這個新事物?
對于“數據標注”,專家的解釋很直接:就是給文本、語音、圖片、視頻等各種各樣的數據“打標簽”。但別小看這些標簽,正是有了它們,數據才可以更好地被人工智能算法理解和使用,人工智能系統的性能與準確性才能有效提升。從某種意義上說,沒有高質量的數據標注,就沒有高性能的人工智能系統。
通常情況下,訓練一個領先的大模型,需要數百萬條甚至數千萬條標注數據。遺憾的是,我國雖是全球第二大數據資源國,但還算不上數據資源強國。有機構統計顯示,2023年我國數據資源為32ZB(澤字節),保存數據僅有2.9%,這一數字遠低于發達國家平均水平。換句話說,數據質量低、大量數據被浪費等現象,客觀上制約了我國數據資源價值的發揮,而通過推動數據標注產業化,不僅夯實了人工智能算法訓練的基石,也有助于釋放數據要素的價值。
促進數據標注產業高質量發展,有其必要性。當前,全球主流基礎大模型中,中文語料僅占全部語料的1%,高質量中文數據不足很大程度是我國基礎大模型能力的短板所在。正因如此,全面提升中文語料質量,已成為破解我國大模型發展的關鍵環節之一。打造具有國際影響力的數據標注企業和品牌,將有助于構建完整的人工智能產業鏈,提升我國在全球人工智能領域的市場份額和話語權。
近年來,人工智能技術的迭代升級和應用場景的持續拓展,推動數據標注產業不斷呈現出自動化、專業化和高端化的特點,數據標注產業正逐步從傳統的勞動密集型產業向知識密集型產業轉變,數據標注員作為國家認可的新工種,其專業化要求也在不斷提高。同時,數據標注的應用領域加快拓展深化,除了傳統的語音轉寫、圖片文字識別等,來自垂直大模型公司的新需求也越來越多,標注的內容也更加豐富多彩。
新形勢下,促進數據標注產業高質量發展,需要在需求牽引、創新驅動、生態培育等方面找準發力點——
在深化需求牽引方面,通過釋放公共數據標注需求和挖掘企業數據標注需求,依法依規有序推動公共數據標注與開發利用。支持跨部門、跨地區、跨層級公共數據融合應用,鼓勵政府部門和企業協同開展政務大模型所需數據的標注和訓練,在現代農業、智能制造、信息服務等重點領域發掘公共數據標注需求。
在增強創新驅動方面,加強數據標注領域的關鍵技術攻關、標準制定和創新載體建設。支持軟硬一體、自主可控的數據標注領域技術和關鍵設備的研發應用。培育建設數據標注領域重點實驗室、技術創新中心等創新載體。
在培育繁榮生態方面,著力壯大數據標注產業的經營主體,推動其規模化、標準化、集約化發展。積極完善產業生態,暢通數據采集、標注、人工智能應用產業鏈,推動上下游協同發展,培育一批深耕行業的數據標注瞪羚企業、獨角獸企業。
此外,還要持續優化支撐體系,在加大財稅金融支持力度、推動數據標注服務納入政府采購范疇等方面,提升數據標注的公共服務能力。尤其是在人才培養上,要深化產學研融合,鼓勵行業聯盟、高校、科研院所與企業建立長期合作機制,進一步暢通人才發展通道,強化數據標注產業發展的人才支撐。
來源丨經濟日報(顧陽)封面圖源視覺中國
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司