长兴郴障科技有限公司

澎湃Logo
下載客戶端

登錄

  • +1

率先挖掘AI時代的“金礦”,上海如何以語料為支點撬動AI產業

澎湃新聞記者 秦盛
2025-02-23 19:16
來源:澎湃新聞
? 10%公司 >
字號

語料數據(Corpus Data)指為語言分析、模型訓練等目的系統化收集的真實文本或語音材料的集合,是自然語言處理(NLP)領域的核心資源,相當于AI學習語言的“教材”。在AI時代,語料是人工智能發展的核心基礎之一,甚至被譽為AI產業的“金礦”,是決定模型能力上限的核心要素。隨著國產開源推理大模型DeepSeek的“出圈”,其思維鏈背后用到的數據合成技術,再次提升了對于高質量語料數據的需求。

政策引領,上海戰略布局推動語料體系建設

上海作為中國人工智能發展的前沿陣地,AI相關產業正迎來蓬勃發展的機遇,而語料正是其中最為關鍵的抓手之一,語料體系建設已被納入人工智能發展的核心框架。

2024年底發布的《關于人工智能“模塑申城”的實施方案》中明確提出,到2025年底,建成世界級人工智能產業生態,力爭全市智能算力規模突破100EFLOPS(每秒百億億次浮點運算次數),形成50個左右具有顯著成效的行業開放語料庫示范應用成果。方案還明確提出,要建立一批通用和專用語料庫,打造多層次語料體系,支撐基礎大模型研發和垂直應用。聚焦前沿大模型訓練需求,推動打造基礎大模型訓練語料庫。聚焦金融、制造、教育、醫療、文旅、城市治理等行業需求,打造一批行業開放語料庫與測試數據集。此外,還要推動成立算力和語料基金,探索算力和語料作價入股等模式,加強創新型企業培育。

在近期舉行的2025全球開發者先鋒大會上,語料也成為一個備受矚目的議題。2月22日,“語料筑基 智生時代”主題論壇在上海徐匯舉行,會議深度聚焦大模型語料前沿主題,匯聚產學研用頂尖智慧,共同探討語料數據發展的無限機遇與潛力,共建上海大模型語料繁榮生態,為人工智能大模型創新發展和應用注入新動能。

論壇由全球開發者先鋒大會組委會指導,由上海庫帕思科技有限公司承辦,漕河涇開發區總公司、上海人工智能實驗室、商湯科技、階躍星辰、稀宇科技等公司聯合協辦。上海市經濟和信息化委員會副主任張宏韜,徐匯區委常委、副區長俞林偉出席論壇并致辭。

在論壇上,張宏韜表示,上海已全面戰略布局人工智能大模型產業,加速推進“模塑申城”行動方案,為大模型提供強大的基礎底座賦能和豐富的應用場景支持,成為產業界創新發展的理想沃土。未來,上海將持續夯實高質量綜合語料基座,構建數據語料核心樞紐,加快創新語料服務關鍵性技術,加速推動“5+6”垂類領域語料工程,完善行業語料供給體系,構建共贏繁榮的語料服務生態,更好助力大模型創新發展和應用。

實踐先行,發力語料基建建設和生態協同

有研究表明,互聯網上的高質量語言數據資源或將在2027年消耗殆盡。與開采金礦需要在資源勘察、選礦廠建設、固定資產購置等方面開展大量工作,高質量的語料數據也需要解決在獲取、治理、安全、應用等多方面存在的挑戰,語料基礎設施的建設和生態環境的形成至關重要。

上海為此已采取一系列措施來加強語料庫的建設和應用,推動世界級人工智能產業生態的形成。在本屆全球開發者先鋒大會,上海市經信委主任張英表示:“上海將開發者捧為主角,為這一群體傾力提供資源、政策與氛圍,努力培育繁榮的開發者生態?!?/p>

2024年3月,首家由政府主導成立的人工智能語料公司——上海庫帕思科技有限公司正式成立,公司定位于專業化的功能性語料服務運營平臺,致力于提供低成本、高質量的語料數據服務。

庫帕思去年已完成構建了“1+X”語料基座,語料服務規模達260T,鏈接合作伙伴超100家,簽署戰略合作協議57家,發布了9個語料團體標準,并完成了7個標準草案。目前已全面啟動具身智能、金融、制造、教育、醫療、文娛、城市治理等領域的行業語料庫建設。同時,為了形成高質量的多模態語料庫,庫帕思也正在建設大模型語料超級工廠,以每天最高1000GB的速度進行語料加工,計劃到今年年底將語料庫的總容量提升至2PB。

在生態協同上,徐匯區作為國家級人工智能產業集聚區,在全市率先發展人工智能大模型產業,市區聯手推出了全國首個大模型創新生態社區—“模速空間”,打造了算力調度、開放數據、金融服務等五大功能平臺,為企業提供“保姆式”“專班式”服務。俞林偉表示,徐匯將持續做好落實要素保障,持續吸引全球頂尖人才,持續優化大模型和語料服務產業生態,把模速空間打造為“全球最大的人工智能孵化器”,打造徐匯建成全國人工智能高地的創新策源尖峰。

模塑申城,語料普惠計劃之語料數據智能創意大賽正式啟動

在本屆論壇上,市經濟和信息化委副主任張宏韜、上海信投黨委書記、副總裁黃衛軍、人民網上海分公司總經理金煜純、上海人工智能協會秘書長鐘俊浩共同發布了模塑申城語料普惠計劃之語料數據智能創意大賽(簡稱CICC)。依托《模速申城語料普惠計劃》,CICC大賽面向全社會尋找“好語料、好技術、好場景”,為上?!澳K苌瓿恰惫こ讨握Z料基石,打通高質量語料數據采集、標注、共享、應用全鏈路。

隨后,大會隆重發布2025語料風云榜招募令。為匯聚行業頂尖智慧、構建開放合作生態,在2024年世界人工智能大會上,庫帕思發起了首屆語料風云榜,一批好企業、好產品脫穎而出。2025語料風云榜將延續“好企業、好產品、好規則”的基本框架,在未來4個月完成征集與遴選,并在2025年世界人工智能大會上正式對外發布“2025中國語料生產商風云榜TOP10”、“2025中國語料服務商風云榜TOP10”。

此外,為進一步促進高質量語料數據建設,在市經濟和信息化委的指導下,庫帕思以普惠、鏈接、創新的態度,攜手首批103家企業、科研機構和專家學者,聯合發起成立語料工作委員會。語料工作委員會將圍繞高質量語料建設,通過優化語料平臺與各垂類應用領域鏈接機制,促進語料方、模型方、應用場景方三方合作模式跑通落地,從而構建高質量、具備應用價值的語料生態。

在可以預見的未來,上海不但是“魔都”,更將是AI產業的“模都”,致力于占據全球人工智能產業的發展高地。如今,上海正以語料為支點,撬動人工智能產業的全球競爭力,為全球行業發展提供新基建、新生態和新路線,這座“最懂開發者的城市”,正在書寫人工智能時代的“掘金傳奇”。

    責任編輯:孫扶
    圖片編輯:蔣立冬
    校對:張艷
    澎湃新聞報料:021-962866
    澎湃新聞,未經授權不得轉載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            大发888娱乐城 真钱下载| 金龙博彩网| 百家乐官网境外赌博| 百家乐牌盒| 百家乐官网奥| 南宫市| 新百家乐庄闲路单图记录| 博彩网址| 百家乐那个平台信誉高| 百家乐官网庄家胜率| 百家乐赌场娱乐网规则| 澳门百家乐官网一把决战输赢| 大发888我发财| 澳门百家乐博彩网| 永吉县| 大发888网址是什么| 百家乐博百家乐| 百家乐官网是娱乐场| 百家乐官网微笑心法搜索| 新利国际网上娱乐| 蓝盾百家乐的玩法技巧和规则 | 百家乐官网平玩法lm0| 冠军娱乐城| 百家乐公式与赌法| 伯爵百家乐官网娱乐| 优博平台| 全讯网新宝2| 网络百家乐官网会输钱的多吗| 至尊百家乐官网娱乐场| 百家乐官网做中介赚钱| 金彩百家乐的玩法技巧和规则 | 桐城市| 宝马会线上娱乐| 超级大赢家| 太阳城娱乐城88| 大发888赢钱最多的| 赌博百家乐下载| 百家乐足球投注网哪个平台网址测速最好 | 百家乐娱乐城| 赌球网站| 北京德州扑克比赛|