大模型加速重構(gòu)，AI4S正在改變科研方式

2025-02-24 11:17

來源：澎湃新聞·澎湃號(hào)·湃客

AI正在改變?nèi)祟惖目茖W(xué)研究方式。

按照常規(guī)的理解，AI4S是AI for Science的縮寫，也就是“科學(xué)智能”，其利用AI技術(shù)解決復(fù)雜的科研問題，以推動(dòng)科學(xué)發(fā)現(xiàn)和技術(shù)創(chuàng)新，被譽(yù)為科學(xué)研究的“第四范式”。這種范式通過結(jié)合機(jī)器學(xué)習(xí)、數(shù)據(jù)分析、高性能計(jì)算等技術(shù)，幫助科學(xué)家在各個(gè)領(lǐng)域進(jìn)行更深入的探索和發(fā)現(xiàn)。

在近日舉辦的世界互聯(lián)網(wǎng)大會(huì)人工智能專業(yè)委員會(huì)主辦的“人工智能賦能科學(xué)研究”研討會(huì)上，雖然與會(huì)嘉賓對(duì)AI4S的定義、范式等還存在一些不同的看法，但都形成了一個(gè)共識(shí)：AI正在改變?nèi)祟惪茖W(xué)研究方式。

諾貝爾獎(jiǎng)進(jìn)入AI時(shí)代

研討會(huì)過程中，他們不約而同的提到，2024年諾貝爾物理學(xué)獎(jiǎng)和化學(xué)獎(jiǎng)均頒給了AI相關(guān)領(lǐng)域。其背景是，2024年10月8日，諾貝爾物理學(xué)獎(jiǎng)表彰獲獎(jiǎng)?wù)摺盎谌斯ど窠?jīng)網(wǎng)絡(luò)實(shí)現(xiàn)機(jī)器學(xué)習(xí)的基礎(chǔ)性發(fā)現(xiàn)和發(fā)明”。2024年諾貝爾化學(xué)獎(jiǎng)則頒發(fā)給“在計(jì)算蛋白質(zhì)設(shè)計(jì)方面的貢獻(xiàn)”。

以后者為例，2024諾貝爾化學(xué)獎(jiǎng)之所以獲獎(jiǎng)，在于其開發(fā)了AlphaFold人工智能模型，這種模型解決了一個(gè)已有50年歷史的難題，能夠預(yù)測大約兩億種已知蛋白質(zhì)的復(fù)雜結(jié)構(gòu)，直接推動(dòng)生物醫(yī)藥領(lǐng)域的研發(fā)進(jìn)程，并且已經(jīng)被全球200多萬人使用。

這兩項(xiàng)獲獎(jiǎng)名單與AI關(guān)聯(lián)度之高，讓AI4S理念受到更大的關(guān)注，也在人工智能領(lǐng)域掀起巨大的浪潮。很多觀點(diǎn)認(rèn)為，諾貝爾獎(jiǎng)進(jìn)入AI時(shí)代。這個(gè)論斷恰體現(xiàn)的是，科學(xué)家正在對(duì)AI提出源源不斷的需求，AI正成為科學(xué)探索的核心工具。

中科院院士鄂維南曾經(jīng)指出，科學(xué)研究總體上可分成：基于數(shù)據(jù)驅(qū)動(dòng)的開普勒范式和基于原理驅(qū)動(dòng)的牛頓范式，這兩種范式在現(xiàn)代遇到了各自的挑戰(zhàn)。但這些挑戰(zhàn)也都有一個(gè)共同的解決方案： “缺乏有效手段解決高維數(shù)學(xué)問題，是阻礙科學(xué)研究與技術(shù)發(fā)展取得進(jìn)一步突破的主因之一。而深度學(xué)習(xí)，或者說人工智能，可以幫助解決這個(gè)問題 ”。

這是因?yàn)閭鹘y(tǒng)AI模式下，AI4S主要是“算法驅(qū)動(dòng)”，依靠算法創(chuàng)新助力科研創(chuàng)新。大模型時(shí)代，AI4S對(duì)計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)等基礎(chǔ)設(shè)施要求極高，特別是面向數(shù)據(jù)密集型的科研領(lǐng)域，AI4S也從“算法驅(qū)動(dòng)”轉(zhuǎn)變?yōu)椤坝?jì)算驅(qū)動(dòng)”。

王堅(jiān)院士在分享中也特別提到這一點(diǎn)。他還表示，在開放科學(xué)領(lǐng)域，互聯(lián)網(wǎng)發(fā)揮著重要作用。他認(rèn)為AI4S將幫助更多人加入創(chuàng)新陣列。開放科學(xué)不是簡單地把科學(xué)開放出來，而是要考慮怎么做科學(xué)研究，怎么做交流。

在開放科學(xué)領(lǐng)域，互聯(lián)網(wǎng)發(fā)揮著重要作用，也影響著人工智能的發(fā)展。如今，數(shù)據(jù)、計(jì)算和人工智能都無法脫離互聯(lián)網(wǎng)?；ヂ?lián)網(wǎng)作為基礎(chǔ)設(shè)施，將所有問題向前推進(jìn)。人工智能簡單來說是數(shù)據(jù)、模型和計(jì)算的結(jié)合，與互聯(lián)網(wǎng)一樣具有規(guī)模效應(yīng)。

此外，王堅(jiān)就開放和范式的新變化發(fā)表自己的看法。談及DeepSeek對(duì)于開源概念的拓展，和開放資源對(duì)于科學(xué)技術(shù)領(lǐng)域的巨大價(jià)值。DeepSeek基于MIT許可協(xié)議開源，當(dāng)DeepSeek出來的時(shí)候，《自然》雜志在一個(gè)星期以內(nèi)發(fā)表了五篇文章講這件事情。

事實(shí)上，人工智能以其驚人的潛力，逐漸成為提升科研創(chuàng)新效率的“標(biāo)配”。谷歌學(xué)術(shù)數(shù)據(jù)表明，近3年使用AI的論文數(shù)量增長率超3倍。特別是大模型的出現(xiàn)和突破發(fā)展，正加速AI4S成為科研創(chuàng)新和科技進(jìn)步的核心驅(qū)動(dòng)力，并在芯片設(shè)計(jì)、生物醫(yī)藥、材料能源、天文氣象、自動(dòng)駕駛等一系列領(lǐng)域，取得重大創(chuàng)新突破。

AI4S正加速應(yīng)用

就目前大模型發(fā)展路線看，DeepSeek的火爆，將開源大模型技術(shù)體系再一次成功展示。Meta 首席科學(xué)家YannLeCun表示:“DeepSeek提出了新的想法，并在前人的工作基礎(chǔ)上加以實(shí)現(xiàn)。由于他們的工作成果已發(fā)表并開源，因此每個(gè)人都可以從中受益，這就是開放研究和開源的力量”。

也就是說，開源大模型“開源開放”特性，決定了其一旦性能優(yōu)異、文檔與指引完善、工具鏈完備且模型持續(xù)迭代，就會(huì)以滾雪球的方式吸引開發(fā)者進(jìn)入其生態(tài)體系，并由廣大開發(fā)者二次開發(fā)出數(shù)量龐大的“衍生模型”家族，量變到質(zhì)變，大幅提高模型的性能和質(zhì)量，呈現(xiàn)出與閉源模型分庭抗禮之勢。

不可忽視的是，開源模式還把大模型的“價(jià)格打下來”，有效解決制約大模型規(guī)模化應(yīng)用的推理成本過高等問題。其中一個(gè)關(guān)鍵要素在于，開源大模型“公有云+API”的部署方式，全面加速了從MVP（最小可行產(chǎn)品）驗(yàn)證、客戶觸達(dá)、交付、運(yùn)營迭代等多個(gè)環(huán)節(jié)的應(yīng)用創(chuàng)新。

從行業(yè)實(shí)踐看，AI大模型私有化部署的資本和時(shí)間投入成本，是“公有云+API”部署方式的10倍。

從構(gòu)建MVP看，公共云提供的大規(guī)模、高彈性、低成本算力，以及成熟完善的工具鏈，能夠大幅降低創(chuàng)新成本和門檻。例如，依托谷歌云的Discord平臺(tái)，助力Midjourney、Pika等初創(chuàng)企業(yè)快速推出新產(chǎn)品。

再從客戶觸達(dá)看：公共云上有龐大的數(shù)字化基礎(chǔ)好的客戶池，能夠助力企業(yè)快速、低成本地觸達(dá)客戶。Mistral 模型在Azure 云平臺(tái)上部署后，立刻獲得了約1000個(gè)優(yōu)質(zhì)客戶。

這帶來的直接行業(yè)影響即是，公共云+API將成為企業(yè)使用大模型的主流方式。目前，國內(nèi)已有50多所院校機(jī)構(gòu)使用阿里巴巴的“云和AI服務(wù)”開展科研創(chuàng)新，并在生物、農(nóng)業(yè)、天文等領(lǐng)域取得了可喜的成果。

在算力普惠、模型開源和數(shù)據(jù)共享的合力下，阿里AI4S已經(jīng)摸索出多種合作模式。比如基礎(chǔ)設(shè)施服務(wù)模式、專業(yè)平臺(tái)模式，搭建智慧育種平臺(tái)、聯(lián)合研究模式、模型開源模式等。葉杰平在分享中提到，阿里AI與中山大學(xué)合作推進(jìn)“如何用人工智能挖掘RNA病毒”項(xiàng)目，通過先構(gòu)建數(shù)據(jù)集，再打造獨(dú)特領(lǐng)域大模型LucaProt等舉措，發(fā)現(xiàn)超51萬條病毒基因組等成果，該成果也登上了《Cell》期刊封面；

此外，阿里云在ChatGPT出現(xiàn)之前就啟動(dòng)了模型社區(qū)建設(shè)——魔搭社區(qū)，目前已有超過4萬家模型入駐，有超過1000萬用戶數(shù)。截至目前，阿里通義千問開源模型下載量為2億，基于阿里通義模型衍生模型數(shù)量超過9萬個(gè)。

得益于阿里巴巴堅(jiān)持開源開放，持續(xù)提升“通義千問”大模型能力，全尺寸、全模態(tài)開源，并推動(dòng)阿里云AI算力提升性能、降低成本。近日，全球最大AI開源社區(qū)Hugging Face發(fā)布了最新的開源大模型榜單（Open LLM Leaderboard），榜單顯示，其排名前十的開源大模型全部是基于阿里通義千問（Qwen）開源模型二次訓(xùn)練的衍生模型。

2024年GTC大會(huì)（英偉達(dá)GPU技術(shù)大會(huì)）上，英偉達(dá)CEO黃仁勛堅(jiān)定認(rèn)為，AI4S是AI領(lǐng)域的三個(gè)關(guān)鍵方向之一。但AI4S也面臨交叉型人才短缺、技術(shù)方案難復(fù)用、垂類學(xué)科數(shù)據(jù)質(zhì)量欠佳等問題逐漸暴露出來。

唐辰也注意到，本次研討會(huì)就AI4S提出的三點(diǎn)建議：實(shí)現(xiàn)包容普惠的發(fā)展；實(shí)現(xiàn)融合創(chuàng)新的發(fā)展；實(shí)現(xiàn)安全有序的發(fā)展。而這些，都是AI將科學(xué)研究推入一個(gè)新的階段，所必然面臨的問題和挑戰(zhàn)。

我是唐辰同學(xué)，關(guān)注互聯(lián)網(wǎng)科技及商業(yè)故事。原創(chuàng)內(nèi)容，未經(jīng)許可，謝絕轉(zhuǎn)載。

「唐辰同學(xué)」

鈦媒體、36氪、老虎財(cái)經(jīng)熱榜

澎湃新聞2024年最澎湃創(chuàng)作者

老虎財(cái)經(jīng)2024年度優(yōu)秀專欄

河南日?qǐng)?bào)·頂端新聞2024年度影響力作者

界面新聞優(yōu)質(zhì)榜單

老虎財(cái)經(jīng)2024年度優(yōu)秀專欄

騰訊新聞年度優(yōu)質(zhì)熱問答主

2023搜狐新聞年度優(yōu)質(zhì)創(chuàng)作者

人人都是產(chǎn)品經(jīng)理2023年度優(yōu)秀作者

2023網(wǎng)易新聞年度內(nèi)容合伙人

界面、36氪、鈦媒體、澎湃、藍(lán)鯨、老虎財(cái)經(jīng)等平臺(tái)專欄認(rèn)證作者

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。

我要舉報(bào)