- +11
具身智能:人工智能的下一個浪潮

頭圖由豆包生成,提示詞:未來 城市
從ChatGPT 以驚艷之姿闖入大眾視野,到DeepSeek驚艷全球,人們不斷驚嘆于大語言模型的強(qiáng)大能力;緊接著,2025 蛇年春晚舞臺上,機(jī)器人扭秧歌的精彩表演又掀起一陣科技狂潮。從智能對話到靈活起舞,這背后都繞不開一個關(guān)鍵領(lǐng)域 —— 具身智能。在科技飛速迭代的當(dāng)下,具身智能如何突破發(fā)展瓶頸?又將如何重塑我們的未來生活?
讓我們翻開清華大學(xué)全球創(chuàng)新學(xué)院院長、自動化系教授兼博導(dǎo)劉云浩的新書《具身智能:人工智能的下一個浪潮》,探尋其中的奧秘。

大模型如何“接地”
最近,大語言模型的熱潮席卷了整個技術(shù)界,也迅速與具身智能領(lǐng)域緊密結(jié)合。有人形象地說,引入大模型就像是給機(jī)器安裝了一個新的大腦,似乎只要將其簡單地嵌入,就能賦予機(jī)器全新的生命力。
先來說“加 bu?(增益)”的地方。
首先,大語言模型能夠幫助智能體與人類以自然語言進(jìn)行交流。人類能夠直接說出任務(wù)要求,大模型能夠?qū)Υ诉M(jìn)行編碼并得到更加方便機(jī)器進(jìn)行處理的語義表示形式。同樣,大模型也能夠根據(jù)智能機(jī)器當(dāng)時的狀態(tài)生成自然語言,反饋給人類。這正如我們所看到的Figure 01 機(jī)器人與人類用戶對話交流并執(zhí)行任務(wù)的過程。
其次,大模型能夠提供一些解決問題的“常識”,或者說高層次的語義指導(dǎo)。例如,如果我們問它:“如何把大象裝進(jìn)冰箱?”大模型可能會輸出:“拉開冰箱門,把大象放進(jìn)去,關(guān)上冰箱門。”我們姑且不論這個方案的可行性如何,大模型確實(shí)是能夠?qū)⒔鉀Q問題的完整過程拆解成多個子步驟并且給出一個執(zhí)行方案的。因此,大模型具備成為優(yōu)秀的行動規(guī)劃器的潛力。
最后,多模態(tài)大模型,例如預(yù)訓(xùn)練的視覺—語言模型(Visual-Language Models,VLMs),能夠?yàn)橹悄軝C(jī)器進(jìn)行多模態(tài)感知和認(rèn)知提供更為通用的選擇。例如,CLIP 能夠?qū)⒁曈X信息和文本映射到統(tǒng)一的表征空間,使得機(jī)器能夠直接以視覺數(shù)據(jù)作為輸入。3D-VLA 提出了一種新的三維視覺—語言—動作模型,它通過引入一個生成世界模型來無縫連接三維感知、推理和動作。與現(xiàn)有的基于 2D 輸入的 VLA 模型不同,3D-VLA 更加貼近現(xiàn)實(shí)世界的 3D 物理環(huán)境。
當(dāng)然,除了生成自然語言,大模型在未來也是能夠生成可用的代碼的。Code as Policies 通過訓(xùn)練大語言模型來為機(jī)器編寫策略代碼。給定自然語言的指令,大模型生成一段代碼,然后這段代碼就可以在智能機(jī)器上運(yùn)行,持續(xù)接收傳感器的輸入并輸出行動指令。有研究證明,這種生成代碼的方式比直接生成行動規(guī)劃要更好。VoxPoser 也是使用了大模型來生成代碼,然后這個代碼與前面提到的視覺—語言模型進(jìn)行交互,為后續(xù)的動作規(guī)劃提供信息。

大模型當(dāng)前遇到的挑戰(zhàn)
接下來我們說說當(dāng)前遇到的挑戰(zhàn)。大模型的一個顯著缺陷就是缺乏現(xiàn)實(shí)世界中的經(jīng)驗(yàn)。還是剛才說的,如果我們給大模型一個“把大象裝進(jìn)冰箱”的任務(wù),它可能會正兒八經(jīng)地生成一段邏輯上合理的指導(dǎo),卻不會思考這樣的步驟是否真的能實(shí)現(xiàn)。
為解決這一問題,谷歌的一項(xiàng)研究SayCan 提出使用預(yù)訓(xùn)練技能,為模型提供現(xiàn)實(shí)世界的知識基礎(chǔ),這樣大語言模型輸出的內(nèi)容就被約束在這些預(yù)訓(xùn)練技能對應(yīng)的范疇內(nèi)。這種方法有點(diǎn)類似于我們?yōu)榇竽P蜏?zhǔn)備好了很多能夠執(zhí)行的 API(應(yīng)用程序編程接口),然后大模型通過調(diào)用它們完成行動。在這種配置中,智能機(jī)器充當(dāng)模型的“手和眼”,執(zhí)行具體任務(wù),而大語言模型則負(fù)責(zé)提供關(guān)于任務(wù)的高級語義指導(dǎo)。GLiDE 嘗試在大模型的語義和智能機(jī)器在物理世界的行動軌跡之間建立關(guān)聯(lián),這個過程使用了人類的演示數(shù)據(jù),這樣系統(tǒng)就能夠?qū)⒆匀徽Z言的任務(wù)指令翻譯為機(jī)器的具體行動序列。
剛才討論的一些方法很多都是利用其他應(yīng)用領(lǐng)域預(yù)訓(xùn)練好的大模型,因此需要進(jìn)行額外的“接地”操作,即從大模型輸出的符號(語言、代碼等)轉(zhuǎn)換到物理世界的行動。而谷歌的 RT 系列大模型,通過端到端的訓(xùn)練一步到位輸出行動序列。在 RT—1 中,谷歌科學(xué)家首次提出一個模型類,叫作 Robotics Transformer(RT)。RT—1 的設(shè)計(jì)思路秉承了大模型“力大磚飛”的理念,也就是說,模型容量大,可以吸收大量的各類數(shù)據(jù),也可高效地泛化。
之后的RT—2 似乎不滿足之前的訓(xùn)練力度,于是將基于互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)訓(xùn)練的一個視覺—語言模型直接整合到端到端機(jī)器人控制中,進(jìn)一步提升模型的泛化能力。
而2024 年新推出的 RT—H 開始走分層路線,提出行動層級(action hierarchy)的概念,將復(fù)雜任務(wù)分解成簡單的語言指令,然后將這些指令轉(zhuǎn)化為機(jī)器人的行動,以提高任務(wù)執(zhí)行的準(zhǔn)確性。
例如,以“蓋上開心果罐的蓋子”這一任務(wù)和場景圖像作為輸入,RT—H 會利用視覺—語言模型預(yù)測語言動作,如向前移動手臂和向右旋轉(zhuǎn)手臂,然后根據(jù)這些語言動作,輸出具體的機(jī)器行動。這個過程允許人類的干預(yù),人 類的修正也能夠幫助機(jī)器進(jìn)行學(xué)習(xí)。
可以這么說,大模型作為目前人工智能領(lǐng)域的一個方法論,必將成為具身智能發(fā)展的重要推動力。我們有理由相信,不久的將來,具身智能體將具備執(zhí)行通用任務(wù)的能力和強(qiáng)大的學(xué)習(xí)能力,它們將能夠更深入地理解我們的世界,并以前所未有的方式參與其中。
至少,在回答“如何把大象裝進(jìn)冰箱”這一問題時,一個“充滿人性”的具身智能體可能會這樣回答:“首先,我們需要確認(rèn)大象是否有意愿被關(guān)進(jìn)冰箱里;其次,考慮到大象的體量,我們可能需要一個特制的大型冰箱;最后,確保在關(guān)上冰箱門之后,大象擁有足夠的空間和舒適的環(huán)境。”

DeepSeek—— 開啟AI平民化新時代
2025 年的科技圈中,如果有誰還沒聽說過 DeepSeek, 那么就等于被時代拋在身后了。這款由中國團(tuán)隊(duì)“深度求索”(DeepSeek)研發(fā)的大語言模型,憑借“技術(shù)突破、低 成本與開源”的組合策略,迅速成為全球 AI 領(lǐng)域的新焦點(diǎn)。
DeepSeek 之所以能在短時間內(nèi)爆火,首先要?dú)w功于它對 AI 技術(shù)平權(quán)的推動。DeepSeek v3 僅用 GPT—4 大約十分之一的訓(xùn)練成本,就達(dá)到了與后者相當(dāng)?shù)男阅堋_@種“以小博大”的低成本模式為更多中小型團(tuán)隊(duì)帶來了希望,讓AI 從原先的“巨頭玩具”轉(zhuǎn)變成“大眾工具”。DeepSeek R1 公布后,不少研發(fā)團(tuán)隊(duì)受其啟發(fā),紛紛借鑒 R1 的技術(shù)路線,以更易負(fù)擔(dān)的成本研發(fā)大模型,就好像“拼多多”在電商領(lǐng)域用低價策略打開市場一樣,DeepSeek 同樣憑借開源和成本優(yōu)勢,迅速拉近了普通人與尖端 AI 的距離。
除此之外,DeepSeek 的開放生態(tài)也產(chǎn)生了強(qiáng)大的“滾雪球效應(yīng)”。通過開放核心技術(shù),DeepSeek 為全球開發(fā)者提供了協(xié)同改進(jìn)模型的機(jī)會。這種與維基百科類似的模式不僅加速了技術(shù)迭代,而且還允許企業(yè)在本地或私有云環(huán)境中部署自己的 DeepSeek 實(shí)例,從而降低對 OpenAI 等廠商的依賴。在這種“你中有我、我中有你”的生態(tài)里,新功能和新技術(shù)能夠快速孵化,最終反哺整個 AI 產(chǎn)業(yè)。正因如此,DeepSeek v3 和 R1 一經(jīng)推出,各路服務(wù)商便紛紛宣布對其進(jìn)行集成或給予支持。
當(dāng)然,資本市場對 DeepSeek 的追捧也為其知名度的提升推波助瀾。自 2025 年 1 月開始,AI 概念股一路飆升,中證軟件指數(shù)更是在短短數(shù)周內(nèi)上漲 23.1%,與 DeepSeek 相關(guān)的公司獲得了資本的“熱捧”。更具戲劇性的是,DeepSeek 在 2025 年 1 月底因過度火爆而遭遇了國家級對手的 DDoS(分布式拒絕服務(wù))攻擊。有人調(diào)侃,這是對 DeepSeek 實(shí)力的另一種“官方認(rèn)證”,更進(jìn)一步印證了它引發(fā)的巨大影響力。
DeepSeek 的崛起并不是一次簡單的技術(shù)升級,而是一場可能改變行業(yè)規(guī)則的“地震”。傳統(tǒng)大模型訓(xùn)練往往動輒耗資數(shù)千萬美元,而 DeepSeek v3 采用 FP8 混合精度訓(xùn)練等創(chuàng)新手段,將單次訓(xùn)練成本壓到約 550 萬美元,讓人們第一次看到了“以經(jīng)濟(jì)艙價格享受商務(wù)艙服務(wù)”的可能。與此同時,DeepSeek 的全面開源也打破了閉源模型長期以來的壟斷地位,為醫(yī)療、教育等垂直領(lǐng)域的中小公司帶來“二次開發(fā)”的機(jī)遇,從而催生了一場類似于安卓系統(tǒng)之于手機(jī)行業(yè)的變革。更引人注目的是,DeepSeek R1-Zero 還是首個完全基于強(qiáng)化學(xué)習(xí)訓(xùn)練的大模型,這意味著它能夠像小朋友學(xué)騎自行車那樣,通過試錯完成自我迭代和進(jìn)化,逐漸擺脫對人工標(biāo)注數(shù)據(jù)的嚴(yán)重依賴。
隨著DeepSeek 的步步崛起,中美之間的 AI 競爭格局也受到了影響。美國企業(yè)更傾向于依賴 GPU 芯片等硬件優(yōu)勢,以大算力硬扛大模型的方式來開拓技術(shù)前沿陣地。相 比之下,中國團(tuán)隊(duì)則更加注重模型壓縮、算法優(yōu)化等“以巧取勝”的策略,這種“技術(shù)瘦身”繞過了對高端算力的 嚴(yán)重依賴,也拓寬了 AI 落地場景的廣度。DeepSeek 的成功證明,不總是需要頂尖算力,通過工程和算法創(chuàng)新,也可能在 AI 領(lǐng)域取得突破。與此同時,生態(tài)模式的分歧也日益明顯。如我們在“大模型的困局”中所述,科技巨頭大多偏向閉源,牢牢掌控技術(shù)話語權(quán),但 DeepSeek 所倡導(dǎo)的開源生態(tài),吸引著全球眾多開發(fā)者加入“技術(shù)共同體”。這種 自下而上的“群眾路線”不僅能不斷豐富 AI 應(yīng)用場景,還可能瓦解傳統(tǒng)巨頭建立起來的護(hù)城河。這種競爭態(tài)勢的轉(zhuǎn) 變,本質(zhì)上是基礎(chǔ)理論創(chuàng)新與應(yīng)用落地兩種發(fā)展路徑的碰 撞,而中國在智能制造、智慧城市等領(lǐng)域的深厚產(chǎn)業(yè)基礎(chǔ), 正在為 AI 技術(shù)提供得天獨(dú)厚的試驗(yàn)場。
當(dāng)我們站在AI 開始全面走入普通人生活的開端展望未來時會發(fā)現(xiàn),DeepSeek 依然有漫長的道路要走。它目前的重點(diǎn)在于文本處理,未來可能會擴(kuò)展至圖像、視頻等多模態(tài)領(lǐng)域, 向真正的“全能型 AI 助手”進(jìn)化。同時,通過邊緣計(jì)算技術(shù), DeepSeek 或許能在智能手機(jī)、AR(增強(qiáng)現(xiàn)實(shí))眼鏡等設(shè)備上實(shí)現(xiàn)離線翻譯、實(shí)時 AR 導(dǎo)航等功能,讓更多人真正體驗(yàn)到“AI 飛入尋常百姓家”的便利。更深遠(yuǎn)的影響或許在于,以DeepSeek 為代表的開源大模型可能像云計(jì)算重構(gòu) IT 基礎(chǔ)設(shè)施那樣,通過開源社區(qū)構(gòu)建 AI 時代的“水電”網(wǎng)絡(luò),讓開發(fā)者如同調(diào)用電力般便捷地使用 AI 技術(shù)。
前進(jìn)的道路上依然存在不少挑戰(zhàn)。數(shù)據(jù)安全與隱私保護(hù)的沖突仍需謹(jǐn)慎應(yīng)對,國際政治環(huán)境帶來的風(fēng)險也不容小覷。但就像蒸汽機(jī)拉開工業(yè)革命的大幕,DeepSeek 所代表的 AI 平民化趨勢,很可能正在開啟智能時代的大門。
DeepSeek 的崛起不僅僅是一家中國企業(yè)的逆襲之路, 更是 AI 技術(shù)實(shí)現(xiàn)民主化的重要里程碑。它用開源去挑戰(zhàn)壟斷,用低成本推動普惠,用工程智慧彌補(bǔ)算力短板,而這場“破圈”革命帶來的意義,恰如網(wǎng)友所戲稱的“過去 AI 是‘神仙打架’,現(xiàn)在終于輪到凡人修仙了”。我們都將是親歷者與見證者。
作者 劉云浩
作者簡介:清華大學(xué)全球創(chuàng)新學(xué)院院長,清華大學(xué)自動化系教授、博導(dǎo)。
原標(biāo)題:《具身智能:人工智能的下一個浪潮》
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

- 贝聿铭大展首次来沪
- 新版国家卫生监督抽查计划发布
- 广西:6月30日前交代问题从宽处理

- 中欧国际工商学院院长汪泓:AI推动金融生态变革
- 新高教集团:2025财年上半年归母净利润同比增长8.6%,就业服务中心扩展至川渝地区

- 中国的前乒乓球名将,2025年4月,当选中国乒乓球协会新任主席
- “上海国际汽车工业展览会”的简称

- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2025 上海东方报业有限公司