具身智能：人工智能的下一個浪潮

秦朔朋友圈

关注

2025-04-13 16:40

上海

来源：澎湃新聞·澎湃號·湃客

頭圖由豆包生成，提示詞：未來城市

從ChatGPT 以驚艷之姿闖入大眾視野，到DeepSeek驚艷全球，人們不斷驚嘆于大語言模型的強(qiáng)大能力；緊接著，2025 蛇年春晚舞臺上，機(jī)器人扭秧歌的精彩表演又掀起一陣科技狂潮。從智能對話到靈活起舞，這背后都繞不開一個關(guān)鍵領(lǐng)域 —— 具身智能。在科技飛速迭代的當(dāng)下，具身智能如何突破發(fā)展瓶頸？又將如何重塑我們的未來生活？

讓我們翻開清華大學(xué)全球創(chuàng)新學(xué)院院長、自動化系教授兼博導(dǎo)劉云浩的新書《具身智能：人工智能的下一個浪潮》，探尋其中的奧秘。

大模型如何“接地”

最近，大語言模型的熱潮席卷了整個技術(shù)界，也迅速與具身智能領(lǐng)域緊密結(jié)合。有人形象地說，引入大模型就像是給機(jī)器安裝了一個新的大腦，似乎只要將其簡單地嵌入，就能賦予機(jī)器全新的生命力。

先來說“加 bu?（增益）”的地方。

首先，大語言模型能夠幫助智能體與人類以自然語言進(jìn)行交流。人類能夠直接說出任務(wù)要求，大模型能夠?qū)Υ诉M(jìn)行編碼并得到更加方便機(jī)器進(jìn)行處理的語義表示形式。同樣，大模型也能夠根據(jù)智能機(jī)器當(dāng)時的狀態(tài)生成自然語言，反饋給人類。這正如我們所看到的Figure 01 機(jī)器人與人類用戶對話交流并執(zhí)行任務(wù)的過程。

其次，大模型能夠提供一些解決問題的“常識”，或者說高層次的語義指導(dǎo)。例如，如果我們問它：“如何把大象裝進(jìn)冰箱？”大模型可能會輸出：“拉開冰箱門，把大象放進(jìn)去，關(guān)上冰箱門。”我們姑且不論這個方案的可行性如何，大模型確實(shí)是能夠?qū)⒔鉀Q問題的完整過程拆解成多個子步驟并且給出一個執(zhí)行方案的。因此，大模型具備成為優(yōu)秀的行動規(guī)劃器的潛力。

最后，多模態(tài)大模型，例如預(yù)訓(xùn)練的視覺—語言模型（Visual-Language Models，VLMs），能夠?yàn)橹悄軝C(jī)器進(jìn)行多模態(tài)感知和認(rèn)知提供更為通用的選擇。例如，CLIP 能夠?qū)⒁曈X信息和文本映射到統(tǒng)一的表征空間，使得機(jī)器能夠直接以視覺數(shù)據(jù)作為輸入。3D-VLA 提出了一種新的三維視覺—語言—動作模型，它通過引入一個生成世界模型來無縫連接三維感知、推理和動作。與現(xiàn)有的基于 2D 輸入的 VLA 模型不同，3D-VLA 更加貼近現(xiàn)實(shí)世界的 3D 物理環(huán)境。

當(dāng)然，除了生成自然語言，大模型在未來也是能夠生成可用的代碼的。Code as Policies 通過訓(xùn)練大語言模型來為機(jī)器編寫策略代碼。給定自然語言的指令，大模型生成一段代碼，然后這段代碼就可以在智能機(jī)器上運(yùn)行，持續(xù)接收傳感器的輸入并輸出行動指令。有研究證明，這種生成代碼的方式比直接生成行動規(guī)劃要更好。VoxPoser 也是使用了大模型來生成代碼，然后這個代碼與前面提到的視覺—語言模型進(jìn)行交互，為后續(xù)的動作規(guī)劃提供信息。

大模型當(dāng)前遇到的挑戰(zhàn)

接下來我們說說當(dāng)前遇到的挑戰(zhàn)。大模型的一個顯著缺陷就是缺乏現(xiàn)實(shí)世界中的經(jīng)驗(yàn)。還是剛才說的，如果我們給大模型一個“把大象裝進(jìn)冰箱”的任務(wù)，它可能會正兒八經(jīng)地生成一段邏輯上合理的指導(dǎo)，卻不會思考這樣的步驟是否真的能實(shí)現(xiàn)。

為解決這一問題，谷歌的一項(xiàng)研究SayCan 提出使用預(yù)訓(xùn)練技能，為模型提供現(xiàn)實(shí)世界的知識基礎(chǔ)，這樣大語言模型輸出的內(nèi)容就被約束在這些預(yù)訓(xùn)練技能對應(yīng)的范疇內(nèi)。這種方法有點(diǎn)類似于我們?yōu)榇竽Ｐ蜏?zhǔn)備好了很多能夠執(zhí)行的 API（應(yīng)用程序編程接口），然后大模型通過調(diào)用它們完成行動。在這種配置中，智能機(jī)器充當(dāng)模型的“手和眼”，執(zhí)行具體任務(wù)，而大語言模型則負(fù)責(zé)提供關(guān)于任務(wù)的高級語義指導(dǎo)。GLiDE 嘗試在大模型的語義和智能機(jī)器在物理世界的行動軌跡之間建立關(guān)聯(lián)，這個過程使用了人類的演示數(shù)據(jù)，這樣系統(tǒng)就能夠?qū)⒆匀徽Z言的任務(wù)指令翻譯為機(jī)器的具體行動序列。

剛才討論的一些方法很多都是利用其他應(yīng)用領(lǐng)域預(yù)訓(xùn)練好的大模型，因此需要進(jìn)行額外的“接地”操作，即從大模型輸出的符號（語言、代碼等）轉(zhuǎn)換到物理世界的行動。而谷歌的 RT 系列大模型，通過端到端的訓(xùn)練一步到位輸出行動序列。在 RT—1 中，谷歌科學(xué)家首次提出一個模型類，叫作 Robotics Transformer（RT）。RT—1 的設(shè)計(jì)思路秉承了大模型“力大磚飛”的理念，也就是說，模型容量大，可以吸收大量的各類數(shù)據(jù)，也可高效地泛化。

之后的RT—2 似乎不滿足之前的訓(xùn)練力度，于是將基于互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)訓(xùn)練的一個視覺—語言模型直接整合到端到端機(jī)器人控制中，進(jìn)一步提升模型的泛化能力。

而2024 年新推出的 RT—H 開始走分層路線，提出行動層級（action hierarchy）的概念，將復(fù)雜任務(wù)分解成簡單的語言指令，然后將這些指令轉(zhuǎn)化為機(jī)器人的行動，以提高任務(wù)執(zhí)行的準(zhǔn)確性。

例如，以“蓋上開心果罐的蓋子”這一任務(wù)和場景圖像作為輸入，RT—H 會利用視覺—語言模型預(yù)測語言動作，如向前移動手臂和向右旋轉(zhuǎn)手臂，然后根據(jù)這些語言動作，輸出具體的機(jī)器行動。這個過程允許人類的干預(yù)，人類的修正也能夠幫助機(jī)器進(jìn)行學(xué)習(xí)。

可以這么說，大模型作為目前人工智能領(lǐng)域的一個方法論，必將成為具身智能發(fā)展的重要推動力。我們有理由相信，不久的將來，具身智能體將具備執(zhí)行通用任務(wù)的能力和強(qiáng)大的學(xué)習(xí)能力，它們將能夠更深入地理解我們的世界，并以前所未有的方式參與其中。

至少，在回答“如何把大象裝進(jìn)冰箱”這一問題時，一個“充滿人性”的具身智能體可能會這樣回答：“首先，我們需要確認(rèn)大象是否有意愿被關(guān)進(jìn)冰箱里；其次，考慮到大象的體量，我們可能需要一個特制的大型冰箱；最后，確保在關(guān)上冰箱門之后，大象擁有足夠的空間和舒適的環(huán)境。”

DeepSeek—— 開啟AI平民化新時代

2025 年的科技圈中，如果有誰還沒聽說過 DeepSeek，那么就等于被時代拋在身后了。這款由中國團(tuán)隊(duì)“深度求索”（DeepSeek）研發(fā)的大語言模型，憑借“技術(shù)突破、低成本與開源”的組合策略，迅速成為全球 AI 領(lǐng)域的新焦點(diǎn)。

DeepSeek 之所以能在短時間內(nèi)爆火，首先要?dú)w功于它對 AI 技術(shù)平權(quán)的推動。DeepSeek v3 僅用 GPT—4 大約十分之一的訓(xùn)練成本，就達(dá)到了與后者相當(dāng)?shù)男阅堋＿@種“以小博大”的低成本模式為更多中小型團(tuán)隊(duì)帶來了希望，讓AI 從原先的“巨頭玩具”轉(zhuǎn)變成“大眾工具”。DeepSeek R1 公布后，不少研發(fā)團(tuán)隊(duì)受其啟發(fā)，紛紛借鑒 R1 的技術(shù)路線，以更易負(fù)擔(dān)的成本研發(fā)大模型，就好像“拼多多”在電商領(lǐng)域用低價策略打開市場一樣，DeepSeek 同樣憑借開源和成本優(yōu)勢，迅速拉近了普通人與尖端 AI 的距離。

除此之外，DeepSeek 的開放生態(tài)也產(chǎn)生了強(qiáng)大的“滾雪球效應(yīng)”。通過開放核心技術(shù)，DeepSeek 為全球開發(fā)者提供了協(xié)同改進(jìn)模型的機(jī)會。這種與維基百科類似的模式不僅加速了技術(shù)迭代，而且還允許企業(yè)在本地或私有云環(huán)境中部署自己的 DeepSeek 實(shí)例，從而降低對 OpenAI 等廠商的依賴。在這種“你中有我、我中有你”的生態(tài)里，新功能和新技術(shù)能夠快速孵化，最終反哺整個 AI 產(chǎn)業(yè)。正因如此，DeepSeek v3 和 R1 一經(jīng)推出，各路服務(wù)商便紛紛宣布對其進(jìn)行集成或給予支持。

當(dāng)然，資本市場對 DeepSeek 的追捧也為其知名度的提升推波助瀾。自 2025 年 1 月開始，AI 概念股一路飆升，中證軟件指數(shù)更是在短短數(shù)周內(nèi)上漲 23.1%，與 DeepSeek 相關(guān)的公司獲得了資本的“熱捧”。更具戲劇性的是，DeepSeek 在 2025 年 1 月底因過度火爆而遭遇了國家級對手的 DDoS（分布式拒絕服務(wù)）攻擊。有人調(diào)侃，這是對 DeepSeek 實(shí)力的另一種“官方認(rèn)證”，更進(jìn)一步印證了它引發(fā)的巨大影響力。

DeepSeek 的崛起并不是一次簡單的技術(shù)升級，而是一場可能改變行業(yè)規(guī)則的“地震”。傳統(tǒng)大模型訓(xùn)練往往動輒耗資數(shù)千萬美元，而 DeepSeek v3 采用 FP8 混合精度訓(xùn)練等創(chuàng)新手段，將單次訓(xùn)練成本壓到約 550 萬美元，讓人們第一次看到了“以經(jīng)濟(jì)艙價格享受商務(wù)艙服務(wù)”的可能。與此同時，DeepSeek 的全面開源也打破了閉源模型長期以來的壟斷地位，為醫(yī)療、教育等垂直領(lǐng)域的中小公司帶來“二次開發(fā)”的機(jī)遇，從而催生了一場類似于安卓系統(tǒng)之于手機(jī)行業(yè)的變革。更引人注目的是，DeepSeek R1-Zero 還是首個完全基于強(qiáng)化學(xué)習(xí)訓(xùn)練的大模型，這意味著它能夠像小朋友學(xué)騎自行車那樣，通過試錯完成自我迭代和進(jìn)化，逐漸擺脫對人工標(biāo)注數(shù)據(jù)的嚴(yán)重依賴。

隨著DeepSeek 的步步崛起，中美之間的 AI 競爭格局也受到了影響。美國企業(yè)更傾向于依賴 GPU 芯片等硬件優(yōu)勢，以大算力硬扛大模型的方式來開拓技術(shù)前沿陣地。相比之下，中國團(tuán)隊(duì)則更加注重模型壓縮、算法優(yōu)化等“以巧取勝”的策略，這種“技術(shù)瘦身”繞過了對高端算力的嚴(yán)重依賴，也拓寬了 AI 落地場景的廣度。DeepSeek 的成功證明，不總是需要頂尖算力，通過工程和算法創(chuàng)新，也可能在 AI 領(lǐng)域取得突破。與此同時，生態(tài)模式的分歧也日益明顯。如我們在“大模型的困局”中所述，科技巨頭大多偏向閉源，牢牢掌控技術(shù)話語權(quán)，但 DeepSeek 所倡導(dǎo)的開源生態(tài)，吸引著全球眾多開發(fā)者加入“技術(shù)共同體”。這種自下而上的“群眾路線”不僅能不斷豐富 AI 應(yīng)用場景，還可能瓦解傳統(tǒng)巨頭建立起來的護(hù)城河。這種競爭態(tài)勢的轉(zhuǎn) 變，本質(zhì)上是基礎(chǔ)理論創(chuàng)新與應(yīng)用落地兩種發(fā)展路徑的碰撞，而中國在智能制造、智慧城市等領(lǐng)域的深厚產(chǎn)業(yè)基礎(chǔ)，正在為 AI 技術(shù)提供得天獨(dú)厚的試驗(yàn)場。

當(dāng)我們站在AI 開始全面走入普通人生活的開端展望未來時會發(fā)現(xiàn)，DeepSeek 依然有漫長的道路要走。它目前的重點(diǎn)在于文本處理，未來可能會擴(kuò)展至圖像、視頻等多模態(tài)領(lǐng)域，向真正的“全能型 AI 助手”進(jìn)化。同時，通過邊緣計(jì)算技術(shù)， DeepSeek 或許能在智能手機(jī)、AR（增強(qiáng)現(xiàn)實(shí)）眼鏡等設(shè)備上實(shí)現(xiàn)離線翻譯、實(shí)時 AR 導(dǎo)航等功能，讓更多人真正體驗(yàn)到“AI 飛入尋常百姓家”的便利。更深遠(yuǎn)的影響或許在于，以DeepSeek 為代表的開源大模型可能像云計(jì)算重構(gòu) IT 基礎(chǔ)設(shè)施那樣，通過開源社區(qū)構(gòu)建 AI 時代的“水電”網(wǎng)絡(luò)，讓開發(fā)者如同調(diào)用電力般便捷地使用 AI 技術(shù)。

前進(jìn)的道路上依然存在不少挑戰(zhàn)。數(shù)據(jù)安全與隱私保護(hù)的沖突仍需謹(jǐn)慎應(yīng)對，國際政治環(huán)境帶來的風(fēng)險也不容小覷。但就像蒸汽機(jī)拉開工業(yè)革命的大幕，DeepSeek 所代表的 AI 平民化趨勢，很可能正在開啟智能時代的大門。

DeepSeek 的崛起不僅僅是一家中國企業(yè)的逆襲之路，更是 AI 技術(shù)實(shí)現(xiàn)民主化的重要里程碑。它用開源去挑戰(zhàn)壟斷，用低成本推動普惠，用工程智慧彌補(bǔ)算力短板，而這場“破圈”革命帶來的意義，恰如網(wǎng)友所戲稱的“過去 AI 是‘神仙打架’，現(xiàn)在終于輪到凡人修仙了”。我們都將是親歷者與見證者。

作者劉云浩

作者簡介：清華大學(xué)全球創(chuàng)新學(xué)院院長，清華大學(xué)自動化系教授、博導(dǎo)。

原標(biāo)題：《具身智能：人工智能的下一個浪潮》

閱讀原文

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

我要举报