Figure AI發布人形機器人通用大模型：能識別陌生物品，兩臺機器人可共享運行

澎湃新聞記者秦盛

2025-02-21 11:48

來源：澎湃新聞

? 10%公司 >

離開OpenAI后，Figure AI正式發布“從未在人形機器人上看到過的東西”。

當地時間2月21日，AI機器人初創公司Figure AI公布了端到端人形機器人VLA（視覺-語言-動作）通用大模型Helix。

Figure AI表示，如果機器人的能力沒有質的飛躍，就無法進入家庭領域，而Helix模型能像人類一樣推理。

據Figure AI介紹，Helix不僅實現了對整個機器人的上半身，包括手腕、軀干、頭部和單個手指輸出高速率連續控制，也可以在兩臺機器人上同時運行，使它們能夠解決共享的長距離操作任務，操作它們從未見過的物品。

配備Helix的圖形機器人只需根據自然語言提示，就能拾取幾乎任何小型家用物品，包括它們從未見過的物品。

與之前的方法不同，Helix使用一組神經網絡權重來學習所有行為——拾取和放置物品、使用抽屜和冰箱以及跨機器人交互——而無需針對具體任務進行微調。

Figure AI Helix演示視頻。(02:33)

此外，Helix還能夠完全在嵌入式低功耗GPU上運行，可立即投入商業部署。

Figure AI表示，家庭是機器人技術面臨的最大挑戰。與受控的工業環境不同，家庭中充斥著無數難以預測的物品。機器人要想在家庭中發揮作用，就必須能夠按需生成新的智能行為，尤其是針對它們從未見過的物體。而目前，即使是教機器人學會一種新行為，也需要大量的人力：要么是數小時的博士級專家手工編程，要么是數千次的演示。如果考慮到家庭問題的實際規模，這兩種方式的成本都高得令人望而卻步。而人工智能的其他領域已經掌握了這種即時通用的方法。如果能簡單地將視覺語言模型（VLM）中捕捉到的豐富語義知識直接轉化為機器人動作，將從根本上改變機器人技術的發展軌跡。而關鍵問題是如何從VLM中提取所有的常識性知識，并將其轉化為可通用的機器人控制。由此，Figure AI構建了Helix來彌補這一差距。

對于人形機器人上半身的控制，Helix采用了“雙系統”方法。

Figure AI表示，之前的方法面臨著一個根本性的權衡：VLM架構通用但不夠快，而機器人的視覺運動策略快但不通用。Helix通過兩個互補系統解決了這一問題，讓兩個系統經過端對端訓練，可以進行通信。系統1（S1）：快速反應視覺運動策略，將系統2（S2）生成的潛在語義表征轉化為精確的連續機器人動作。

這種架構讓每個系統都能以其最佳時間尺度運行。S2“慢思考”高層次目標，而S1則“快思考”實時執行和調整動作。

Helix的“雙系統”架構。(00:07)

據介紹，S2是基于一個70億參數的開源、開放權重的視覺語言模型構建，該模型在互聯網規模的數據上進行了預訓練。S1是一個8000萬參數的交叉注意力Transformer架構，依靠一個全卷積、多尺度的視覺骨干網絡進行視覺處理，該網絡從全模擬環境中完成的預訓練中構建。同時，對于分開的S1和S2，還可以分別進行迭代，而不需要尋找統一的觀察空間或動作表示。

Figure AI表示，他們收集了一個高質量、多機器人、多操作員的多樣化遙操作行為數據集，總計約500小時。為了生成自然語言條件下的訓練對，還使用了一個自動標注的VLM來生成事后指令。該VLM處理來自機器人機載攝像頭的分段視頻片段，并以“為了得到這段視頻中看到的動作，您會給機器人下達什么指令？”為提示。訓練期間處理過的所有物品都會在評估中被排除，防止數據污染。

搭載Helix的人形機器人訓練(00:13)

與其他方案相比，其速度可與專門用于單一任務的行為克隆策略媲美，同時還能對數千個新測試對象進行零樣本泛化，也可直接輸出高維動作空間的連續控制。

Figure AI成立于2022年，2023年3月正式發布首款通用人形機器人Figure 01，旨在通過在制造、物流、倉儲和零售等行業執行各種任務來解決全球勞動力短缺問題，曾獲OpenAI、微軟、英偉達、英特爾以及亞馬遜創始人貝佐斯等投資，但在今年2月初，Figure AI在宣布即將公布此次的重大進展時表示，將終止與OpenAI合作。

在此次Helix發布后，Figure AI創始人布雷特·阿德科克（Brett Adcock）表示想要將Helix的規模擴大1000倍，并稱“2025年將是關鍵的一年，我們將開始生產、出貨更多的機器人，并解決家用機器人的問題”。

阿德科克也表示，還有很長的路要走，“但這是可行的”。

值得一提的是，“人形機器人第一股”深圳市優必選科技股份有限公司（優必選，9880.HK）在Figure AI此次發布的前一天（2月20日）也剛剛宣布，針對最新的開源推理大模型 DeepSeek-R1，已在人形機器人應用場景中進行了驗證，最新測試結果顯示，經過多模態能力擴展的DeepSeek-R1能夠讓人形機器人在執行任務前結合看到的場景和接收到的指令進行思考驗證，零樣本推理水平與調優后的同級別大模型推理水平相當。公司將基于DeepSeek-R1研發適用于人形機器人的多模態具身推理大模型，預期在真實場景的數據調優后，其表現將會進一步提升。

另一方面，OpenAI投資的另一家機器人初創公司1X宣布將在明天有新發布。

同時，OpenAI自2024年底開始也已在重組機器人部門，由Meta增強現實（AR）眼鏡團隊前負責人凱特琳·卡利諾夫斯基（Caitlin Kalinowski）負責機器人和消費硬件業務。今年1月末，OpenAI向美國專利商標局提交新的商標申請，涉及人形機器人、XR、智能手表、可穿戴設備等硬件設備。

國內的另一家機器人代表企業宇樹科技近期也頻繁公布人形機器人的算法升級，宇樹科技創始人、CEO王興興也在最近的一次采訪中表示，現在AI驅動機器人每天進化得非常快，AI人形機器人在今年年底前會達到一個新量級。

看來好戲才剛剛開始。

責任編輯：孫扶

圖片編輯：沈軻

校對：施鋆

澎湃新聞報料：021-962866

澎湃新聞，未經授權不得轉載

我要舉報