- +1
國內首個通用具身基座模型發布
3月10日,上海機器人初創公司智元機器人正式發布智元啟元大模型GenieOperator-1(GO-1),這是中國首個通用具身基座模型。智元機器人表示,這款模型具有泛化能力,能夠在極少數據甚至零樣本下泛化到新場景、新任務,降低了具身模型的使用門檻,降低了后訓練成本。
據介紹,該模型開創性地提出了Vision-Language-Latent-Action(ViLLA)架構,實現了可以利用人類視頻學習,完成小樣本快速泛化。ViLLA架構是由VLM(多模態大模型) + MoE(混合專家)組成,其中VLM借助海量互聯網圖文數據獲得通用場景感知和語言理解能力,MoE中的Latent Planner(隱式規劃器)借助大量跨本體和人類操作數據獲得通用的動作理解能力,MoE中的Action Expert(動作專家)借助百萬真機數據獲得精細的動作執行能力。在推理時,VLM(多模態大模型)、Latent Planner(隱式規劃器)和Action Expert(動作專家)三者協同工作。目前智元啟元大模型已成功部署到智元多款機器人本體。
具身智能(Embodied Intelligence),是指一種基于物理身體進行感知和行動的智能系統,其通過智能體與環境的交互獲取信息、理解問題、做出決策并實現行動,從而產生智能行為和適應性。機器人便是具身智能的代表產品之一。實現具身智能,更強調機器人與物理世界的直接交互,需要處理視覺、聽覺、觸覺、運動等多種模態的數據,并將感知、決策和行動緊密結合。
2024年年底,智元機器人曾發布AgiBot World 百萬真機數據集,盡管AgiBot World 數據集已經是目前最大的機器人真機示教數據集,但這樣高質量帶動作標簽的真機數據量仍然有限,遠少于互聯網規模的數據集。為了解決具身智能數據困境,智元機器人此次采用Latent Actions(隱式動作)來建模當前幀和歷史幀之間的隱式變化,然后通過Latent Planner(隱式規劃器)預測這些Latent Actions(隱式動作),從而將異構數據源中真實世界的動作知識轉移到通用操作任務中。
智元機器人表示,通過ViLLA 創新性架構,智元機器人在五種不同復雜度任務上測試 GO-1大模型,相比已有的最優模型,GO-1平均成功率提高了32%。其中在“Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(補充飲料) 任務中表現突出。此外,GO-1大模型還可以搭配智元一整套數據回流系統,可以從實際執行遇到的問題數據中持續進化學習,“越用越聰明”。
北航機器人研究所名譽所長、中關村智友研究院院長王田苗此前在接受澎湃科技采訪時提到,大模型對人形機器人的核心貢獻在于實現類似人類的交互、推理和環境適應能力。然而,目前仍存在理論和技術挑戰。比如,通用大模型在算法選擇上,是監督學習、強化學習,還是端到端學習或者模擬學習,這些都在探索中。
智元機器人方表示,大語言模型是數字世界、單模態的,具身智能需要處理多模態物理世界的數據,包括圖像、視頻、傳感器數據等。大模型對這些非文本數據的理解和處理能力有限,無法滿足具身智能對多模態數據融合的需求。智元啟元大模型采用的Vision-Language-Latent-Action(ViLLA)架構,能夠更好地滿足具身智能對多模態數據融合和物理世界交互的需求。
不過,一位向具身智能機器人提供基礎場景數據和解決方案的從業人員認為,目前具身基座模型的“通用性”都有待驗證,很難評價。在他看來,智元此次發布的大模型大概率是在其自產的機器人上搭載,其他機器人能用到什么程度還需要更多從業者去驗證。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司