长兴郴障科技有限公司

澎湃Logo
下載客戶端

登錄

  • +1

國內(nèi)首個通用具身基座模型發(fā)布

澎湃新聞記者 喻琰
2025-03-10 11:54
來源:澎湃新聞
? 未來2% >
字號

3月10日,上海機器人初創(chuàng)公司智元機器人正式發(fā)布智元啟元大模型GenieOperator-1(GO-1),這是中國首個通用具身基座模型。智元機器人表示,這款模型具有泛化能力,能夠在極少數(shù)據(jù)甚至零樣本下泛化到新場景、新任務(wù),降低了具身模型的使用門檻,降低了后訓練成本。

據(jù)介紹,該模型開創(chuàng)性地提出了Vision-Language-Latent-Action(ViLLA)架構(gòu),實現(xiàn)了可以利用人類視頻學習,完成小樣本快速泛化。ViLLA架構(gòu)是由VLM(多模態(tài)大模型) + MoE(混合專家)組成,其中VLM借助海量互聯(lián)網(wǎng)圖文數(shù)據(jù)獲得通用場景感知和語言理解能力,MoE中的Latent Planner(隱式規(guī)劃器)借助大量跨本體和人類操作數(shù)據(jù)獲得通用的動作理解能力,MoE中的Action Expert(動作專家)借助百萬真機數(shù)據(jù)獲得精細的動作執(zhí)行能力。在推理時,VLM(多模態(tài)大模型)、Latent Planner(隱式規(guī)劃器)和Action Expert(動作專家)三者協(xié)同工作。目前智元啟元大模型已成功部署到智元多款機器人本體。

具身智能(Embodied Intelligence),是指一種基于物理身體進行感知和行動的智能系統(tǒng),其通過智能體與環(huán)境的交互獲取信息、理解問題、做出決策并實現(xiàn)行動,從而產(chǎn)生智能行為和適應(yīng)性。機器人便是具身智能的代表產(chǎn)品之一。實現(xiàn)具身智能,更強調(diào)機器人與物理世界的直接交互,需要處理視覺、聽覺、觸覺、運動等多種模態(tài)的數(shù)據(jù),并將感知、決策和行動緊密結(jié)合。

2024年年底,智元機器人曾發(fā)布AgiBot World 百萬真機數(shù)據(jù)集,盡管AgiBot World 數(shù)據(jù)集已經(jīng)是目前最大的機器人真機示教數(shù)據(jù)集,但這樣高質(zhì)量帶動作標簽的真機數(shù)據(jù)量仍然有限,遠少于互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)集。為了解決具身智能數(shù)據(jù)困境,智元機器人此次采用Latent Actions(隱式動作)來建模當前幀和歷史幀之間的隱式變化,然后通過Latent Planner(隱式規(guī)劃器)預(yù)測這些Latent Actions(隱式動作),從而將異構(gòu)數(shù)據(jù)源中真實世界的動作知識轉(zhuǎn)移到通用操作任務(wù)中。

智元機器人表示,通過ViLLA 創(chuàng)新性架構(gòu),智元機器人在五種不同復(fù)雜度任務(wù)上測試 GO-1大模型,相比已有的最優(yōu)模型,GO-1平均成功率提高了32%。其中在“Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(補充飲料) 任務(wù)中表現(xiàn)突出。此外,GO-1大模型還可以搭配智元一整套數(shù)據(jù)回流系統(tǒng),可以從實際執(zhí)行遇到的問題數(shù)據(jù)中持續(xù)進化學習,“越用越聰明”。

北航機器人研究所名譽所長、中關(guān)村智友研究院院長王田苗此前在接受澎湃科技采訪時提到,大模型對人形機器人的核心貢獻在于實現(xiàn)類似人類的交互、推理和環(huán)境適應(yīng)能力。然而,目前仍存在理論和技術(shù)挑戰(zhàn)。比如,通用大模型在算法選擇上,是監(jiān)督學習、強化學習,還是端到端學習或者模擬學習,這些都在探索中。

智元機器人方表示,大語言模型是數(shù)字世界、單模態(tài)的,具身智能需要處理多模態(tài)物理世界的數(shù)據(jù),包括圖像、視頻、傳感器數(shù)據(jù)等。大模型對這些非文本數(shù)據(jù)的理解和處理能力有限,無法滿足具身智能對多模態(tài)數(shù)據(jù)融合的需求。智元啟元大模型采用的Vision-Language-Latent-Action(ViLLA)架構(gòu),能夠更好地滿足具身智能對多模態(tài)數(shù)據(jù)融合和物理世界交互的需求。

不過,一位向具身智能機器人提供基礎(chǔ)場景數(shù)據(jù)和解決方案的從業(yè)人員認為,目前具身基座模型的“通用性”都有待驗證,很難評價。在他看來,智元此次發(fā)布的大模型大概率是在其自產(chǎn)的機器人上搭載,其他機器人能用到什么程度還需要更多從業(yè)者去驗證。

    責任編輯:宦艷紅
    圖片編輯:陳飛燕
    校對:施鋆
    澎湃新聞報料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋
            明升国际网| 百家乐官网关台| 大发888娱乐游戏技巧| 百家乐二代皇冠博彩| 百家乐官网最稳妥的打法| 澳门顶级赌场网址| 网上百家乐官网作弊法| 绵阳市| 大发888sut8| 百家乐千术手法| 24楼风水化解| 百家乐官网娱乐代理| 百家乐官网如何打公式| 瓮安县| 365在线投注| 明升网址 | bet365 论坛| 大发888娱乐真钱游戏下载| 全讯网下载| 菲律宾百家乐官网娱乐平台| 百家乐官网看不到视频| 通城县| 威尼斯人| 新皇冠现金网怎么样| 威尼斯人娱乐城 2013十一月九问好| 百家乐单机版的| 百家乐赌博娱乐城| 什么百家乐平注法| 博彩网百家乐中和局| 澳门百家乐哪家信誉最好| 蓝盾百家乐官网赌场娱乐网规则 | 网络棋牌游戏排行榜| 六合彩走势图| 金钻娱乐| 百家乐官网使用技法| 利博娱乐城| 澳门赌场图片| 足球改单平| 永利博线上娱乐城| 息烽县| 百胜百家乐官网软件|