智元機器人發(fā)布GO-1，“稚暉君”摸著DeepSeek過河？

2025-03-14 07:15

來源：澎湃新聞·澎湃號·湃客

機器人行業(yè)的DeepSeek-R1，被智元機器人開發(fā)出來了？

華為天才少年計劃的經(jīng)歷，帶給了「稚暉君」彭志輝極高人氣，也讓他創(chuàng)辦的智元機器人獲得了行業(yè)頂級流量。但若技術(shù)實力與流量不匹配，最終這些流量難免化為輿論攻擊——就像日前涉嫌營銷用力過猛的Manus一樣。

好在，智元機器人一次又一次展現(xiàn)出了自己的實力，日前其推出全球首個通用具身智能基座大模型智元啟元大模型（Genie Operator-1，以下簡稱：GO-1），并計劃第一季度末對核心用戶開源，允許用戶將其部署到自家機器人上。

（圖源：智元機器人）

在DeepSeek-R1面世之后，全球多個AI公司將旗下的大模型開源，并承認開源方能加速推動AI行業(yè)進步。GO-1模型現(xiàn)階段開源程度不如采用MIT開源協(xié)議的DeepSeek-R1，但此前智元機器人已將用于訓練GO-1模型的AgiBot World數(shù)據(jù)集、工具鏈、預訓練模型統(tǒng)統(tǒng)開源，未來很可能將GO-1核心代碼和模型開源。

VLM+MoE，智元帶領(lǐng)機器人奔向AI時代

模型開源智元機器人方能有機會成為機器人行業(yè)的DeepSeek，但開源卻不代表一定能夠獲得媲美DeepSeek的地位，一切終究要實力說話。

智元機器人開發(fā)的GO-1模型基于Vision-Language-Latent-Action（ViLLA）架構(gòu)，由多模態(tài)大模型（VLM）和混合專家（MoE）組合而成。VLM為具身基座大模型的主干網(wǎng)絡，繼承了上海人工智能實驗室開發(fā)的開源大模型InternVL-2B的權(quán)重，可實現(xiàn)場景感知和語言理解，并利用互聯(lián)網(wǎng)上的視頻和圖片數(shù)據(jù)訓練自身。該模型還能融合多視角視覺、力覺信號，賦予自身通用場景理解能力，從而實現(xiàn)更多復雜的操作。

MoE則分為隱式規(guī)劃器和動作專家兩部分，隱式規(guī)劃器可利用互聯(lián)網(wǎng)上的人類或跨本體視頻，基于VLM的中間層輸出潛在動作令牌（Latent Action Tokens），形成規(guī)劃鏈（Chain of Planning），實現(xiàn)通用的動作理解和規(guī)劃。動作專家可借助仿真或真機數(shù)據(jù)，優(yōu)化潛在動作令牌的生成和輸出效率，并獲得高精度動作的執(zhí)行能力。

（圖源：智元機器人）

其具備的動態(tài)調(diào)節(jié)機制，還能實現(xiàn)圖像描述、OCR 解析等任務效率的提升，降低數(shù)據(jù)標注成本和優(yōu)化資源分配。

基于ViLLA架構(gòu)，GO-1模型構(gòu)建了數(shù)字金字塔，最基礎(chǔ)的互聯(lián)網(wǎng)純文本、圖文數(shù)據(jù)，可幫助機器人理解通用知識和場景；第二層的大規(guī)模人類或跨本體視頻，可幫助機器人學習人類或其他本體的動作操作模式；更高一層的仿真數(shù)據(jù)則能夠增強機器人的泛用性；最后由真機示教數(shù)據(jù)幫助機器人訓練精準動作執(zhí)行能力。

在模型架構(gòu)之外，用于訓練模型的數(shù)據(jù)同樣重要。最新版的AgiBot World包含1001552 條軌跡，覆蓋了家庭、零售、工業(yè)、餐廳、辦公五大關(guān)鍵場景，是目前全球最大的機器人真機示教數(shù)據(jù)集。

不同于普通軌跡不超過5秒的時間，AgiBot World中的軌跡跨度可達30秒左右，部分軌跡甚至長達2分鐘。智元機器人官方數(shù)據(jù)顯示，AgiBot World所采用的預訓練模式，相較谷歌Open X-Embodiment訓練策略平均性能提升30%，相較現(xiàn)有機器人大模型完成復雜操作的平均成功率提高了32%。

（圖源：智元機器人）

與傳統(tǒng)機器人模型相比，GO-1模型在架構(gòu)、數(shù)據(jù)、預訓練模式等方面均有所改進，提升了資源利用效率和模型的能力，能夠大幅降低機器人訓練和執(zhí)行操作所需的成本，作用與DeepSeek-R模型較為相似。二者相比，GO-1模型差的可能只有開源模式。

NVIDIA CEO黃仁勛曾預言，兩三年內(nèi)機器人行業(yè)將迎來重大突破，未來會像汽車一樣普及。在機器人技術(shù)從生澀走向成熟的今天，智元機器人也在不斷推動產(chǎn)品量產(chǎn)，日前1000臺機器人量產(chǎn)下線，已面向全球開源的靈犀X1也完成了首批交付，靈犀X2于3月11日在上海發(fā)布，功能更加強大。在未來機器人行業(yè)的競爭中，GO-1模型或?qū)⒊蔀橹窃獧C器人的核心競爭力之一。

降低門檻，GO-1要做下一個DeepSeek-R1？

阿加犀智能科技有限公司CEO孫曉剛表示，按照目前機器人行業(yè)的發(fā)展進程，三五年內(nèi)機器人的價格降到5萬元以內(nèi)沒有問題。

5萬元以內(nèi)的機器人，已處于普通消費者可以接受的范圍，但購買的前提是其功能足夠強大，可以幫助我們處理一些生活瑣事。決定機器人能力的關(guān)鍵，在于硬件和智能兩方面，GO-1模型要做的就是提高機器人的智能程度。

ViLLA架構(gòu)賦予了GO-1模型通過人類視頻學習的能力，互聯(lián)網(wǎng)上龐大的視頻資源，都將成為機器人進化的「養(yǎng)料」，讓機器人能夠更高效地完成復雜操作。

其次，小樣本快速泛化特性令GO-1模型可以在數(shù)據(jù)量極少，甚至零樣本的情況下，泛化到新場景，無需龐大的數(shù)據(jù)，從而大幅減少訓練成本，降低機器人行業(yè)的門檻。

最關(guān)鍵的是，GO-1屬于「一腦多形」通用機器人模型，能夠在兩足、輪足等不同類型機器人之間遷移和快速適配。不同類型的機器人可能需要完全不同的AI大模型，用于適配機器人硬件的工作模式，是開發(fā)機器人企業(yè)的難點之一。GO-1模型打破常規(guī)，可以輕松適配各種機器人，無疑能夠進一步降低機器人模型的開發(fā)、適配成本。

（圖源：智元機器人）

另外，GO-1模型還具備持續(xù)進化能力，日常工作中遇到的問題，數(shù)據(jù)都會回流至系統(tǒng)，用于機器人的訓練和功能升級。

盡管GO-1模型僅在本月底面向核心用戶開源，但從功能特性不難看出，GO-1已經(jīng)把「我會開源」寫在了臉上，整個大模型幾乎完全面向提升能力、降低成本兩方面。小樣本快速泛化和一腦多形能力，令實力底蘊不足的機器人企業(yè)，也能借助GO-1模型快速開發(fā)出適合機器人產(chǎn)品的AI系統(tǒng)，并借助國內(nèi)日漸成熟的機器人供應鏈實現(xiàn)產(chǎn)品量產(chǎn)。

與新能源汽車行業(yè)類似，機器人時代的到來是一次機遇，比亞迪、小鵬、賽力斯等車企已紛紛入場，還有許多知名度不高的小企業(yè)加入，究竟哪些企業(yè)能夠成長為頭部品牌，暫時無法確定。赫赫有名的宇樹科技有望成為機器人行業(yè)的比亞迪，開發(fā)GO-1模型的智元機器人則擁有成為「蔚小理」的機會。

同樣的，機器人行業(yè)的發(fā)展之路，也會有許多企業(yè)掉隊。不同的是，新能源汽車行業(yè)工業(yè)實力的重要性大于AI能力，而機器人領(lǐng)域AI能力的重要性至少持平工業(yè)實力，甚至更勝一籌。而且在機器人行業(yè)發(fā)展過程中，供應鏈將不斷整合，硬件會收斂，機器人最終比拼的是智能化。

（圖源：智元機器人）

正如智元新創(chuàng)技術(shù)有限公司研究院執(zhí)行院長、具身業(yè)務部總裁姚卯青所言，對機器人公司，你如果不做大模型，那是屬于沒有未來的機器人，沒有智能化，沒有作業(yè)能力只是一個硬件。

智元機器人推出的遠征、靈犀、絕塵等多品類機器人，無法發(fā)揮GO-1模型的全部價值，將其開源并允許其他企業(yè)修改、部署、商用，方能最大限度挖掘GO-1模型的價值，并起到推動機器人行業(yè)發(fā)展的作用。

向核心用戶開源模型只是開始，未來GO-1模型很可能面向全行業(yè)開源，增強其他機器人企業(yè)的實力。開源后的GO-1模型，才能獲得DeepSeek-R1的地位，成為行業(yè)發(fā)展的推動者。智元機器人自身也是硬件產(chǎn)品開發(fā)公司，借助GO-1的聲望，或?qū)⑦M一步打響知名度，并提高產(chǎn)品銷量，而非如現(xiàn)在一般，提到智元機器人和彭志輝，大家首先想到的是華為天才少年計劃出身的身份。