- +1
解決機器人“疊被子困境”,杭州六小龍群核科技開源空間理解模型

澎湃新聞記者 李晶昀 AI 創意
“杭州六小龍”企業之一群核科技3月19日宣布,公司自主研發的空間理解模型SpatialLM正式開源。該模型能夠基于從視頻中提取的點云數據,準確認知和理解其中的結構化場景信息,并將它以腳本語言的形式呈現出來。
“就像我們環顧四周環境便可以理解背后的空間結構一樣。”群核科技如此比喻。具體運行中,可以簡單理解,給SpatialLM“刷”一段視頻,它便能生成物理正確的3D場景布局。
據介紹,該模型特點之一是更通用的數據輸入模式。SpatialLM無須借助智能穿戴設備作為傳感器輸入數據,手機、相機所拍攝的視頻均可以成為數據來源,大大降低了開發者的數據采集門檻。
其次是物理正確的場景創建能力。空間場景是否符合物理正確原則,是影響機器人空間理解效果的關鍵。

SpatialLM 基于視頻重建的3D結構化場景
群核科技稱,這得益于公司在過去十余年中積累了海量的3D數據和空間認知數據。該公司由黃曉煌、陳航、朱皓于2011年聯合創辦,主要以空間設計軟件市場為目標。旗下產品包含空間設計軟件酷家樂、海外版產品Coohom,以及為AIGC、具身人工智能、AR/VR、機器人等提供虛擬環境訓練的群核空間智能平臺SpatialVerse。
根據弗若斯特沙利文的資料,按2023年的平均月活躍用戶(MAU)數目計量,群核科技是全球最大的空間設計平臺;按2023年的收入計量,公司亦是中國最大的空間設計軟件提供商,約占22.2%的市場份額。2024年,群核科技的平均月活躍訪客數為8630萬名。
群核科技方面表示,SpatialLM突破了大語言模型對物理世界幾何與空間關系的理解局限,讓機器具備空間認知與推理能力,為具身智能等相關領域提供空間理解基礎訓練框架。
值得一提的是,群核科技去年已發布群核空間智能解決方案(下稱“SpatialVerse”),SpatialVerse主要通過合成數據方案為機器人搭建起接近物理真實的“數字道場”,幫助它們在仿真環境下完成例如疊被子、遞送水杯、開關冰箱門等行動的交互訓練。
群核科技稱,有了SpatialLM模型和SpatialVerse,機器人將獲得從認知理解到行動交互的完整閉環訓練,也就是既能“看懂”世界,又能學會行動決策,進而在真實世界里順利“上崗”。
實際上,去年12月,群核科技聯合創始人兼董事長黃曉煌在一次公開演講中即提到,當我們談到具身智能或者機器人的時候,“疊被子困境”是一個非常典型的場景。
“目前的 ChatGPT 大語言模型,可以很容易地讓機器人理解人類的指令,‘給我疊一個被子’,它也可以通過視覺判斷哪床被子是疊好的、哪床被子沒疊好,但它很難執行。或者當它學會疊一床被子后,換個形狀可能就又不會了。”黃曉煌指出,“機器人的大腦在數字世界里,但身體卻在物理世界中。”
而如何讓機器人正確理解物理世界,黃曉煌認為關鍵是要有海量可交互的三維數據。
群核科技最新也提及,開源僅僅是一個起點。“具身智能正處在爆發式發展的新階段,我們希望以空間模型和數據開源為契機,讓更多具身智能從業者有機會參與二次創新,共同推動產業技術底座持續進化。”
此外值得關注的是,今年的2月14日,群核科技已正式向港交所遞交上市申請,也是“杭州六小龍”中首家啟動IPO進程的公司。
成立至今,該公司已獲得包括IDG資本、紀源資本、順為資本、云啟資本、經緯創投、線性資本、Hearst、Pavillion、高瓴創投、Coatue等多家機構投資。IPO前,IDG資本、紀源資本、高瓴創投均持有群核科技超10%的股份。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司