學習DeepSeek創新思路，商湯絕影智駕方案跨越式演進

澎湃新聞記者陳華

2025-02-24 15:56

汽車圈 >

2月22日，2025全球開發者先鋒大會（GDC）在滬舉辦期間，商湯絕影CEO、商湯科技聯合創始人、首席科學家王曉剛發布行業首個“與世界模型協同交互的端到端自動駕駛路線R-UniAD”。

據悉，這一路線通過構建世界模型生成在線交互的仿真環境，以此進行端到端模型的強化學習訓練。它與受到市場關注的DeepSeek技術創新思路同歸一源：從模仿學習向強化學習升級演進，從而實現端到端自動駕駛超越人類的駕駛表現。

據介紹，端到端的自動駕駛本質是通過海量的高質量人類駕駛數據，來實現最佳的“模仿”駕駛效果。然而，受限于高質量場景數據的稀缺性和駕駛數據質量的參差不齊，端到端智駕方案要達到人類駕駛能力的天花板并不容易，動輒千萬Clips的高質量數據回流形成了規模門檻。

而引發關注的DeepSeek-R1基于純強化學習的關鍵創新，通過少量高質量數據的冷啟動，模型進行多階段的強化學習訓練，有效降低大模型訓練的數據規模門檻，同時也讓尺度定律得以延續，為模型變得更大更強鋪平了道路。更重要的是，強化學習能夠讓大模型自行涌現出長思維鏈能力，顯著提升推理效果，甚至可能具備超越人類的思維能力。

王曉剛表示，強化學習的技術創新也同樣可以遷移到端到端自動駕駛領域。

正是基于強化學習，商湯絕影提出“與世界模型協同交互的端到端技術路線”。具體分為三個階段，首先是依靠冷啟動數據通過模仿學習進行云端的端到端自動駕駛大模型訓練；然后基于強化學習，讓云端的端到端大模型與世界模型協同交互，持續提升端到端模型的性能；最后云端大模型通過高效蒸餾的方式，實現高性能端到端自動駕駛小模型的車端部署。

據介紹，能夠生成高保真的場景數據、保證長時推演一致性、并支持在線交互的強大世界模型是R-UniAD的核心基石。相比其他競爭者，商湯絕影的優勢在于，其既擁有大裝置算力基礎設施，又有云端自動駕駛大模型。

而基于UniAD端到端自動駕駛方案和“開悟”世界模型，商湯絕影R-UniAD將通過強化學習加速智駕跨越式演進。在4月即將到來的上海車展上，商湯絕影將發布R-UniAD端到端自動駕駛方案，并完成實車部署。而商湯絕影的量產端到端智駕方案預計將在年底交付，“開悟”世界模型也正式用于數據生產，搶占新技術路線的先機。

責任編輯：沈關哲

圖片編輯：張穎

校對：張亮亮

澎湃新聞報料：021-962866

澎湃新聞，未經授權不得轉載

我要舉報

#智駕