學(xué)習(xí)DeepSeek創(chuàng)新思路，商湯絕影智駕方案跨越式演進(jìn)

澎湃新聞?dòng)浾?陳華

2025-02-24 15:56

2月22日，2025全球開發(fā)者先鋒大會（GDC）在滬舉辦期間，商湯絕影CEO、商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家王曉剛發(fā)布行業(yè)首個(gè)“與世界模型協(xié)同交互的端到端自動(dòng)駕駛路線R-UniAD”。

據(jù)悉，這一路線通過構(gòu)建世界模型生成在線交互的仿真環(huán)境，以此進(jìn)行端到端模型的強(qiáng)化學(xué)習(xí)訓(xùn)練。它與受到市場關(guān)注的DeepSeek技術(shù)創(chuàng)新思路同歸一源：從模仿學(xué)習(xí)向強(qiáng)化學(xué)習(xí)升級演進(jìn)，從而實(shí)現(xiàn)端到端自動(dòng)駕駛超越人類的駕駛表現(xiàn)。

據(jù)介紹，端到端的自動(dòng)駕駛本質(zhì)是通過海量的高質(zhì)量人類駕駛數(shù)據(jù)，來實(shí)現(xiàn)最佳的“模仿”駕駛效果。然而，受限于高質(zhì)量場景數(shù)據(jù)的稀缺性和駕駛數(shù)據(jù)質(zhì)量的參差不齊，端到端智駕方案要達(dá)到人類駕駛能力的天花板并不容易，動(dòng)輒千萬Clips的高質(zhì)量數(shù)據(jù)回流形成了規(guī)模門檻。

而引發(fā)關(guān)注的DeepSeek-R1基于純強(qiáng)化學(xué)習(xí)的關(guān)鍵創(chuàng)新，通過少量高質(zhì)量數(shù)據(jù)的冷啟動(dòng)，模型進(jìn)行多階段的強(qiáng)化學(xué)習(xí)訓(xùn)練，有效降低大模型訓(xùn)練的數(shù)據(jù)規(guī)模門檻，同時(shí)也讓尺度定律得以延續(xù)，為模型變得更大更強(qiáng)鋪平了道路。更重要的是，強(qiáng)化學(xué)習(xí)能夠讓大模型自行涌現(xiàn)出長思維鏈能力，顯著提升推理效果，甚至可能具備超越人類的思維能力。

王曉剛表示，強(qiáng)化學(xué)習(xí)的技術(shù)創(chuàng)新也同樣可以遷移到端到端自動(dòng)駕駛領(lǐng)域。

正是基于強(qiáng)化學(xué)習(xí)，商湯絕影提出“與世界模型協(xié)同交互的端到端技術(shù)路線”。具體分為三個(gè)階段，首先是依靠冷啟動(dòng)數(shù)據(jù)通過模仿學(xué)習(xí)進(jìn)行云端的端到端自動(dòng)駕駛大模型訓(xùn)練；然后基于強(qiáng)化學(xué)習(xí)，讓云端的端到端大模型與世界模型協(xié)同交互，持續(xù)提升端到端模型的性能；最后云端大模型通過高效蒸餾的方式，實(shí)現(xiàn)高性能端到端自動(dòng)駕駛小模型的車端部署。

據(jù)介紹，能夠生成高保真的場景數(shù)據(jù)、保證長時(shí)推演一致性、并支持在線交互的強(qiáng)大世界模型是R-UniAD的核心基石。相比其他競爭者，商湯絕影的優(yōu)勢在于，其既擁有大裝置算力基礎(chǔ)設(shè)施，又有云端自動(dòng)駕駛大模型。

而基于UniAD端到端自動(dòng)駕駛方案和“開悟”世界模型，商湯絕影R-UniAD將通過強(qiáng)化學(xué)習(xí)加速智駕跨越式演進(jìn)。在4月即將到來的上海車展上，商湯絕影將發(fā)布R-UniAD端到端自動(dòng)駕駛方案，并完成實(shí)車部署。而商湯絕影的量產(chǎn)端到端智駕方案預(yù)計(jì)將在年底交付，“開悟”世界模型也正式用于數(shù)據(jù)生產(chǎn)，搶占新技術(shù)路線的先機(jī)。

責(zé)任編輯：沈關(guān)哲

圖片編輯：張穎

校對：張亮亮

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)

#智駕