申請試用
登入
商湯資訊

商湯王曉剛:世界模型帶來智能駕駛3.0階段

2025-09-29

9月21日,由汽車之家主辦的「汽車之家全球AI科技大會」在北京舉行。商湯科技聯合創始人、執行董事、CTO、商湯絕影CEO王曉剛出席大會,並發表《世界模型:智能駕駛範式演進新路標》主題演講,分享了「絕影開悟」世界模型給智能駕駛帶來的技術變遷。

image.png


演講中他談到三個核心點:


第一,世界模型「生成式智駕」帶來智能駕駛3.0階段。智能駕駛從依賴人工標注的「規則式智駕」1.0階段,發展到把人類行爲積累轉化成爲模型的「端到端智駕」2.0階段,最終正邁向通過世界模型和强化學習,帶來超越人類的「生成式智駕」3.0階段。


第二,「絕影開悟」世界模型推動智能駕駛在三個方面取得突破。 一是突破數據瓶頸,通過世界模型能够生成無限長尾場景;二是有更加確定的技術安全邊界,通過仿真模擬物理世界,在仿真環境中不斷嘗試;三是通過自主進化達到超越人類駕駛的體驗。


第三,「絕影開悟」世界模型實現全場景覆蓋,推動智能駕駛、具身智能跨越式發展。世界模型積累百萬級數據集,覆蓋各種複雜的場景,實現高保真、多視角時空一致性、4D實時互動。同時,世界模型在自動駕駛場景裏開發出來的技術體系,也將賦能具身智能發展。


以下爲主題演講內容:


各位領導、各位同仁、各位嘉賓,大家下午好!


非常感謝汽車之家的邀請,來參加全球AI科技大會,也能够有機會和大家分享世界模型——通用人工智能給自動駕駛帶來的技術的變遷。


▎世界模型「生成式智駕」帶來智能駕駛3.0階段


首先,我們認爲自動駕駛技術演進的頻率是非常快的。自動駕駛作爲人工智能非常重要的組成部分,它的技術變遷也反映了人工智能發展的三個階段。大家比較熟悉的基於規則的智能駕駛,是自動駕駛的第一個階段。這一階段通過AI輸出感知的結果,建立各種規則,並預定義這些邏輯,再根據優化物理模型實現規控。基於上述現象,我們在人工智能發展的每個階段會問這樣一個問題:智能到底是從哪裏來?實際上,在第一個階段,很多的智能來自於人工。人類需要大量標注各類感知數據,然後得到它的輸出,並人工書寫各式各樣的規則。所以在上述階段有一句話:有多少人工就有多少的智能。而這個階段很像人工智能1.0發展的階段,例如我們會做很多人臉識別的視頻分析;我們會針對安防的場景,人工輸入智能的數據。


第二個階段是大模型的出現,這是人工智能領域2.0,代表産品如ChatGPT。在互聯網上出現了過去很多年人類行爲的數據積累,比如各種文章、代碼,這些都是人類行爲智能的體現。在自動駕駛領域,對應的是人類的駕駛行爲,也就是第二階段行業內推動的端到端自動駕駛。端到端自動駕駛把過去長時間人類行爲積累的智能轉化成爲模型的智能,這時候就出現了很大的智能和體驗上的躍遷。但是其自身也有瓶頸,那便是人類的行爲就是智能的天花板,同時這種智能依賴大量高質量數據。從自動駕駛發展來看,今天的大模型發展也遇到了上述瓶頸,因爲我們在互聯網上積累起來的數據價值面臨枯竭境地。


因此,便進入了第三個階段,通過世界模型,通過生成式智駕,通過强化學習做出進一步的突破。舉一個非常典型的例子,2015年在圍棋領域出現了AIphaGo。之後又出現了AIphaZero,相較於AIphaGo,AIphaZero不需要任何人類知識的輸入,它也能够産生大量的智能。如今在自動駕駛領域,大家都希望有一個世界模型,這個模型就像在圍棋裏面,能够創造棋盤和人類定義的圍棋規則,這便是更高階的智能。對照圍棋的例子,我們希望自動駕駛也能够通過强化學習來突破人類行爲上限。要達成這個目標,我們就需要一個世界模型。讓世界模型來模擬物理世界的規律、人類行爲的法則和規律。在仿真的世界模型環境裏面,機器通過强化學習做到不斷的提升,以及突破人類駕駛的上限。


我們可以看到今天在人工智能3.0的發展中,人們還提出了具身智能,這是從原來互聯網數據走出來,通過跟物理世界交互産生的新智能。在具身智能領域,世界模型也會扮演非常重要的角色。


▎「絕影開悟」世界模型推動智能駕駛在三個方面取得突破


回到端到端自動駕駛所面臨的問題,主要有三個方面。一是需要大量的數據。特斯拉擁有幾百萬台車,而且這些車的傳感器配置是一致的,所以能够回流大量的數據。而我們面臨的問題是沒有如此規模的數據。二是對於各種危險複雜的場景,尤其是Corner Case,這些場景獲得成本是非常高的,風險也是非常高的。怎麽獲得這些高質量的數據是我們需要解决的問題。第三個是安全的邊界。現在端到端自動駕駛中發現一個問題場景,我們就需要採集很多跟這個場景所類似的其他數據,重新訓練模型。但是模型訓練完之後也不能够確定這個場景是否真正被解决,因爲端到端技術有不確定性在。


針對這些問題,我們要把世界模型、强化學習,以及端到端技術相結合。在這裏,核心是要有一個端到端的多模態大模型。這個模型的輸入可能是各種視覺的、激光的、語言文字導航的信息,輸出是車輛的行爲。端到端大模型會預測車輛的軌迹,基於預測的軌迹反饋給世界模型,世界模型就能够模擬仿真出物理世界將會怎樣的變化,給我們反饋基於世界模型合成的視頻,這些反饋將重新訓練端到端模型。而且這個方法會告訴我們,什麽樣的仿真模型是好的,如此循環往復的迭代,不斷提升端到端的性能。同時,在這個仿真環境裏面可以無數次的試錯,有了問題場景以後,通過無數次的嘗試一定能够解决我們所關心的問題,而且還能做到舉一反三、舉一反十、甚至反百。當下的世界模型並不是無中生有,而是針對問題場景,我們通過複現物理場景,把現實裏不能改變的各種要素,如天氣、道路、車速等,通過模擬仿真場景,比較徹底地解决類似問題。


接下來我給大家舉一個例子,看一看我們是怎麽用世界模型和强化學習來解决問題的。這裏展示的是一個問題場景。前方有一個施工佔道場景出現,我們需要急刹,大家想一想完成這個動作需要幾步?第一步需要做4D仿真的複現,通過3DGS和靜態場景複現,依托世界模型對它進行修復,就能够得到更高質量的4D空間。在4D空間裏就可以嘗試各種不同駕駛的行爲,調整端到端模型,嘗試各種不同的駕駛行爲,直到在這個環境裏找到最佳的駕駛行爲。我們有一套完善的辦法去評價什麽樣的駕駛行爲是好的。


在上述單一場景裏我們得到模型的更新和驗證後,接下來我們需要得到它進一步的多個泛化場景。現實世界中有很多類似的場景,比如說複雜的施工區域,需要換道通行,遇到圍欄需要减速等。這些不同的場景都是通過世界模型所生成出來的各類泛化場景。我們的模型在這些泛化場景裏面做進一步的學習,以及進行測試。


所以說現在的世界模型已經可以推動自動駕駛在三個方面取得突破。一是數據瓶頸,可以通過世界模型産生無限長尾場景。二是能够得到驗證的技術邊界,通過仿真模擬恢復物理的世界,在仿真環境不斷的嘗試。三是通過强化學習達到超越人類駕駛的體驗。


▎「絕影開悟」世界模型實現全場景覆蓋,推動智能駕駛、具身智能跨越式發展


要解决這些問題,背後核心是需要有個非常强大、質量非常高的世界模型來重構萬千世界,讓安全有更多的確定性。我們對世界模型會有哪些要求呢?一是生成的數據應該是能够面向量産的,能够有更多的場景,而且能够一鍵生成複雜可控的場景。二是場景裏面有各種因素,可以針對各種因素進行編輯,能够把各種因素通過自由組合方式,實現更多的拓展。三是實時,在一定空間裏面有非常高效的推理效率,促使在世界模型裏面進行實時互動。


這裏我們給大家看一個例子。我們坐車裏遇到Cut-in這樣比較危險的場景。我們可以看到車裏有7個攝像頭,每個攝像頭都在記錄。而要生成一個好的世界模型,就要保持多個攝像頭下的時空一致性。早在2024年,Sora模型就可以完成各種視頻的生成,現如今用世界模型做自動駕駛的話,它的難點在哪裏?那便是生成有連續性的視頻比圖像更難。生成用在自動駕駛環境裏視頻需要面臨很多困難,面對有衆多的攝像頭,模型要保持多個攝像頭的時空一致性。比如說面對車牌、道路的限行情况,各個攝像頭裏的內容應該是一致的。另外,還有空間的幾何關係得是一致的,這樣生成的視頻才能够有效的用作自動駕駛的訓練和測試。


基於此,我們可以針對剛剛提到的打車Cut-in場景改變各種要素,比如換不同的天氣條件、不同的道路路形、插入的大車車型、車速和Cut-in的距離。有了這些之後,模型完全可以做到舉一反十、反一百、反一千。而且大家可以看到,這裏一鍵生成了更加複雜的場景,例如車禍和碰撞的場景。


在這裏我們還需要對場景裏面的各種要素做到任意編輯,比如任意替換不同的車型、增加車輛、减少相應的車輛,模擬不同的駕駛環境。


而且模型也需要能够做到實時的推理,這裏我們展示的是在上海市區場景,在這個場景裏可以自由地開車、加减速、轉彎。大家所看到的這些視頻都與真實世界的物理環境非常接近。


世界模型産品化,開放API後,用戶可以描述他所想採用的數據,然後一鍵生成形成各種各樣所期待的視頻。我們現在積累的百萬級數據集,覆蓋各種複雜的場景,能够實現高保真。現如今每一個Clips有150s,車輛有7個攝像頭就能保持比1080P更好的圖像質量。


再說到基礎設施,現在各地政府也建立了實訓場,能够提供算力的平台,真實採集實車的數據。另外,有一半的數據也是通過世界模型模擬仿真進行生成,兩組數據相結合可以提供給車企進行端到端模型的訓練。


最後說下,在自動駕駛場景裏使用的世界模型所開發出來的所有技術體系,其實也可以用到具身智能裏。具身智能對世界模型的需求更加迫切。因爲機器人的數量比車輛數量更少,而且每個機器人硬件的配置千差萬別。我們希望在具身智能領域裏,世界模型能够做到多模態、數據對齊,能够得到4D空間,能够進行快速的推理。我給大家舉兩個例子,一是輸入一條指令讓機器人能够在公園裏進行跳躍,就會自動地生成機器人的骨胳、姿態、動作的變化,基於這個能够生成機器人第一視角看到視頻的數據和第三視角的數據。另外輸入指令讓機器臂切黃瓜,同樣可以生成第一和第三視角的數據。未來我們可以用這些大量的模擬仿真數據,來推動自動駕駛和具身智能跨越到下一個階段。


謝謝大家!