- 資訊與博客
全球首創,刷新19個SOTA!大曉機器人開源空間智能通用模型ACE-Brain-0
近日,大曉機器人聯合上海交通大學、南洋理工大學、香港中文大學、香港大學等研究機構共同推出以空間智能為底層框架、跨不同具身本體的通用基礎模型「ACE-Brain-0」,正式面向全行業開源。
ACE-Brain-0首次打破汽車、機器人、無人機等不同本體壁壘,貫穿空間認知、自動駕駛、低空感知、機器人交互,重新定義了物理世界智能的技術底層邏輯。其性能表現在涵蓋空間認知、自動駕駛、低空感知、具身交互的24 個核心 benchmark 中,19 個取得當前模型中的 SOTA(排名第一) 成績,全面大幅領先市場主流具身模型。ACE-Brain-0主要對標GPT-4o、Gemini 2.5-Pro、Qwen2.5-VL-7B-Inst、RoboBrain2.0-7B、MiMo-Embodied-7B等16個知名模型,將19個Benchmark具身模型最強基準準確率相對提升5%-97.8%。在衡量三維認知的MindCube,以82.1%的成績,較最好的開源模型(InternVL3-8B)提升了97.8%。
目前,上述模型已應用於大曉機器人具身超級大腦模組A1,使搭載具身超級大腦A1的機器狗具備行業首創的端到端自主導航能力,並且基於VLA架構實現雲端智能交互,讓機器狗具備理解抽象指令、感知複雜環境、完成複雜任務的端到端閉環能力。
在城市人行道等複雜公共場景中,搭載ACE-Brain 的機器狗展現出卓越的導航與VLA能力。以圖片場景為例,面對「估算行人和摩托車間距、判斷是否有足夠空間導航通過」的需求,ACE-Brain賦能機器狗精準完成三大核心動作:
依託空間認知能力,可精準量化行人和摩托車間距約0.5米,為導航決策提供可靠依據;透過視覺語言理解,清晰解析自然語言指令,實現「看—懂—判」的連貫交互,無需額外定制化指令;在導航決策中,既能判斷空間足夠通過,又主動提出「謹慎前行」的安全建議,兼顧效率與公共安全,適配複雜公共場景的移動需求。


搭載ACE-Brain 的機器狗,可精準識別前方車輛等障礙物,透過空間智能感知道路環境與目標位置,預判通行風險,主動判斷 「應停下並安全繞行」,實現空間識別與目標預測的高效協同,保障複雜路況下的移動安全。


這種能力讓機器狗在擁擠人行道、複雜路況等場景中,運用強大的空間智能技術底座,透過3D 場景建模、幾何關係推理、空間定位等核心能力,既能精準感知環境,又透過自然語言交互理解任務,實現安全、高效的自主導航,為公共巡檢、應急響應等場景提供可靠支撐。
空間智能成為跨本體的「通用語言」
為了實現多任務,傳統的辦法是把所有任務數據混在一起,然後訓練模型,盼望模型能夠自己悟出來;但是ACE-Brain的思路則更像教育學:先讓它建立「空間感」,學會理解世界中的前後左右、遠近高低、視角變化和位置等空間幾何關係,然後再去學不同任務中的具體技能。簡單來說,就是先學會「怎麼看懂世界」,再學會「怎麼完成相關的任務動作」。
大曉機器人團隊突破性發現,無論自動駕駛車輛、低空無人機還是機器人,儘管形態差異巨大,但都依賴三大核心空間能力:三維空間結構建模、幾何關係推理、場景演化預測。
基於上述共性,大曉機器人首次提出以空間智能作為跨具身形態的「通用語言」,成為用以連接不同物理域的統一認知支架,為通用具身智能找到統一底座。

為打造統一的空間智能認知支架,ACE-Brain-0以空間資訊為多模態自回歸架構,實現了從單視角圖像到多視角影片序列的認知統一處理。
在輸入層,兼容單圖、多圖、影片等多模態視覺數據,搭配自然語言指令作為任務條件,覆蓋所有具身場景的輸入需求;
在表徵層,透過通用視覺編碼器提取領域無關的空間特徵,經MLP 投影器映射為語言模型可理解的視覺令牌,並按 「通用、空間、駕駛、航空、具身」分類組織,確保空間資訊的結構化表達;
在推理層,由統一的LLM解碼器實現跨模態融合推理,將空間認知轉化為可遷移的統一表示,使不同具身場景的知識能基於空間邏輯自由流動。
這一設計的核心優勢在於,無需為特定場景定制專用模組,僅透過空間智能的「通用表徵」,就實現了跨域知識的自然遷移,徹底改變了「一個場景一套模型」的傳統具身研發模式。
打造全新範式,解決跨本體訓練困境
傳統跨域訓練面臨兩大困境,一是聯合訓練易引發梯度干擾,導致各領域能力「稀釋」;二是序貫訓練則會出現災難性遺忘,學了新技能丟了舊能力。大曉機器人首創Scaffold-Specialize-Reconcile(SSR)三階段訓練範式,透過「先建共識、再練專長、後融知識」的路徑,完美解決了這一矛盾。
首先,Scaffold(框架構建)築牢通用空間基礎。ACE-Brain-0利用大規模空間智能數據集訓練空間專家模型,建立域無關的三維認知先驗。這一步就像為所有具身能力打造「通用地基」,讓後續領域訓練都能基於統一的空間認知框架展開,避免了各領域「從零開始學空間」的重複勞動。
第二步,Specialize(域專精學習)實現隔離優化和強化專長。在空間框架上,ACE-Brain-0分別獨立訓練自動駕駛專家、機器人專家等領域模型。每個領域專家模型僅在自身專屬數據集上微調,避免不同本體數據帶來的梯度衝突,確保每個領域都能獲得充分的專業化能力。
最後一步,Reconcile(跨域知識調和)實現數據無關的參數級融合。ACE-Brain-0透過任務向量空間對齊技術,在無需原始訓練數據的條件下,將各領域專家的參數進行整合,從而同時聯合訓練中的優化干擾和順序訓練導致的災難性遺忘。
四大能力首次統一,打造「一腦多形」樣本
ACE-Brain-0首次在單一模型框架中實現四大核心具身能力的統一:空間認知、自動駕駛、低空感知、機器人交互。這一突破並非簡單的能力「拼接」,而是基於空間智能的深度融合,其技術關鍵在於「共享認知結構」的構建。

透過空間中心化建模,ACE-Brain-0讓不同具身場景的認知邏輯實現統一。自動駕駛中的「車距判斷」與機器人交互中的「抓取距離估算」,共享同一套空間距離推理機制;交通場景的「多視圖融合」與機器人的「多視角物體識別」,依託相同的跨視角空間對齊技術。
這種「共享認知結構」 使得模型能在不同觀察視角、運動尺度與任務語義之間自由切換,實現跨域理解與推理能力的自然遷移。
刷新19個榜單具身模型SOTA
ACE-Brain-0在涵蓋空間認知、自動駕駛、低空感知、具身交互的 24 個核心 benchmark 中,對標GPT-4o、Gemini 2.5-Pro、Qwen2.5-VL-7B-Inst、RoboBrain2.0-7B、MiMo-Embodied-7B等16個知名模型,取得了19 個當前具身模型中的SOTA(排名第一) 成績,同時將19個Benchmark具身模型最強基準準確率相對提升5%-97.8%,全面超越市場主流具身模型(如天工、北京智源、小米等)。
空間認知領域:
ACE-Brain-0參與了7項空間認知領域的權威基準評測,在具身人工智能模型陣營中斬獲5項 SOTA, VSI(視覺空間智能)、MMSI(多模態空間智能)、SITE(空間語言理解)、SAT(空間視角變換)、Mindcube(受限視角三維建模)代表了不同維度的核心空間能力。
其中VSI(視覺空間智能)綜合評估模型對空間佈局、物體關係和尺度的理解與推理能力,ACE-Brain-0以63.3%的成績領跑具身模型,驗證了其空間認知的通用性;SAT(空間視角變換)考察從不同視角重構空間佈局的能力,ACE-Brain-0以92.0% 的成績,相較當前最好具身模型提升了16.9%,證明其在視角變換下的空間建模能力。
Mindcube(受限視角三維建模)評估有限視角下建構三維心理空間的能力,ACE 82.1%的表現碾壓其他具身模型,較閉源模型 Gemini-2.5-Pro相對提升了42.5%,較最好的開源模型(InternVL3-8B)相對提升了97.8%,突破了遮擋和視角限制。

*代表基於上述模型復現/下劃線代表次優表現/黑體代表最優表現
自動駕駛領域:
ACE-Brain-0在5個自動駕駛benchmark 上均取得領先表現,分別是MME-RealWorld(真實駕駛場景理解)、MAPLM(地圖與道路結構理解)、DriveAction(駕駛行為理解)、NuscenesQA(多視圖動態場景理解)、NuPlanQA(規劃與交通規則理解),尤其在真實駕駛場景理解(MME-RealWorld)和規劃推理能力(NuPlanQA) 等關鍵能力上實現顯著提升。
其中MME-RealWorld(真實駕駛場景理解)主要評估模型在真實交通環境中的 多模態駕駛場景理解能力。ACE-Brain-0以71.2%的成績,相比當前最強具身大腦模型相對提升18%。
NuPlanQA(規劃與交通規則理解)重點考察模型在自動駕駛規劃任務中的 交通信號理解與車輛狀態推理能力。ACE-Brain-0取得91.7%的成績,決策正確率超越所有具身模型基線,較Pelican-VL-7B模型相對提升近10%。

*代表基於上述模型復現/下劃線代表次優表現/黑體代表最優表現
低空感知領域:
ACE-Brain-0在5個低空視覺benchmark上均取得顯著領先表現,包括UrbanVideo-Bench(城市級無人機場景理解)AirCopBench(空中交通關係理解和多無人機視角協同理解)、AVI-Math(空中幾何推理與數值計算)、Airspatial-VQA(低空空間視覺問答)、HIRVQA(遙感視覺問答),尤其在城市級無人機場景理解(UrbanVideo-Bench)和空中交通關係推理(AirCopBench) 等關鍵能力上實現大幅提升。
其中UrbanVideo-Bench(城市級無人機場景理解)主要評估模型在城市級無人機影片中的大尺度場景理解與地標識別能力。ACE-Brain-0以56.9%的成績,相比當前最強具身大腦模型相對提升51.7%。
AirCopBench(空中交通關係理解和多無人機視角協同理解)主要考察模型在複雜城市道路拓撲下的空中交通監控與車輛關係推理能力。ACE-Brain-0以70.3%領跑具身模型,相比當前最強具身大腦模型相對提升35.4%。
AVI-Math(空中幾何推理與數值計算)主要評估模型在無人機視角下進行 幾何計算與結構化數值推理能力。ACE-Brain-0相比當前最強具身大腦模型提升1.3個百分點,達35.0%。

*代表基於上述模型復現/下劃線代表次優表現/黑體代表最優表現
具身交互領域:
ACE-Brain-0在4個具身benchmark上均表現出穩定優勢,包括RoboVQA(機器人操作理解)、EmbSpatial(具身空間理解)、EgoPlan-Bench2(具身任務規劃)、EB-Habitat(具身導航理解),尤其在機器人操作理解(RoboVQA)等關鍵能力上實現顯著突破
RoboVQA(機器人操作理解)主要評估模型對機器人操作行為與物體交互過程的理解能力。ACE-Brain-0以64.6%的成績遠超同類模型。
EmbSpatial(具身空間理解)主要評估模型在具身環境中的 空間關係理解與環境結構認知能力。ACE-Brain-0成績達77.3%,相比當前最強具身大腦模型提升1個百分點。
EgoPlan-Bench2(具身任務規劃)主要考察模型在第一視角複雜任務中的長時序任務規劃能力。ACE-Brain-0成績達55.3%,相比當前最強具身大腦模型提升1.9個百分點。
EB-Habitat(具身導航理解)主要考察模型在模擬具身環境中的導航決策與完成完整任務的綜合能力。ACE-Brain-0成績達42.3%,相比當前最強具身大腦模型提升2.3個百分點。

*代表基於上述模型復現/下劃線代表次優表現/黑體代表最優表現
共享空間智能成為具身智能新世界觀
一個模型,一套參數同時在這些任務上的卓越表現非常有意義。它說明「空間優先」不是一句漂亮口號,而是會真實改變跨形態學習效果的設計原則。尤其是具身交互那條曲線更耐人尋味:為什麼直接學會失敗,而先學空間再學會成功?直觀上看,因為當智能體面對真實世界時,動作策略往往依賴於對環境結構的正確理解。如果連空間關係都沒有穩定學會,那麼所謂「具身能力」就很容易變成表面模仿;反過來,如果先掌握了共享的空間骨架,再去學具體動作,就像先學會看地圖再學開車,很多問題會突然迎刃而解。
更重要的是,報告並沒有滿足於「實驗上可行」,還試圖回答:為什麼空間真的適合做共同底座? 在附錄理論部分,報告把這個想法形式化為一個「可恢復的空間scaffold」:模型的內部表示中,應該存在一個形態無關的共享幾何變量,它承載三維佈局、相對位姿、深度和拓撲等資訊。如果訓練後這個共享變量能夠被穩定「解碼」出來,那麼它就不再只是一個模糊特徵,而會變成跨不同身體都能複用的空間核心。理論中進一步指出,後續不同系統需要學習的,更多會是各自身體特有的感知、動力學和控制部分,而不是反覆從零學習幾何世界。
這套理論把一個深奧問題講清楚了:為什麼是「空間」,而不是別的? 因為空間不是一個普通任務,它更像是所有物理智能共同依賴的座標系。無論是車在車道中判斷前後左右,還是無人機從鳥瞰視角推理道路關係,還是機器人在房間裡判斷物體位置,它們都必須先擁有一種內部「空間地圖」。ACE-Brain-0就是把這種「內部地圖」從隱含假設提升成了方法設計的起點。
這一技術路徑的領先性,不僅在於解決了當前具身AI 的核心痛點,更在於為未來通用物理世界智能的研發提供了可複用的底層框架。ACE-Brain 真正讓人興奮的地方,不是某一個分數超過了誰,而是它重新定義了「通用具身智能」應該從哪裡開始。過去我們常常把「通用」理解為一個模型會做很多任務;而 ACE-Brain 讓人看到另一種可能:真正的「通用」,或許不是任務列表越來越長,而是先找到這些任務背後的共享結構。空間,就是它給出的答案。ACE-Brain提出了一種新的具身人工智能世界觀:不同身體不一定要從頭學起,它們可以先共享一個關於世界的空間理解,再在這個基礎上長出各自的能力。未來的具身智能體,無需再為單一形態定制模型,只需基於ACE-Brain的空間智能底座,就能快速適配新的物理本體與應用場景。從自動駕駛到低空經濟,從工業機器人到家庭服務設備,展現出面向真實物理世界多場景的平台潛力。
該技術成果已上傳:
https://arxiv.org/abs/2603.03198
Project Page:
https://ace-brain-team.github.io/ACE-Brain-0
Code:
https://github.com/ACE-BRAIN-Team/ACE-Brain-0
Hugging Face:
https://huggingface.co/ACE-Brain/ACE-Brain-0-8B






返回