- 商湯資訊
商湯日日新開源模型實現空間智能突破 於多項權威評測領先 GPT-5
商湯科技的「日日新」大模型正式發佈開源SenseNova-SI系列模型,SenseNova-SI在空間智能領域實現重要突破,在多個權威評測基準的空間理解和推理能力測試中,表現大幅領先同量級開源多模態大模型,並超越GPT-5 和 Gemini-3-Pro 等國際頂尖閉源模型。SenseNova-SI有助讓車輛及機械人更準確辨識周邊物件的距離、位置、移動方向等,進一步推動自動駕駛和機械人技術的發展。
現時行業領先的大模型,雖然在掌握知識、寫作、推理、編程等方面性能突出,但對空間結構的理解和推理能力普遍薄弱,而這恰恰是具身智能體(包括機械人)在現實世界操作所需要的關鍵基礎能力。
商湯圍繞空間智能進行深入的創新探索,找到提升空間智能的系統性訓練方法,打造了日日新·空間智能大模型系列 SenseNova-SI,當中包括 2B (擁有約20億參數)和 8B (擁有約80億參數)兩個規格。
SenseNova-SI表現顯著領先同量級開源模型
業界有多個權威模型基準測試,透過讓各模型分別回答大量有關空間理解及推理能力的題目,評估其能力。有關測試包括分別是由美國紐約大學及史丹福大學等研究人員聯合建立的VSI及MindCube;上海人工智能實驗室、香港中文大學、北京清華大學、香港大學等研究人員共建的MMSI;及浙江大學、電子科技大學與香港中文大學研究人員共建的ViewSpatial;及波士頓大學和微軟研究人員共建的SITE。
SenseNova-SI及多個開源和閉源、通用和空間智能模型,在上述基準測試中分別回答了約1,000至8,000題題目,表現各異。以100分為滿分,SenseNova-SI-1.1-8B模型在五個評測中平均獲得 60.0分,大幅領先Qwen3-VL-8B(41.3分)、BAGEL-7B(35.1分)等開源通用多模態模型,及VST-7B(43.6分)、Cambrian-S-7B(41.1分)等空間智能模型。對比GPT-5(52.1分)、Gemini-3-Pro-Preview(56.2分)等頂級閉源模型,雖然SenseNova-SI-1.1-8B的模型規格(包括參數規模、計算需求等)較小,但其表現亦較前兩者優勝。
有關評測的代碼和模型已上載至Github(https://github.com/OpenSenseNova/SenseNova-SI),測試結果具可重複性。
各模型在權威評測基準中的得分
模型名稱 | 在各權威評測基準中的得分 | |||||
平均分 | VSI | MMSI | MindCube-Tiny | ViewSpatial | SITE | |
Open-source Models (~2B) | ||||||
InternVL3-2B | 31.9 | 32.9 | 26.5 | 37.5 | 32.5 | 30 |
Qwen3-VL-2B-Instruct | 37.3 | 50.3 | 28.9 | 34.5 | 36.9 | 35.6 |
MindCube-3B-RawQA-SFT | 20.2 | 17.2 | 1.7 | 51.7 | 24.1 | 6.3 |
SpatialLadder-3B | 36.7 | 44.8 | 27.4 | 43.4 | 39.8 | 27.9 |
SpatialMLLM-4B | 31.7 | 46.3 | 26.1 | 33.4 | 34.6 | 18 |
VST-3B-SFT | 40.8 | 57.9 | 30.2 | 35.9 | 52.8 | 35.8 |
Cambrian-S-3B | 36.5 | 57.3 | 25.2 | 32.5 | 39 | 28.3 |
SenseNova-SI-1.1-InternVL3-2B | 45.8 | 63.7 | 34.2 | 41.8 | 52.7 | 36.8 |
Open-source Models (~8B) | ||||||
InternVL3-8B | 38.3 | 42.1 | 28 | 41.5 | 38.6 | 41.1 |
Qwen3-VL-8B-Instruct | 41.3 | 57.9 | 31.1 | 29.4 | 42.2 | 45.8 |
BAGEL-7B-MoT | 35.1 | 31.4 | 31 | 34.7 | 41.3 | 37 |
SpaceR-7B | 35.4 | 41.5 | 27.4 | 37.9 | 35.8 | 34.2 |
ViLaSR-7B | 36.9 | 44.6 | 30.2 | 35.1 | 35.7 | 38.7 |
VST-7B-SFT | 43.6 | 60.6 | 32 | 39.7 | 50.5 | 39.6 |
Cambrian-S-7B | 41.1 | 67.5 | 25.8 | 39.6 | 40.9 | 33 |
SenseNova-SI-1.1-InternVL3-8B | 60 | 68.7 | 43.3 | 85.6 | 54.6 | 47.7 |
Proprietary Models | ||||||
Gemini-2.5-Pro-2025-06 | 50.5 | 53.5 | 38 | 57.6 | 46 | 57 |
Germini-3-Pro-Preview | 56.2 | 52.5 | 45.2 | 70.9 | 50.4 | 62.2 |
Grok-4-2025-07-09 | 47.9 | 47.9 | 37.8 | 63.5 | 43.2 | 47 |
GPT-5-2025-08-07 | 52.1 | 55 | 41.8 | 56.3 | 45.6 | 61.9 |
註:滿分為100分
高質量、大規模訓練數據 提升性能
SenseNova-SI的性能飛躍,源於商湯提出空間能力分類體系和過往積累多樣化的數據,團隊採用系統化的方法擴充空間理解數據的規模,首次在空間智能領域驗證了「尺度效應」,即通過高質量、大規模數據訓練,可顯著提升模型的空間認知能力。
商湯提出的訓練範式具備通用性,能夠針對不同架構的基模型(如InternVL等)進行有效增強,使其在空間智能六大核心維度上——包括空間測量、空間重構、空間關係、視角轉換、空間形變與空間推理——實現一致性的能力提升。
商湯已經發佈詳細的技術報告,詳細闡述具體的技術方案:(https://www.arxiv.org/abs/2511.13719)。
在上述基準測試中,SenseNova-SI-1.1-8B在多題題目中表現較GPT-5優勝,以下為部分相關題目:




空間智能是世界模型與具身智能理解物理世界的基礎能力。今年7月,商湯正式發佈「悟能」具身智能平台,該平台以「開悟」世界模型為核心引擎,旨在為機器人和智能設備提供在物理世界中自主探索和進化的能力。
此次發佈的空間智能大模型SenseNova-SI,與「開悟」世界模型相輔相成,將更好地解決多模態模型從數碼空間走向物理世界的基礎挑戰,並在未來進一步推動AI在自動駕駛、機器人等場景的應用。
此外,商湯同步開源了空間智能測評平台 EASI與「英雄榜」,旨在推動空間智能技術評估標準的統一,持續追蹤並展示開源和閉源模型的性能進展,為學術界和工業界提供權威的評估基準,促進協同創新。
商湯SenseNova-SI的推出標誌著AI在三維世界理解能力上邁出關鍵一步,也為下一代通用人工智能技術融入物理世界打下堅實基礎。
空間智能測評平台EASI:https://github.com/EvolvingLMMs-Lab/EASI






返回