資訊與博客

商湯日日新開源模型實現空間智能突破於多項權威評測領先 GPT-5

2025-12-01

商湯科技的「日日新」大模型正式發佈開源SenseNova-SI系列模型，SenseNova-SI在空間智能領域實現重要突破，在多個權威評測基準的空間理解和推理能力測試中，表現大幅領先同量級開源多模態大模型，並超越GPT-5 和 Gemini-3-Pro 等國際頂尖閉源模型。SenseNova-SI有助讓車輛及機械人更準確辨識周邊物件的距離、位置、移動方向等，進一步推動自動駕駛和機械人技術的發展。

現時行業領先的大模型，雖然在掌握知識、寫作、推理、編程等方面性能突出，但對空間結構的理解和推理能力普遍薄弱，而這恰恰是具身智能體（包括機械人）在現實世界操作所需要的關鍵基礎能力。

商湯圍繞空間智能進行深入的創新探索，找到提升空間智能的系統性訓練方法，打造了日日新·空間智能大模型系列 SenseNova-SI，當中包括 2B （擁有約20億參數）和 8B （擁有約80億參數）兩個規格。

SenseNova-SI表現顯著領先同量級開源模型

業界有多個權威模型基準測試，透過讓各模型分別回答大量有關空間理解及推理能力的題目，評估其能力。有關測試包括分別是由美國紐約大學及史丹福大學等研究人員聯合建立的VSI及MindCube；上海人工智能實驗室、香港中文大學、北京清華大學、香港大學等研究人員共建的MMSI；及浙江大學、電子科技大學與香港中文大學研究人員共建的ViewSpatial；及波士頓大學和微軟研究人員共建的SITE。

SenseNova-SI及多個開源和閉源、通用和空間智能模型，在上述基準測試中分別回答了約1,000至8,000題題目，表現各異。以100分為滿分，SenseNova-SI-1.1-8B模型在五個評測中平均獲得 60.0分，大幅領先Qwen3-VL-8B（41.3分）、BAGEL-7B（35.1分）等開源通用多模態模型，及VST-7B（43.6分）、Cambrian-S-7B（41.1分）等空間智能模型。對比GPT-5（52.1分）、Gemini-3-Pro-Preview（56.2分）等頂級閉源模型，雖然SenseNova-SI-1.1-8B的模型規格（包括參數規模、計算需求等）較小，但其表現亦較前兩者優勝。

有關評測的代碼和模型已上載至Github（https://github.com/OpenSenseNova/SenseNova-SI），測試結果具可重複性。

各模型在權威評測基準中的得分

模型名稱	在各權威評測基準中的得分
	平均分	VSI	MMSI	MindCube-Tiny	ViewSpatial	SITE
Open-source Models (~2B)
InternVL3-2B	31.9	32.9	26.5	37.5	32.5	30
Qwen3-VL-2B-Instruct	37.3	50.3	28.9	34.5	36.9	35.6
MindCube-3B-RawQA-SFT	20.2	17.2	1.7	51.7	24.1	6.3
SpatialLadder-3B	36.7	44.8	27.4	43.4	39.8	27.9
SpatialMLLM-4B	31.7	46.3	26.1	33.4	34.6	18
VST-3B-SFT	40.8	57.9	30.2	35.9	52.8	35.8
Cambrian-S-3B	36.5	57.3	25.2	32.5	39	28.3
SenseNova-SI-1.1-InternVL3-2B	45.8	63.7	34.2	41.8	52.7	36.8
Open-source Models (~8B)
InternVL3-8B	38.3	42.1	28	41.5	38.6	41.1
Qwen3-VL-8B-Instruct	41.3	57.9	31.1	29.4	42.2	45.8
BAGEL-7B-MoT	35.1	31.4	31	34.7	41.3	37
SpaceR-7B	35.4	41.5	27.4	37.9	35.8	34.2
ViLaSR-7B	36.9	44.6	30.2	35.1	35.7	38.7
VST-7B-SFT	43.6	60.6	32	39.7	50.5	39.6
Cambrian-S-7B	41.1	67.5	25.8	39.6	40.9	33
SenseNova-SI-1.1-InternVL3-8B	60	68.7	43.3	85.6	54.6	47.7
Proprietary Models
Gemini-2.5-Pro-2025-06	50.5	53.5	38	57.6	46	57
Germini-3-Pro-Preview	56.2	52.5	45.2	70.9	50.4	62.2
Grok-4-2025-07-09	47.9	47.9	37.8	63.5	43.2	47
GPT-5-2025-08-07	52.1	55	41.8	56.3	45.6	61.9