- 商湯資訊
商湯科技開源SenseNova-MARS 模態搜索推理能力創新高
商湯今日正式開源多模態自主推理模型 SenseNova-MARS(提供 8B 與 32B 版本),在多個多模態搜尋與推理的核心基準測試中平均取得 69.74 分,超越Gemini-3-Pro(69.06 分)和GPT-5.2(67.64 分)。
SenseNova-MARS 是首個同時支援動態影像推理與圖文搜尋的開源 Agentic VLM 模型,能自主規劃步驟、調用工具,輕鬆處理各類複雜任務,令人工智能真正具備「執行能力」。
在 MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA等基準測試中,SenseNova-MARS的表現領先開源模型,還超越 Gemini‑3.0‑Pro、GPT‑5.2 等頂級閉源模型,於搜尋推理及視覺理解兩大核心領域全面領跑。
詳情請參閱技術報告(https://arxiv.org/abs/2512.24330),歡迎開發者及行業用家進行測試與體驗。
自主解決複雜問題 全面領先
SenseNova‑MARS 在多項多模態搜索評測中展現明顯領先優勢,平均得分達 69.74 分,超越 Gemini‑3‑Pro 的 69.06 分與 GPT‑5.2 的 67.64 分。

SenseNova-MARS在 MMSearch 榜單(圖文搜索核心評測)中, 以74.27分與Gemini-3-Pro(74.27 分)一同成為榜首, 超越 GPT-5.2(66.08 分);SenseNova-MARS亦在HR-MMSearch(高清細節搜索評測)中 以54.43 分領先,拋離閉源模型。

HR‑MMSearch 的測試題目堪稱「AI 界的奧林匹克」:採用 305 張 2025 年最新的 4K 超高清圖片,避免 AI 依賴舊知識「作弊」; 所有問題都針對圖片中不到 5% 的細節,如小標誌、小字、微小物體,必須使用裁剪工具才能看清; 涵蓋體育、娛樂文化、科學技術、商業金融、遊戲、學術研究、地理旅行等八大領域; 60% 的問題需要至少三種工具才能解答
簡單而言,無論是需要「查遍全網」的知識密集型任務,還是需要「金睛火眼」的細緻視覺分析,SenseNova MARS均表現領先。
多工具協作 解決真實場景問題
一般 AI只能搜尋文字或看圖片,無法處理需要「先放大細節、再識別物體、最後查背景」的複雜任務。SenseNova-MARS 則能夠解決需要「多步驟推理 + 多工具協作」的問題,在生活和工作場景中落地應用。
以下為SenseNova‑MARS自主思考及解答基準試題目的步驟: 
面對‘識別賽車服微小標誌 + 搜尋公司成立年份 + 搜尋車手出生年月 + 計算兩者差距的複雜任務,SenseNova-MARS 可自主調用圖像裁剪、文本 / 圖像搜索工具,無需人工干預便完成閉環解答。
SenseNova-MARS能從産品和行業峰會的照片中,識別企業的標誌,快速搜集産品、企業的信息,以及時間、數量、參數等細節要素,輔助分析行業情况和格局。

SenseNova-MARS能從賽事照片中識別畫面中的標誌、人物等信息,追溯比賽或人員背景信息,快速補充報道細節。

SenseNova-MARS亦能够處理這類超長步驟的多模態推理任務,並調用超過三種工具,自動裁剪分析細節、搜索相關研究數據、快速驗證假設,以得出關鍵判斷。
SenseNova-MARS擁有「自主思考+多工具協作」能力,能自動解决「細節識別 + 信息檢索 + 邏輯推理」的複雜任務,提升工作效率。
l 圖像裁剪:能精準聚焦圖片上的微小細節,包括佔比不到5%的細節——如賽車手衣服上的微小logo、賽事照片中觀衆席的標語等,均可透過裁剪、放大,清晰分析。
l 圖像搜索:能看見物體、人物或場景,迅速自動匹配相關信息——如識別賽車手的身份,或某款冷門設備的型號。
l 文本搜索:能快速抓取精準信息——秒級搜索出公司成立年份、人物出生年月、最新行業數據等。
為AI培養「直覺」、儲「經驗」
SenseNova-MARS 採用了「因材施教」的訓練方法。
第一階段:打穩基礎。針對跨模態多跳搜索推理訓練數據稀缺的痛點,創新性的提出了基於多模智能體的自動化數據合成引擎,採用細粒度視覺錨點 + 多跳深度關聯檢索的機制,動態挖掘並關聯跨網頁實體的邏輯,自動化構建高複雜度的多跳推理鏈路,同時引入閉環自洽性校驗來去除幻覺數據,構造出具備嚴密邏輯鏈條與高知識密度的多跳搜索問答數據。用 3,000 個精心篩選的「高難度案例」作為教材,確保 AI 一開始就接觸真實複雜場景,每個案例都標註了「該用什麼工具、步驟是什麼」,讓 AI 先學會基本的「破案邏輯」。
第二階段:儲實戰經驗。採用「強化學習」—— 就像偵探在一次次破案中積累經驗,AI 每做對一次決策(如選對工具、步驟合理)就會獲得獎勵,做錯了就調整策略。為了避免 AI「學偏」,研究團隊還加了個「穩定器」——BN-GSPO 算法,讓它在處理簡單題和複雜題時都能保持穩定進步,不會出現「偏科」。 這種基於雙階段歸一化的優雅機制有效平滑了動態工具調用返回分佈多樣性帶來的優化波動,並確保了學習信號分佈的一致性,從而成功解決了跨模態多步多工具智能體訓練過程中的收斂性難題。
模型、代碼、數據全開源
商湯日日新SenseNova-MARS模型、代碼、數據集全數開源,支持 Hugging Face 直接下載。
Github 倉庫:https://github.com/OpenSenseNova/SenseNova-MARS
模型倉庫:
· 32B:https://huggingface.co/sensenova/SenseNova-MARS-32B
· 8B:https://huggingface.co/sensenova/SenseNova-MARS-8B
技術報告(點擊「View PDF」):https://arxiv.org/abs/2512.24330






返回