お問い合わせ
ニュース

SenseTime、マルチモーダル自主推論モデル「SenseNova-MARS」をオープンソース化,マルチモーダル検索・推論の新たな到達点を突破

2026-02-11

SenseTimeは、マルチモーダル自主推論モデルSenseNova-MARS(8B/32Bの2バージョン) を正式にオープンソース化しました。本モデルは、マルチモーダル検索および推論に関する主要ベンチマークにおいて 69.74点 を記録し、Gemini-3-Pro(69.06点)、GPT-5.2(67.64点)を上回る性能を達成しました。

SenseNova-MARSは、動的なビジュアル推論と画像・テキスト検索の高度な融合を実現した、始めのAgentic VLM(Vision-Language Model)です。自律的にタスクを計画し、必要なツールを選択・呼び出すことで、複雑な課題を自動的に解決します。AIに真の「実行能力」をもたらすモデルです。

MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQAなどの各種ベンチマークにおいて、SenseNova-MARSはオープンソースモデル中のSOTAを達成しました。さらに、Gemini-3.0-ProやGPT-5.2といった最先端のクローズドモデルをも上回り、検索推論および視覚理解の両分野で総合的なリーダーシップを示しました。詳細は技術レポート(https://arxiv.org/abs/2512.24330)をご参照ください。開発者および各業界ユーザーの皆様のご検証・ご活用を歓迎いたします。


総合チャンピオンとして、複雑な問題を自律的に解決


SenseNova-MARSは、複数のマルチモーダル検索評価において顕著な優位性を示し、平均スコア69.74点を獲得。Gemini-3-Pro(69.06点)、GPT-5.2(67.64点)を上回りました。


开源日文1.png


MMSearch(画像・テキスト検索の中核評価):74.27点で首位(GPT-5.2:66.08点)HR-MMSearch(高解像度ディテール検索評価):54.43点でトップを獲得し、クローズドモデルとの差を大きく拡大


开源日文2.png


HR-MMSearchでは、2025年の最新4K超高解像度画像305枚を使用。AIが既存知識に依存することを防ぐ設計となっています。設問は画像内の5%未満の微細なディテール(小さなロゴ、微細な文字、極小物体など)を対象とし、画像クロッピングツールを用いなければ識別できません。スポーツ、エンターテインメント、科学技術、金融、ゲーム、学術、地理・旅行など8分野を網羅し、60%の問題で3種類以上のツール活用が必要とされます。

すなわち、広範な情報検索を要する知識集約型タスクから、極めて精緻な視覚分析を伴う課題まで、SenseNova-MARSは「総合チャンピオン」としての実力を発揮します。


マルチツール連携で、実社会の課題を解決


SenseNova-MARSは、「多段階推論+複数ツール協調」が求められる実務・日常シーンにも対応可能です。従来のAIは、テキスト検索のみ、あるいは画像認識のみといった限定的な能力に留まり、「拡大→識別→背景調査」といった複雑タスクへの対応が困難でした。


开源日文3.png


SenseNova-MARSは「レーシングスーツの微小ロゴを識別、企業設立年を検索、ドライバーの生年月日を照合、差分を計算」複雑課題を自律的に完遂します。これらを、画像クロッピング、画像検索、テキスト検索ツールを自律的に組み合わせ、人的介入なしで完結させます。


开源日文4.png

SenseNova-MARSは、製品発表会や業界カンファレンスの写真から企業のロゴを識別し、製品や企業に関する情報を迅速に収集できます。また、日時、数量、仕様などの詳細要素も把握可能で、業界の状況や構図を分析する際の補助として活用できます。


开源日文5.png

开源日文6.png


SenseNova-MARSは、競技・大会の写真から画面内のロゴや人物などの情報を識別し、試合や関係者の背景情報を追跡することで、重要なディテールを迅速に補完することができます。


开源日文7.png

开源日文8.png


SenseNova-MARSは、非常に長いステップを要するマルチモーダル推論や、3種類以上のツール呼び出しを伴うタスクでも容易に処理できます。自動で画像をクロッピングして細部を分析し、関連する研究データを検索、仮説を迅速に検証して重要な判断を導き出すことが可能です。

この「自律的思考+複数ツール協調」の能力により、SenseNova-MARSは「細部の識別+情報検索+論理推論」を組み合わせた複雑なタスクを自動で解決し、業務効率の大幅な向上を支援します。

(1)画像クロッピング:画像内の微細な部分に正確にフォーカス可能です。画像の5%未満の小さなディテールでも、レーシングスーツの小さなロゴや観客席の横断幕などをクロッピングして拡大し、鮮明に分析できます。

(2)画像検索:物体、人物、または場面を認識した瞬間に関連情報を自動で照合できます。たとえば、レーサーの身元や、あまり知られていない機器の型番などを特定可能です。

(3)テキスト検索:正確な情報を高速に取得できます。会社の設立年、人物の生年月日、最新の業界データなども、秒単位で検索可能です。


実戦型トレーニングにより「直感」と「経験」を獲得


SenseNova-MARSは、二段階学習アプローチを採用しています。

第1段階:基礎構築。クロスモーダル多段検索推論の学習データが不足している課題に対し、SenseNova-MARSでは革新的にマルチモーダルエージェント型自動データ生成エンジンを導入しました。この仕組みでは、細かい粒度ビジュアルアンカー+多段階深度関連検索を組み合わせ、ウェブ上の異なるエンティティ間の論理関係を動的に抽出・連結。これにより、高度に複雑な多段推論チェーンを自動生成します。さらに、閉ループ整合性チェックを組み込むことで、幻覚データを排除し、論理的に整合性のある、高密度知識を含む多段検索QAデータを構築しています。学習教材には、精選された「高難度ケース」を使用。各ケースには「使用するツール」「推論手順」が明示されており、AIはまず基本的な「問題解決ロジック」を習得できます。これらのケースは大量データから厳選された“本物の難題”であり、AIが学習の初期段階から現実の複雑なシナリオに触れることを保証しています。

第2段階:強化学習による実戦訓練。SenseNova-MARSでは、次の段階として強化学習 を導入しています。これは、探偵が事件を一つ一つ解決しながら経験を積むのと同じイメージです。AIは、正しい判断(例:適切なツール選択、合理的な手順)を行うたびに報酬を得て、誤った場合は戦略を修正します。さらに、学習の偏りを防ぐために安定化機構―「BN-GSPOアルゴリズム」を組み込み、簡単な課題でも複雑な課題でも安定して学習が進むよう設計されています。この双段階正規化に基づく巧妙な仕組みにより、動的ツール呼び出しによる結果分布の多様性から生じる最適化の揺らぎを平滑化し、学習信号の分布を一貫させることが可能になりました。これにより、クロスモーダル多段階・多ツールエージェントの訓練における収束性の課題を解決しています。

このような訓練を経て、AIは単にツールを使えるだけでなく、「ツール使用の直感」 を身につけます。つまり、どの状況でどのツールを使うべきか、異なるツールの結果をどのように有機的に統合すべきかを自律的に判断できるようになります。

モデル・コード・データを全面公開

SenseNova-MARSは、モデル・コード・データセットを全面的にオープンソース化。Hugging Faceより直接ダウンロード可能です。

GitHub倉庫:https://github.com/OpenSenseNova/SenseNova-MARS

モデル倉庫:

32B:https://huggingface.co/sensenova/SenseNova-MARS-32B

8B:https://huggingface.co/sensenova/SenseNova-MARS-8B

技術レポート:https://arxiv.org/abs/2512.24330

お問い合わせ
ビジネス提携