お問い合わせ
ニュース

全面オープンソース!センスタイムSenseNova U1を発表、モデルの理解と生成を統合する新時代へ

2026-04-28

本日、センスタイムは、SenseNova U1シリーズの独自理解生成統一モデルを正式に発表し、オープンソース化しました。本モデルは、センスタイムが今年3月に独自開発したNEO-unifyアーキテクチャに基づいており、単一のモデルアーキテクチャ上でマルチモーダルの理解、推論、そして生成を統合しています。


NEO-unifyアーキテクチャは、主流のモジュールの継ぎ接ぎ式設計を完全に排除し、視覚エンコーダー(VE)や変分オートエンコーダー(VAE)を撤廃しました。統一された表現空間を再構築し、それを計算のすべてのレイヤーに深く組み込むことで、モダリティの統合から独自な統一へのパラダイムシフトを実現しました。

SenseNova U1シリーズモデルは、言語情報と視覚情報を統一的に複合体として直接モデル化し、両者の効率的な協調を実現します。これにより、理解と生成の能力が同時に強化され、意味的な豊かさを保ちつつ、ピクセルレベルでの視覚的忠実度も維持されます。

論理的推論や空間知能などの分野においては、物理世界の複雑なレイアウトや精緻な関係性を深く理解することが可能です。さらに将来的には、ロボットに対してエンボディッド・ブレインを提供し、単一モデルのクローズドループ内で、複雑な環境の認識から論理的な推論、精度の高いタスクの実行までを完結させることができます。これは、技術と産業の発展を推進するための重要な基盤であり、中核的なエンジンとなります。

今回オープンソースとして公開されるのは、SenseNova U1の軽量版シリーズ「SenseNova U1 Lite」です。本シリーズには、以下の2つの異なる仕様のモデルが含まれます。

• SenseNova-U1-8B-MoT:稠密バックボーンネットワークをベース

• SenseNova-U1-A3B-MoT:混合エキスパート(MoE)バックボーンネットワークをベース

詳細は以下のリンクからご確認いただけます。

GitHub: https://github.com/OpenSenseNova/SenseNova-U1

Hugging Face: https://huggingface.co/collections/sensenova/sensenova-u1

また、近期中に詳細な技術レポートを公開する予定です。

圧倒的な効率、小さくても大きな力を:オープンソースのSOTA、商用モデルに匹敵

効率は、統一モデルアーキテクチャの中核となる技術的優位性です。


従来のマルチモーダルモデルは、視覚エンコーダーと言語バックボーンをアダプターを介して接続するだけのものでした。これは、まるで「異なる言語を話すメンバーで構成された作業チーム」のようなものです。画像を専門に見て、それを言語に翻訳するメンバーがいる。言語を理解して推論を行うメンバーがいる。その結果を再び設計指示に翻訳して、図面を描くメンバーがいる。タスクを完了するたびに、情報はこれらの異なるメンバー間を行き来しなければなりません。このプロセスは確かに機能するものの、どうしても待機時間、誤解、情報損失が発生します。これらの損失を補うために、モデルは良い結果を達成するためにより大規模にする必要があるのが一般的です。

SenseNova U1は、統一された表現空間に基づいて構築されており、まるで初期段階から複数のスキルを同時に習得した一人の人間のような存在です。画像を理解してからテキストに翻訳し、それを別のシステムに渡して処理させるのではなく、同一の「思考様式」の中で、画像やテキストといった異なる情報を直接処理します。画像と言語は、もはや二つの異なるシステム間のリレーではなく、同一の脳内で自然に融合します。これによりもたらされるメリットは以下の通りです。情報の流れがより迅速になり、理解がより直接的になり、生成がより効率的になります。このモデルは、中間的な変換の損失を補うために単純にパラメータを大きくすることに依存するのではなく、統一された内部表現によって、異なるモーダルの情報をよりコンパクトで高密度な方法で組織化します。

簡単に言えば、従来のアーキテクチャは「複数人による協業と、何度も繰り返される伝達」のようなものです。一方、SenseNova U1は「すべてをこなす単一の頭脳が、直接理解し、直接表現する」ようなものです。中間的な翻訳プロセスが削減されることで、情報損失が少なくなり、比較的によりコンパクトなモデル規模でありながら、より強力なマルチモーダル理解と生成能力を実現します。

実験結果は、私たちの考えを裏付けるものでした。画像理解、画像生成・編集、空間知能、視覚推論を含む複数のベンチマークテストにおいて、SenseNova U1 Liteは、いずれも同規模のオープンソースモデルの中でSOTAレベルに達し、統一されたマルチモーダル理解と生成において新たな基準を打ち立てました。さらに、わずか8B-MoTという比較的小さい規模でありながら、一部の大型商用クローズドモデルに匹敵、あるいは凌駕する性能を発揮し、あらゆる分野にわたる圧倒的な優位性を示しています。

1 百花齐放.png

以下の2つの比較図は、SenseNova U1 Liteの効率性における顕著な優位性をより直感的に示しています。一般的な画像生成テストにおいて、SenseNova U1 Liteは、画像生成品質においてQwen-Image 2.0 ProやSeedream 4.5などの大型クローズドモデルに肩を並べる商業レベルに達しているだけでなく、推論応答速度においても顕著な優位性を持っています。また、オープンソースモデルがこれまで苦手としてきた非常に挑戦的な複雑なインフォグラフィック生成タスクにおいても、SenseNova U1 Liteは商業レベルの性能を発揮し、複雑なインフォグラフィックのレイアウトやテキストに対して強い制御力を示しています。

散点图1.png

散点图2-图片4.png

以下の実例は、SenseNova U1 Liteの商業レベルの複雑なインフォグラフィック生成能力を示しています。

细胞图1图片4.png

卡其色-图片4.png

蛇-图片4.png

树-图片4.png


私たちは現在の技術的アプローチを引き続きスケールさせており、将来的にはさらに大規模なモデルをリリースする計画です。私たちは、効率的な独自アーキテクチャに基づくことで、はるかに低い計算コストで国際トップレベルのモデルに到達できると確信しています。

業界初:連続的なテキスト・画像生成出力

NEO-Unifyアーキテクチャの利点により、SenseNova U1は業界で初めて連続的なテキスト・画像生成出力を実現しました。さらに、単一モデルを一度呼び出すだけで、より高品質な作品を出力することができ、従来のパラダイムと比較して、効率性を大幅に向上させています。

SenseNova U1が持つ独自なテキスト・画像理解生成能力は、画像とテキストの基層部分の融合信号をそのままコンテクストに完全に保持することを可能にします。これは、従来のように複数のモデルを連携させてようやく実現していたアプローチとは異なり、画像間のスタイルに明らかな高い一貫性があり、統一された表現空間内で効率的かつ連続的な思考が可能です。

以下の2つの事例では、SenseNova U1が、一貫性と高忠実度を備えたテキスト・画像が交錯する思考を通じて出力を行っています。

タスク1:ミディアムステーキの作り方

SenseNova U1は、思考と計画を通じて段階的なプロセスを生成し、各ステップに対応する画像を出力することができます。各ステップの図は、非常に高い一貫性を示しています。

牛排-图片4.png

タスク2:アイアンマンのイラストを描く

スケッチのスキャンから出発し、段階的に連続した創作を進め、最終的に完成度の高い画像を生成することができます。創作の各ステップにおいて、前のステップの構造と詳細が正確に維持されています。ここでは、統一された表現による共有コンテクストが重要な役割を果たしています。

变形金刚-图片4.png


全社オープンソース、すぐに使える

オープンソースデプロイ

• GitHub:https://github.com/OpenSenseNova/SenseNova-U1

• Hugging Face:https://huggingface.co/collections/sensenova/sensenova-u1

• SenseNova U1 Skill もぜひご活用ください:https://github.com/OpenSenseNova/SenseNova-Skills ,豊富なサンプルライブラリを参照し、Prompt作成ガイドを入手し、複雑な情報を簡潔に(煩雑なテキスト → わかりやすい図)、あなたのAgentをインフォグラフィック生成のエキスパートに変えましょう

オンライン体験

• オフィス Raccoonに既に搭載されています。【一図で理解】をクリックして、今すぐ体験・ご利用いただけます:https://office.xiaohuanxiong.com/

私たちは、独自な統一マルチモーダルインテリジェンスがAGIへの必須経路であると確信しています。今後も、オープンソースエコシステムの構築を継続し、より大規模なパラメータを備えたU1シリーズのモデルをリリースしていきます。コミュニティの皆様、開発者の皆様からの貴重なご意見をお待ちしております。共に知的なインタラクションの未来を定義しましょう。






お問い合わせ
ビジネス提携