お問い合わせ
ニュース

72倍の推論高速化、7分間の長尺動画生成!大晓ロボットがリアルタイム生成世界モデル「Kairos 3.0-4B」をオープンソース化

2026-03-13

先日、大晓(Da Xiao)ロボットは、開悟世界モデル3.0(Kairos 3.0)-4Bシリーズの具身的ネイティブ世界モデルをオープンソース化しました。業界初の「マルチモーダル理解—生成—予測」を一体化したオープンソースの具身的ネイティブ世界モデルとして、本モデルは「物理的因果一貫性、クロスボディ泛化、超長時間インタラクション、クラウド側リアルタイム生成、軽量高効率、エッジ側ボディ制御」を中核的優位性とし、国内外の主流な具身的世界モデルの性能を全面的にリードしています。

 

Kairos 3.0-4B は、世界初のエッジ側で駆動可能なエンボディドAI本体制御を実現した世界モデルであり、業界初のTHOR エッジプラットフォーム上で 1:1.5(動画生成時間:動画長)のリアルタイム生成を達成した具身世界モデルでもあります。本モデルは Jetson Thor T5000 エッジプラットフォームに展開され、517 TFLOPS の演算能力を備えています。3D シミュレーション環境においてマニピュレータの動作形態を精度高く生成し、動作軌道の予測と計画を完了できるだけでなく、THOR エッジプラットフォームを基盤としてロボット本体の実際の駆動と作業実行を実現し、ロボットを「ショーをする」段階から「実際に作業を行う」段階へと真に押し上げることが可能です。

 

グローバルな権威あるエンボディドAI Benchmark 評価において、Kairos 3.0-4B は全指標で全面的にリードしています。A800 GPU Benchmark では、モデル能力と推論ツールに基づき、Kairos 3.0-4B の推論速度は Cosmos 2.5 と比較して 72 倍向上し、グローバルな具身世界モデルの性能記録を更新し、その確かな技術力を実証しています。

 

Kairos 3.0-4B は、汎用的な世界モデル能力とエンボディドAI分野への深い適応力を兼ね備えています。汎用シナリオにおいて、本モデルは現実の物理世界を高精度に再現することが可能であり、例えば黄果树の滝(Huangguoshu Waterfall)を例にとると、自然な光と影の効果を正確に表現し、スムーズなカメラワークとコマ落ちのない映像を実現します。雲、水、葉などの要素はいずれも動的に進化します。同時に、本モデルはエンボディドAIの要件に深く適応しており、二重の能力によりデジタルシミュレーションと物理実行の橋渡しを行います。中国が自ら開発した中核技術によって業界の主要な課題を解決し、エンボディドAIの大規模な実装を推進する中核エンジンを提供し、グローバルに競争力のある具身世界モデルのベンチマークとなっています。

 


▎ネイティブ世界モデルアーキテクチャにより、エンボディドAIの物理世界に対する基盤的認識を強固に築く

現在、エンボディドAI業界はデータの不足と断片化という深刻な課題に直面しています。従来の生成モデルは動画生成にのみ重点を置いており、物理世界に対する深い理解を欠いているため、長時間にわたるインタラクションの不足、高い導入コスト、状態予測における物理的一貫性の低さなどの業界の課題に直面しています。

 

業界初の「マルチモーダル理解—生成—予測」を一体化したオープンソースの具身的ネイティブ世界モデルとして、Kairos 3.0-4B は、市場にある「大モデルの改造版」といった生成モデルとは本質的に異なります。本モデルは、大規模言語モデルや視覚モデルに事後的に動作インターフェースを付加したものではなく、アーキテクチャの基盤からロボットが現実世界で動作するために設計されています。自然界の基本物理法則と因果律を認知的基盤とし、クロスボディの統一された世界理解フレームワークを構築することで、従来のエンボディドAIにおける「動作模倣」という技術的限界を完全に打ち破り、モデルの能力を「物理レベルの深い理解」という新たな次元へと引き上げています。


世界模型1.png


「世界を理解し、世界を生成し、世界を予測する」という三つの中核的能力を中心に、Kairos 3.0-4B は物理法則と因果的思考連鎖をモデルの意思決定プロセスに深く組み込み、モデルが「結果だけでなくその理由も理解する」ことを可能にしています。その中核的な突破口は、ロボットの実機インタラクション、人間の行動の構造化データ、思考連鎖テキストという三種類の重要データを深く融合させ、多様なデータ間の障壁を効果的に取り除き、現実世界データの再利用効率を大幅に向上させ、エンボディドAIにおけるスケーリング則の効率を著しく改善する点にあります。


世界模型2.png


ネイティブアーキテクチャの優位性により、本モデルはもはや高価で希少な実機データに依存することなく、物理法則を内在化し、因果推論を展開することで、より最適なモデルサイズとデータ規模の下で、強力な汎化能力、長時間推論、そして信頼性の高いエッジ側展開を実現しています。本モデルは、物体にかかる力、重心、摩擦などの物理的制約を正確に解析し、複雑なタスクの推論、計画、実現可能性分析を完了することができます。さらに、マルチモーダルセンサーからの指示にも対応し、ロボットの動作と人間の行動の論理を効率的に理解することで、「指示を実行する」段階から「タスクを理解する」段階への本質的な飛躍を達成しました。

複雑なインタラクションシナリオの実機テストにおいて、ロボットは水の入ったトレイをスムーズに持ち上げることができ、動作中に水面には自然でリアルな水の波の動きが現れます。トレイを机の上に置いた後、モデルはタスクの思考連鎖に基づいて自律的に計画を立て、リンゴと牛乳の適切な配置位置を正確に判断し、アイテムを整然とトレイの上に配置していきます。



▎物理的因果一貫性において、グローバルな主流モデルを全面的にリード

水を注ぐ動作や、石をバランスよく積み上げるなど、ある程度の難易度を伴う物理インタラクションシナリオにおいて、Kairos 3.0-4B はネイティブ世界モデルが持つ物理的因果一貫性の優位性を活かし、物理法則の内在化と因果的思考連鎖を通じて、主要な具身世界モデルに対して物理的因果一貫性で全面的にリードし、現実世界のルールに対する深い理解と正確な再現を実証しています。

 

水を注ぐシナリオにおいて、Kairos 3.0-4B が制御するロボットがコップからシンクへ水を注ぐ際、水流の速度は安定しており、液体の総量はコップの容量と完全に一致し、質量保存の法則と流体力学に完全に準拠しています。一方、Cosmos 2.5 と Lingbot はこのシナリオにおいて、水流の速度が過剰に速くなる問題が発生し、さらに液体の総量がコップの実際の容量を大幅に超える異常事態が見られ、現実の物理法則から大きく乖離しています。

 


石をバランスよく積み上げるシナリオにおいて、Kairos 3.0-4B は石の剛性と力学的平衡特性を精度高く再現し、積み上げられるすべての石が重力と支持構造の物理法則に厳密に従っています。一方、Cosmos 2.5 が生成した石には浮遊現象が見られ、Lingbot の石は剛性を喪失し、最も下層の石は跡形もなく消え去り、物理的一貫性が完全に崩壊しています。



▎7分間の長時コヒーレントなシーン動的インタラクション


エンボディドAIの分野において、長時系列の動画生成は常に技術実装を阻む中核的なボトルネックとなっています。

 

「マルチモーダル理解—生成—予測」の一体化アーキテクチャにより、大晓ロボットが発表したKairos 3.0-4Bは、エージェント技術と組み合わせることで、長時系列動画生成能力において革新的なブレークスルーを実現しました。Kairosエージェントは、ユーザーからの複雑なインタラクション指示を階層的に解析し構造化して分解します。モデルが持つ、時空間の進化、物理法則、シーンのダイナミクス、インタラクションの論理に対する緻密な予測能力を活用することで、連続した世界情報を補完し、自己反省機構によるクローズドループの反復最適化を実現します。その結果、長さ7分間に及ぶエンボディド的動的インタラクション動画を生成し、シーンの一貫性と物理的真实性を全程にわたって維持します。これにより、エンボディドAIの学習と実装に向けた新たな道が切り開かれました。

 

家庭シナリオのデモにおいて、ロボットはワンカット・一貫動作による完全自律動作を実現しました。まず机上のコップとティッシュケースを整理し、適切な配置場所を計画して物品を配置します。その後、自律的に洗濯機へ移動し、衣服を取り出し、洗濯機を開け、洗濯物を投入して洗浄操作を完了させます。続いてリビングを通ってキッチンへ移動し、冷蔵庫を開けて牛乳を取り出し、戸棚を開けてシリアルを取り出し、さらに引き出しを開けてボウルとスプーンを取り出し、シリアルと牛乳をボウルに注ぎ、自律的に朝食の準備を完了させます。このプロセス全体に途切れはなく、モデルのスムーズな動的インタラクション、物体属性の認識、物理法則に適合した力の制御、柔軟な衣服の物理特性表現能力がリアルに示されています。さらに、完全なタスク思考連鎖に基づいて多シナリオでの自律計画と一貫した実行を実現しており、複雑な家庭環境下におけるモデルの物理認知、長時系列推論、動的インタラクション能力が検証されています。今後の課題としては、超精密操作能力のさらなる向上を継続的に進めていくことが挙げられます。

 

この能力により、エンボディドAIは多様なシナリオにおける複雑な動的タスクに的確に対応することが可能となります。工業製造における長工程の組立てから、家庭サービスにおける持続的なインタラクションに至るまで、Kairos 3.0-4B は一貫性のあるリアルなシーンシミュレーションを生成し、モデルの汎化能力と実装信頼性を大幅に向上させ、エンボディドAIを実験室から産業現場へと押し上げます。

▎軽量化による高効率推論速度の実現

 

Kairos 3.0-4B モデルは、アーキテクチャの革新と技術的ブレークスルーにより、推論効率、算力消費、実装適合性の三つの主要次元において業界をリードするとともに、エンボディドAIにおけるエッジ側リアルタイム実装の中核的ボトルネックを完全に突破しました。



Kairos 3.0-4B は、業界に先駆けてクラウド側での 1:1 リアルタイム推論を実現し、推論速度は Cosmos 2.5 と比較して72 倍向上しました。同時に、THOR プラットフォームにおけるエッジ側初のエンボディド的世界モデルとして、エッジ側での高効率なリアルタイム推論を可能にしています。エッジ側実装により、モデルはロボットの上肢から手指、さらには下肢に至るまでの全方位制御指令を直接出力することができ、中間の変換プロセスを省き、ロボットが「考えたことを即座に実行できる」ようにしています。

 

A800 GPU パフォーマンス Benchmark において、Kairos 3.0-4B は自社開発のハイブリッド時間線形アテンション演算子により、算力効率と推論速度において桁違いのブレークスルーを達成し、主流のエンボディド的世界モデルの性能を完全に凌駕しています。

 

推論速度において、Kairos 3.0-4B は10秒の生成タスクを完了するのに要する時間がわずか9.5秒であり、Cosmos 2.5(687.2秒)よりも約72倍、Wan 2.2(85秒)よりも約9倍、Lingbot(1436秒)よりも約151倍速いです。

 

Kairos 3.0-4B は、4Bという軽量パラメータで23.5GBのビデオメモリ使用量を実現しています。これは5BのWan 2.2と同等であり、14BのCosmos(70.2GB)や28BのLingbot(46.1GB)をはるかに下回ります。極限までの性能を維持しながらも導入ハードルを大幅に低減し、エンボディドAIのエッジ側リアルタイム推論に完璧に適応することで、「大パラメータ=高性能」という業界の従来の常識を打ち破っています。


世界模型3.png

Kairos 3.0-4B は、極めて低い算力消費とビデオメモリ使用量により、シングルGPUおよびマルチGPU環境のいずれにおいても業界をリードするリアルタイム推論速度を実現しており、エヌビディア、沐曦(MetaX)、海光(Hygon)、壁仞(BIREN)などの多様なGPUに完璧に適応しています。その高効率性により、エンボディドAIシステムに求められる低遅延、高信頼性、エッジ側リアルタイム実装の要件を直接満たすことができ、高価な実機データに依存することなく、強力な汎化能力と信頼性の高い実装を実現します。

 

▎一脳多形、マルチボディの汎化で新たな高みへ

 

Kairos 3.0-4B モデルのもう一つの大きな中核的優位性は、強力なマルチボディ汎化能力です。従来のエンボディド的モデルが抱えていた「一本体一訓練」という業界の課題を完全に解決し、「同一の脳がマルチボディ・マルチタスクに適応する」という効率的な実装を実現しました。

Kairos 3.0-4B はクロスボディでのタスク一键生成をサポートし、シングルアーム、デュアルアーム、器用ハンドなど異なる形態のロボット本体にシームレスに適応可能です。同一タスクに対して追加の訓練を必要とせず、各本体に適応した実行戦略を迅速に生成し、世界知識の効率的な共有と転移を実現し、適応性は最大限に高められています。ハードウェア互換性においては、モデルは智元-精灵 G1、松灵-PIPER、宇树 G1 などの主流ロボットハードウェアを深度サポートしており、異なるメーカーや異なる形態のデバイス間における本体の壁を打破しています。

 

▎オーソリティのあるBenchmarkにおいて性能が全面的にリード

 

Kairos 3.0-4B モデルは、グローバルに権威あるエンボディドAIおよび世界モデルの評価ベンチマークにおいて圧倒的な総合性能を発揮し、エンボディド的シナリオにおいて全面的にトップを走り、その「物理レベルの深い理解+高効率アーキテクチャ」という中核的優位性を的確に実証しています。

 

エンボディド的シナリオにおいて、Kairos 3.0-4B は三つの権威あるBenchmarkでいずれも性能トップを達成しました。

 

PAI-Bench-robot(物理エンボディドAIの综合ベンチマーク):ジョージア工科大学とカーネギーメロン大学が共同開発した、物理AI分野で初のエンボディド的シナリオに特化した総合評価フレームワークです。2,808件の実世界ケースをカバーし、世界中のトップチームに広く採用されています。

 

Kairos 3.0-4B は80.03点でトップを走り、Cosmos 2.5-2B(78.3点)、アリババ Wan 2.2-5B(78.6点)、Cosmos 2.5-14B(79.4点)、およびアント Lingbot(79.96点)を完全に凌駕し、エンボディド的タスク実行と物理的インタラクション安定性における業界トップの地位を実証しました。

 

WorldModelBench-robot TI2V(テキストからエンボディド的視覚生成へのベンチマーク):CVPR 2025 Workshopで提案された、世界モデルのテキストからエンボディド的視覚生成能力を評価する初の専門ベンチマークです。67Kの人間アノテーションデータにより、物理的一貫性と指示追従能力を精密に検出します。

 

Kairos 3.0-4Bは9.08点で全ての競合製品を凌駕し、アリババ Wan 2.2-5B(8.52点)、Cosmos 2.5-14B(8.94点)、ならびにCosmos 2.5-2B、アント Lingbot(いずれも9.04点)を大きく引き離しました。これにより、長時系列の物理シナリオ理解と生成精度における優位性が実証されています。

 

DreamGen Bench (PA/IF)(ロボット動画生成ベンチマーク):NVIDIA GEAR Lab によって開発され、物理的整合性(PA)とインタラクション忠実度(IF)という二つの中核指標を通じて、モデルが生成するデータの物理的合理性とインタラクション品質を直接評価します。ロボット分野における権威ある評価ツールです。

 

Kairos 3.0-4B の PA スコアは 0.529 であり、アリババ Wan 2.2-5B(0.314)を大きく引き離し、約 70% の向上を達成しました。同時に、Cosmos 2.5-2B(0.418)、Cosmos 2.5-14B(0.495)、アント Lingbot(0.466)に対してもそれぞれ 27%、7%、14% の向上を示し、これらを大きく上回りました。IF スコアは 0.609 であり、こちらも全ての競合製品を総合的に凌駕しています。Cosmos 2.5-2B、アリババ Wan 2.2-5B、Cosmos 2.5-14B、アント Lingbot と比較して、それぞれ 7%、12%、27%、7% の向上を記録し、その物理的因果一貫性という中核的優位性を直接実証しています。


世界模型4.png

世界模型5.png

*(上記の精度テストはオープンソースモデルの再現に基づいており、robotは対応するエンボディド的サブセットの結果を示しています。)


中国自らが研究開発したネイティブなエンボディド的世界モデルとして、Kairos 3.0-4B は、業界が抱えるデータ、算力、物理推論、そして実装展開といった中核的なボトルネックに直撃します。本モデルは、高効率なデータシミュレーターとして機能し、低コストかつ規模拡大可能な形で学習データの量を増幅させ、実機インタラクションデータの希少性という業界の課題を効果的に解決します。さらに、純粋なシミュレーション応用の枠を超え、ロボット本体を直接駆動して多様な実体タスクを完了させることができ、仮想シミュレーションから物理実行までの全チェーンを真に繋ぎ、ロボットに賢い「頭脳」を提供します。これにより、エンボディド的AIの知的な飛躍を加速し、その規模化された実装に向けた中核的な技術基盤を提供するとともに、世界のエンボディド的AI業界の発展に対して、先進的な中国のソリューションを提供するものです。

 

当該技術成果はアップロード済みです。詳細は以下:

Code: 

https://github.com/kairos-agi/kairos-sensenova

Hugging Face: 

https://huggingface.co/kairos-agi/kairos-sensenova-common

お問い合わせ
ビジネス提携