申请试用
登录
新闻中心

空间智能再突破!联合创新研究,迈向机器深度认知新阶段

2025-11-20

空间智能是推动AI实现从“看懂世界”到“影响世界”的关键进阶能力。

近日, 商汤团队联合大晓机器人团队、南洋理工大学等权威学术机构发布论文《与相机共思》,其中提出名为“Puffin”的AI模型,通过“将相机理解为语言”并引入“与相机共思”的理念,消除了视觉-语言-“相机”模态间的鸿沟,从而使AI能够更全面、更交互地进行空间推理。

作为垂直细分的AI模型,“Puffin” 可以与具身世界模型相结合同时通过SenseNova-SI模型加强空间能力,从而使具身智能进行更全面、更交互地进行空间推理,并可以灵活扩展至多种跨视角任务等。这种统一的模型为稳健的空间智能奠定了基础,并促进了更具灵活性和创造性的3D应用发展。

例如“Puffin”能从单张图像精确推断相机参数,并通过“思考”模式生成可解释的空间推理,这让具身智能不仅知道“看到了什么物体”,还知道“机器当前以何种姿态观察世界”。同时,“Puffin”不仅能理解视角,还能根据任务目标生成具体的相机动作参数,使机器人能够主动寻找最佳视角,而不是被动依赖当前画面。

相关负责人王飞表示:“‘Puffin’提供了能够从任意视角和方向理解并创造场景,并能灵活拓展至复杂的跨视角理解与生成任务的能力。上述能力将应用于我们正打造的具身世界模型,进一步提升具身智能空间智能性能。”

具体来看,“Puffin”模型首次让“理解”和“生成联动”,通过统一框架让AI能“先算准相机角度(理解),再按这个角度生成新场景(生成)”,而且两个任务共享一套“空间逻辑”,不会出现算的角度和画的场景对不上的问题。

通过“Puffin”模型可以有效提升世界模型对物理世界的时空结构进行深度感知、推理与预测,从而提升具身智能和自动驾驶的全局协同、感知精度和场景训练效率‌。

“Puffin”打造的不只是一个工具型 AI,而是让AI像人一样用相机的视角思考,实现“与相机共思”能力。这种能力让AI从被动处理数据变成主动进行空间推理,提升具身智能空间智能能力;同时,可以使世界模型对物理世界的时空结构进行深度感知、推理与预测,从而提升具身智能和自动驾驶的全局协同、感知精度和场景训练效率‌。

该论文已在arxiv(康奈尔大学的开放获取学术论文预印本存储库)上线,点击这里即可查看论文。

当空间智能大模型“与相机共思”:从任意视角理解和创造世界的统一多模态架构

论文链接:https://arxiv.org/abs/2510.08673

项目主页:https://kangliao929.github.io/projects/puffin/

代码链接:https://github.com/KangLiao929/Puffin

百万级图片-文本-相机三元组数据集:https://huggingface.co/datasets/KangLiao/Puffin-4M


图片9.png

展示我们模型多样化能力的示意图。模型统一了以相机为中心的多模态理解与生成,支持空间想象,并实现灵活的跨视角应用如世界探索等
产品试用
填写此简单表格,我们将尽快联系您!
商务合作
400 900 5986
周一至周五 9:00-12:00,13:00-18:00
合作伙伴招募