新闻中心

空间智能再突破！联合创新研究，迈向机器深度认知新阶段

2025-11-20

空间智能是推动AI实现从“看懂世界”到“影响世界”的关键进阶能力。

近日，商汤团队联合大晓机器人团队、南洋理工大学等权威学术机构发布论文《与相机共思》，其中提出名为“Puffin”的AI模型，通过“将相机理解为语言”并引入“与相机共思”的理念，消除了视觉-语言-“相机”模态间的鸿沟，从而使AI能够更全面、更交互地进行空间推理。

作为垂直细分的AI模型，“Puffin” 可以与具身世界模型相结合，同时通过SenseNova-SI模型加强空间能力，从而使具身智能进行更全面、更交互地进行空间推理，并可以灵活扩展至多种跨视角任务等。这种统一的模型为稳健的空间智能奠定了基础，并促进了更具灵活性和创造性的3D应用发展。

例如“Puffin”能从单张图像精确推断相机参数，并通过“思考”模式生成可解释的空间推理，这让具身智能不仅知道“看到了什么物体”，还知道“机器当前以何种姿态观察世界”。同时，“Puffin”不仅能理解视角，还能根据任务目标生成具体的相机动作参数，使机器人能够主动寻找最佳视角，而不是被动依赖当前画面。

相关负责人王飞表示：“‘Puffin’提供了能够从任意视角和方向理解并创造场景，并能灵活拓展至复杂的跨视角理解与生成任务的能力。上述能力将应用于我们正打造的具身世界模型，进一步提升具身智能空间智能性能。”

具体来看，“Puffin”模型首次让“理解”和“生成联动”，通过统一框架让AI能“先算准相机角度（理解），再按这个角度生成新场景（生成）”，而且两个任务共享一套“空间逻辑”，不会出现算的角度和画的场景对不上的问题。

通过“Puffin”模型可以有效提升世界模型对物理世界的时空结构进行深度感知、推理与预测，从而提升具身智能和自动驾驶的全局协同、感知精度和场景训练效率‌。

“Puffin”打造的不只是一个工具型 AI，而是让AI像人一样用相机的视角思考，实现“与相机共思”能力。这种能力让AI从被动处理数据变成主动进行空间推理，提升具身智能空间智能能力；同时，可以使世界模型对物理世界的时空结构进行深度感知、推理与预测，从而提升具身智能和自动驾驶的全局协同、感知精度和场景训练效率‌。

该论文已在arxiv（康奈尔大学的开放获取学术论文预印本存储库）上线，点击这里即可查看论文。

当空间智能大模型“与相机共思”：从任意视角理解和创造世界的统一多模态架构

论文链接：https://arxiv.org/abs/2510.08673

项目主页：https://kangliao929.github.io/projects/puffin/

代码链接：https://github.com/KangLiao929/Puffin

百万级图片-文本-相机三元组数据集：https://huggingface.co/datasets/KangLiao/Puffin-4M

图片9.png

展示我们模型多样化能力的示意图。模型统一了以相机为中心的多模态理解与生成，支持空间想象，并实现灵活的跨视角应用如世界探索等

您尚未完善信息

完善信息后，即可下载资料

完善信息跳过，继续浏览

您尚未登录

您还未登录，登录方可继续

登录跳过，继续浏览

请选择您认为需要改进的地方：

导航不好用，不方便找到感兴趣的内容
产品介绍信息不够全面
产品介绍信息不容易懂
页面打开速度不快，页面浏览不流畅/有卡顿
页面不够美观
售后服务不好找，体验不好

跳过下一个

您是否能够达到本次网站的访问目的？

是
否
仍在进行中

下一个

您对商汤官网的满意度如何？

非常不满意非常满意

提交

已收到您对商汤官网的评价和建议！

感谢您的耐心反馈~

关闭

产品试用

填写此简单表格，我们将尽快联系您！

把您的需求发给我们了解所有产品

商务合作

400 900 5986

周一至周五 9:00-12:00，13:00-18:00

business@sensetime.com

合作伙伴招募

成为合作伙伴