商汤大装置“解题”人形机器人,一段式端到端开启具身智能的奇点时刻
大模型与具身智能的融合,正在将人形机器人推向AI发展的新浪潮。
一段式端到端AI系统
开启人形机器人通往AGI之路
过去十年间,AI技术已在多个垂直领域突破了工业红线,成功与各行业的实际应用场景融合,但其发展仍面临诸多挑战。
比如,各行各业中的长尾场景众多,但需求规模小,而大规模的研发投入又会导致投资回报率降低。此外,行业中的AI模型种类众多,但单一模型能够解决的问题仍十分有限。
机器人的发展也呈现近似趋势。大多数机器人产品仅局限于执行单一、特定的任务,缺乏足够的通用性和泛化能力,成为广泛普及与应用的一大障碍。
商汤在端到端自动驾驶大模型方面的创新研发实践,为具身智能、人形机器人的突破提出了可以借鉴的新路径。
传统的自动驾驶系统由多个感知小模型和规则定义的规控系统组成。在2022年底,商汤及其联合实验室提出了行业首个感知决策一体化自动驾驶通用模型UniAD,将感知、决策、规划等模块都整合到一个全栈Transformer端到端模型中。
UniAD作为“一段式”端到端的代表,相较于业内其他将感知和规控分为两个模型的“两段式”端到端方案,能够实现感知信息的无损传递,拥有更好的复杂场景理解、泛化能力和解决corner case的能力。
“一段式”端到端系统完全由数据驱动,其能力将随着训练数据量的增加而实现跃迁,让自动驾驶系统和人形机器人拥有更通用、更泛化的复杂场景理解能力,有望创造自动驾驶和具身智能发展的“ChatGPT时刻”,开启自动驾驶和人形机器人通往AGI之路。
而“一段式”端到端系统的训练,需要更高算力、全新数据生产管线、世界模型等作为平台支撑,带来了对人工智能基础设施需求的激增。
商汤大装置+日日新大模型体系
为具身智能打造新一代AI基础设施
商汤对人工智能基础设施的定义,源于AI发展的三要素:算力、算法和数据。
充足的算力资源储备,强大的基模型、AI平台软件和数据能力优势,以及面向场景生态的AI专家服务体系,是AI基础设施成功的关键要素。
在算力层面,商汤大装置运营总算力规模已突破20,000 PetaFLOPS,同时也在积极“云、边、端”协同的算力布局,以更高的算力利用率,为人形机器人的应用提供更高推理性价比。
根据IDC发布报告《中国智算服务市场(2023下半年)跟踪》,商汤科技在中国云计算基础设施厂商中脱颖而出,与火山引擎、阿里巴巴共同跻身2023年下半年中国GenAI IaaS服务厂商TOP 3,以显著的市场份额优势位居GenAI IaaS领域的第一梯队。
在算法层面,商汤的“日日新”大模型体系在尺度定律下快速迭代。最新的“日日新5.5”在语言能力、多模态能力已全面对标GPT-4 Turbo和GPT-4o,可赋能人形机器人的“眼力”和“脑力”。
作为国内首个具备流式原生多模态交互能力的大模型,“日日新5o”实现了语音、视频和语言模型的原生融合,响应延迟达到560ms,能够满足人形机器人实时的流式多模态AI交互能力需求。
同时,商汤端到端AGI大模型,让机器人能够像人一样理解复杂的现实世界,提升各种环境下的交互和决策能力。比如,在自动驾驶场景中,该模型可以让车辆平稳通过路障限宽路段,胜任传统规则系统无法应对的场景。
具身智能发展的关键,正是多模态大模型能力与人形机器人的有效结合。
在数据层面,通过虚实结合的方式进行数据生成,可以解决人形机器人开发广泛存在的数据匮乏乃至标准不统一等难题。
对此,商汤正与行业伙伴联合开发仿真模拟方案,通过商汤大模型和新型AI基础设施加速仿真场景生成,提升开发效率。
此外,商汤大装置紧密联动机器人产业上下游软件及硬件合作伙伴,如人形机器人国创中心、松应科技、北京银河通用机器人等,发挥商汤在算力及算法层的优势,共同探索具身智能行业应用与实践,助推人形机器人产业新一轮升级。