申请试用
登录
研究案例
研究案例
首页 > 智能产业研究院 > 研究案例
智能视觉平台,视觉互联网时代的“水与电”
2020-12-24

本文根据《智能平台白皮书》内容整理,以商汤SenseParrots平台为例。


5G+AI+XR 引发“视觉古登堡”媒介革命

image.png

科技(计算设备、通信网络)是媒介革命的起因。活字印刷和邮政网络,创造了以书报、纸刊为媒介的图文传播时代,广电网络和视听技术的共振,将大众娱乐带入了千家万户,客厅电视成为媒介中心,而随着移动通信网络的升级换代,以及从服务器、云计算到超算中心的计算变革,媒介形态不断更迭,从PC到手机,再到AIoT XR(扩展现实)。


媒介变革印证了麦克卢汉理论——“媒介是人类感官延伸的一切工具和技术”。随着技术的发展,人类感官体验不断被“数字化”,从早期印刷时代以文本数据为主,到广电视听阶段语音和平面视频数据的多元共生,再到移动互联网时代随着视频技术和带宽不断拓展,视频数据逐渐成为主流,据中国互联网络信息中心发布的《中国互联网络发展状况统计报告》显示,截至20203月,中国网络视频(含短视频)用户规模达8.5亿,视频数据占全网数据已超过一半(2018年统计)。随着5G带宽进一步提升,媒介终端进一步向IoTXR拓展,以及光电传感器、3D摄像头设备的广泛普及,愈来愈多的终端将会具备“智能视力”,视频数据将会迎来下一轮爆发性增长,且呈现多模态、全景化发展。思科预测2022年底有79%的移动数据流量来自视频,而英特尔预测202890%的互联网流量是视频,人均视频需求将增长7倍。因此我们判断,未来二十年,人类社会将加速步入“视觉互联网”时代。正如古登堡印刷技术下的图文传播推动了西方契约型社会的形成,5G背景下,“视觉物联网”也将开启新商业“古登堡”革命。


智慧视觉平台:“视觉互联网”新商业基础设施

视觉数据大爆炸时,智能开放平台、AI超算中心、AI芯片成为视觉物联网“新商业基础设施”。依靠第一代集中式服务器机房,美国世界500强支撑起全球商业模式;依靠第二代分布式并行CPU的云计算中心,FAANGBATH等公司支撑起网络游戏、电子商务、在线搜索等移动互联网商业模式;依靠第三代分布式并行AI芯片的机器学习超算中心,Netflix、抖音/Tictok、快手、B站等正在探索视觉物联网商业模式。通过云边端部署的训练芯片、推理芯片,持续推动着“视频商业”的飞速进化与行业创新。


正如“双11”海量级订单数据处理催生了“云计算”平台,视觉商业浪潮来袭必将催生新一代智慧视觉计算平台,作为“视觉物联网”的新商业基础设施,将加速视觉商业的飞速进化。疫情期间,在线视频教育、在线视频会议、在线视频医疗、影音娱乐、直播带货、短视频社交等等视频消费行为形成常态,并引领生产端向“视觉商业”全面转型——基于平台化赋能,全球逾千万的APP快速上线视频交互功能,近百亿的AIoT设备主动嵌入智慧视觉系统,“无商不视”成为企业共识。


过去5年,商汤在全球智能手机、智慧城市、自动驾驶、在线视频娱乐、AR、智慧医疗、智慧教育、遥感等诸多行业AI实战中,沉淀出业界领先的端到端开放视觉计算平台,依托强大的算力底座,深度学习训练框架、视觉数据辅助标注、视觉算法工具链、分布式异构计算等能力模块,支持企业在视觉商业场景中必需的行业解决方案。


商汤自主研发的SenseParrots开放计算平台具有高性能、强兼容、低成本、大规模、快速部署五大特征,构建起从底层硬件到行业应用的领先、成熟、稳定的AI生态型产品体系,并在政务、交通、电信、金融、移动互联网、娱乐文化、广告传媒、智能手机、汽车、遥感、零售等多个行业生根发芽,为所有嵌入视觉互联网系统中的企业提供端到端的AI能力生态服务,形成丰富多彩的中国智慧视觉商业生态圈。


商汤赋予企业端到端的AI能力

image.png

商汤赋予企业端到端的AI能力(来源:商汤智能产业研究院)

L1级生态用户——普通功能使用者

面向普通功能使用者或各领域上层业务使用企业,他们的核心诉求是希望借助人工智能技术实现在业务领域的创新,商汤基于SenseParrots平台,针对这类企业所共同面临的行业共性问题,为其提供SDK与应用解决方案,主要覆盖智慧城市、交通、地产、传媒、教育、医疗、金融等多个领域。


L2级生态用户——数据资源拥有者

企业拥有一定的应用开发能力,但在解决实际问题时缺乏完整的AI技术能力支撑,或从战略层面和竞争窗口期考虑,企业也无需自建整套AI体系,这类企业需要商汤为其搭建底层算法训练平台,以及定制化开发算法模型,在此基础上盘活其拥有的数据资产,为企业的运营创造价值、降本增效。


L3级生态用户——AI应用开发者

这类用户通常为AI应用开发商、大型企业AI技术团队。在AI模型训练、AI算法研发方面具有较强的技术实力,基于AI开放平台(通用算法库、训练框架、推理框架、AI超算)建立自主创新应用,对所在行业场景进行深度定制化赋能。AI研发团队、模型训练能力是L3级用户的特征,而伴随模型训练门槛的持续降低,低代码、零代码技术工具让较少数的L3科研用户向海量L2行业用户普及,加速行业Know-HowAI技术的融合创新速度,提升具有平台属性的AI技术标准化程度。


L4级生态用户——AI算法研发者

这类用户一般为AI技术/深度应用公司或高校/科研机构,L4级用户具备较强AI算法研发能力,能够自己开发和调优AI模型,自己选择AI训练框架等AI研发工具平台。这类用户的需求和痛点,在于对系统整体性能的把握和优化,如何高效配置和调度特定AI计算的硬件资源,如何化利用网络、数据存储、服务器、GPU等基础设施资源的效率为自己的AI系统服务,从硬件资源侧提升自己模型选择、构建、训练、推理部署、应用的全周期效能,一站式自动化图形化管理AI计算所需资源。降低硬件成本、运维成本,提升AI研发迭代和优化效率,是这类用户的主要诉求。


除面向下游企业用户的AI赋能,平台还赋能上游合作伙伴共筑开放生态。例如面向国内外、底层芯片及服务厂商,SenseParrots提供高兼容性及能力展示、服务的平台,基于商汤自研PPL(计算核心库)提供的强大的异构兼容性,能够兼容当前主流芯片及服务器产品,同时,为更多创新型AI芯片厂商提供技术验证环境,能够在真实环境中验证厂商产品的技术能力及产品可行性,解决新产品芯片无用户使用问题。


SenseParrots平台典型案例剖析

案例:广电“短视频”解决方案(L1级)

项目背景

2019年底,某电视台基于5G+4K/8K+AI等新技术,推出了综合性视听新媒体旗舰平台“X视频”,以短视频形态为主,兼顾长视频和移动直播等功能。媒资短视频化是广电等传媒机构的核心诉求之一。一方面,广电积累了大量包含明星和大IP内容的优质视频素材,希望通过拆条等手段迅速形成丰富的短视频内容,批量化供给视频分发平台,快速、高频的内容曝光以吸引用户点击;另一方面,新的综艺、影视剧等长视频内容,也希望在制播过程中剪辑成短视频集锦,分批次的通过社媒等渠道进行话题传播和营销造势。

客户痛点


image.png

广电影视艺术素材量规模

面对海量媒资,目前的视频制作工具自动化程度不高,主要以人力剪辑为主,一是制作效率不高,影响制播周期;二是会造成极高的人力成本。按广电总局统计,仅素材粗筛每年就需要花费8.88亿元。


解决方案

针对媒资短视频化,商汤依托SenseParrots平台,为该电视台量身打造了一款基于深度学习算法的图像视频内容解析平台SenseMedia,可以广泛支持广电影视、新闻、互联网直播和视频等各种场景的图像视频结构化需求。


SenseMedia提供的搜索剪辑系统,支持搜索特定人物、表情、动作、景别、物体、事件、场景、图标Logo、文字/字幕等各类标签的视频片段,附加视频剪辑拼接能力,将长视频或原始视频素材进行自动分析、拆条,重组为短视频内容,进一步盘活广电庞大的媒资库,快速、批量化的生成短视频集合,供给各个平台和渠道。标签识别是SenseMedia视频内容解析能力的核心要素。


在传媒领域,由于节目内容的快速迭代,标签及需要识别的对象也日趋复杂、种类繁多,包括舞蹈、动作、logo、明星等,SenseMedia需要对新标签做出快速响应、老标签进行及时更新,以满足视频搜索和制作的高精准度需求。这背后需要依托强大的计算平台作为载体,通过对海量的视频原始数据的处理、标注、模型的训练、部署到应用的全流程支撑,满足标签识别等算法模型的快速产出、迭代,最终在应用端实现高精准度要求。


目前,SenseMedia依托Parrots平台的全流程支持,累积了上千类强实用性的通用标签,并纳入了很多有典型中国特色的标签门类,为商汤在视频图像分析领域持续拓宽技术护城河。


价值分析

在未来企业竞争中,“AI+”将是企业标配,而对于不具备AI研发能力的企业,尤其是中小企业,或者短期内从成本考量,暂时不需要自建AI团队的企业而言,通过直接使用平台提供的AI应用服务,可以快速拥有AI能力,在业务创新上获得一定势能。广电通过SenseMedia,盘活媒资库存,快速、高频制播短视频,通过视频分发平台吸引用户流量,最终实现商业价值的变现。


案例:中东某国资背景企业移动车载智能执法解决方案(L2级)

项目背景

中东某国资背景企业的业务之一即是协助沙特内政部履行交通违章执法。沙特传统违章执法主要依据固定摄像头抓拍,但由于固定执法缺乏机动性,在没有摄像头覆盖的地区,违规现象十分普遍,即便增加机动性相对较高的手持摄像头,也只能做到数天更换位置,司机很容易互通有无,主动规避执法。为解决执法覆盖率和机动性双重问题,提升执法效率和国民交通安全意识,该客户与商汤合作定制开发车载移动摄像头的违章执法方案,适配各种天气对违章数据收集处理,能够对11种违章行为进行精准智能检测识别。

用户痛点和需求

一方面,客户虽然拥有固定摄像头识别算法团队,但对车载移动摄像头识别上缺少AI算法研发能力;另一方面,需要AI计算平台主要辅助支撑上层业务高效快速完成识别任务,客户有一定数据资源但缺少盘活方式,同时需考虑到数据安全。


解决方案

商汤帮助客户搭建超算中心,并部署Parrots计算平台,通过选配车载摄像头方案采集本地数据,在本地集群完成定制化的模型训练和部署。具体来说,在车顶限高处安装摄像头,在模型训练之前对采集的图像数据进行预处理和标注,训练好的模型通过SDK部署到推理平台。


在实际执法中,车载摄像头采集的图像数据通过4G网络或离线下载传输至推理平台,并与第三方数据源(例如车辆保险信息、车检信息等)打通,对11项违规行为进行比对、识别和判断,将违章结果通过API形式输出执法界面。

image.png

价值分析

通过计算平台搭建,帮助客户盘活存量数据资源,同时,在其不具备AI算法研发能力的情况下,辅助其获取上层识别算法,完成定向场景识别。这套方案落地后,通过更为机动性的执法手段,提高执法效率的同时,“不动声色”之下提升全民交通安全意识。


案例:某知名车企自动驾驶解决方案(L3级)

项目背景

某知名车企将商汤科技的移动物体识别技术与该车企的“场景理解”、“风险预测”、“行动规划”等AI算法相结合,从而开发出更高层次的自动驾驶技术,使交通工具能在路况复杂的市区行驶,包括车舱驾驶员监控和高级智能辅助驾驶系统。


用户痛点和需求

客户本身为传统企业并向AI转型中,客户痛点在于从传统制造到AI赋能的转型,希望通过与商汤合作,实现需要从外部采购机器视觉AI产品到有一定自主研发能力的升级, 并希望通过项目赋能应用或提升AI能力。

解决方案

商汤提供包括硬件+AI计算平台+推理软件+赋能体系,具体包括:

-  AI端到端解决方案:基础平台由商汤主导负责,在本地建设商汤与客户共用的AI计算平台,同时商汤移动团队负责推理软件。

-  赋能培训:用户使用&运维培训,AI端到端能力赋能包括代码透明,技术指导,团队能力建设等

价值

客户自身拥有一定的技术开发能力,通过计算平台的建设,会进一步提升AI 能力,实现高水平AI能力的快速获取,同时协助催生庞大的AI应用开发者生态。


案例:某自动驾驶公司超算平台解决方案(L4级)

项目背景

该自动驾驶公司专注于无人驾驶技术,拥有较强的AI算法及上层应用团队,但对于硬件方面能力不足,希望商汤能为客户建设一套融合存储系统,为人工智能深度学习平台提供存储资源,解决由于数据量迅速增长而产生的存储容量不够的问题,同时,凭借商汤内部超算中心建设的丰富经验,对设备的甄选经验,向客户供应GPU高性能服务器硬件设备,以达到满足客户需求的目的。


用户痛点和需求

客户的需求重点在于人工智能模型底层硬件和融合存储系统,解决由于数据量迅速增长而产生的存储容量紧张、租用和优化管理成本高的问题,从而实现海量数据存放、管理和高效处理的目标。希望能有AI全栈技术经验的供应商能协助建设一套融合存储系统,为人工智能深度学习平台提供存储资源,为无人驾驶模型研发和应用赋能。

解决方案

商汤提供包括硬件+融合存储系统(配套培训方案)。

-  商汤作为设备提供方,提供一批GPU计算服务器硬件设备;

-  商汤作为系统提供方,凭借内部超算中心建设的丰富经验,以及对支持神经网络学习模型的设备的甄选经验提供一套为AI模型研发调优的融合存储系统,负责完成整套系统的部署、调测和试运行。

价值

为拥有较强的AI算法研发能力的企业提供底层算力和资源管理、优化支持,解决资源配置管理能力不足问题。从而对无人驾驶的模型的训练数据管理、研发迭代效率提升形成有利支持,同时也大大提升了研发人员的使用体验,降低了用于系统管理,资源申请配置的时间成本。


在“双循环”政策背景下,加速产业智能化升级、智慧城市建设等将是促进国内大循环的主要抓手,此外,现阶段中国老龄化浪潮不可阻挡,年轻劳动力短缺导致用工成本不断攀升,人口红利逐渐消失,将加速倒逼众多企业和传统行业的智能化转型进程,因此,如何帮助企业实现“全生命周期”的智能化转型,也是商汤SenseParrots智慧视觉平台的核心工作和时代使命。


一切过往,皆为序章。从“无视频,不营销”到“无视觉,不智能”,拉开了视觉产业互联网变革的大幕,城市、机场、工厂、学校、医院、铁路、汽车、社区、楼宇等场景中,智慧视觉学习能力驱动的产业互联网模式纷至沓来,视觉感知网络、视觉互动人机界面、视觉认知产业智能的三重革新已经不均匀地分布在我们每一个人身边,未来十年是各行各业+视觉智能的基础设施安装期。