百度视觉语义化平台2.0:交互升级和软硬件结合两大方面实现突破

2019-07-10 16:42:51

7月3日,百度 AI开发者大会上,百度大脑5.0重磅发布,在算法层面实现“质的飞跃”,取得多项技术突破,视觉技术就是其中之一。百度大脑论坛上,百度视觉技术部、增强现实技术部总监吴中勤正式发布百度视觉语义化平台2.0,在交互升级和软硬件结合两大方面实现突破,告别从看清世界到看懂世界的1.0时代,迎来“交互”时代。

image.png

5G时代对AI视觉技术有更高要求,比如,实时需求带来巨大计算量,需要更高的计算效率;更多形态和多模态交互才能让呈现和反馈更加自然;更多的物联网设备需要通过边缘计算的部署实现高效信息处理。百度视觉语义化平台2.0可以进一步满足这些需求。

视觉语义化平台推出了两项强大的交互技术,包括一体化人机交互技术、以及大场景物理世界交互技术。在一体化人机交互系统中,从人脸,肢体,手势和环境4个方面给用户带来丰富的互动体验,将视觉定位与增强现实技术突破性结合,实现大范围虚拟信息与物理世界的精准叠加,从而建立起AI时代全新的交互系统。

image.png

在一体化人机交互系统中,依托于高精度的人脸关键点和人脸检测的基础算法,可以实现精细五官和皮肤级的实时跟踪,达到3D贴纸与道具、3D动画表情、以及五官交互触发等丰富的互动能力。在肢体方面,支持多达59点的肢体骨骼点实时检测和跟踪,全机型覆盖。在环境感知和理解方面,可以实现物理世界1:1实景实时分割,包括人像分割、天空分割,可以实现非常丰富的环境互动和特效。该系统适用于实现AR特效的直播、小视频、特效小程序等场景,已应用于百度多款视频App。

除了娱乐互动方面,一体化人机交互系统可以广泛应用于智慧生活方面。比如在智能车机场景,该系统可以实现疲劳驾驶提醒,通过头部姿态、手势和表情等进行互动操控。目前,百度与奇瑞合作推出的“奇瑞星途”汽车,即搭载了一体化人机交互系统。

除了聚焦人与机器的互动技术,基于VPAS(视觉定位与增强服务)的大场景物理世界交互系统可以带来全新的交互体验。百度首次通过视觉定位与AR技术的突破性结合,将虚拟信息与真实地理位置准确重合,标志着国内AR技术发展与应用领域取得突破性进展——在从简单的空间物体放置体验,迈向基于物理空间精准感知的高沉浸混合现实体验。

在软硬结合的技术方面,吴中勤结合PaddleSlim、FaceID多模态人脸识别组件和AI相机三方面的技术和应用,展示了这方面全新升级。Paddleslim是飞桨平台中强大的模型压缩工具,支持的压缩方式种类和效果业界领先。以人脸技术为例,在精度几乎不衰减的情况下,通过PaddleSlim可将模型速度提升接近9倍,模型压缩的开发效率提升了5倍,让端上应用的体验非常流畅。

image.png

FaceID是百度与合作伙伴一起联合研发的百度大脑适配的摄像头产品,均支持RGB单目、3D结构光、近红外3种模态。它的特点是,全流程,多模态,并应用了领先的模型量化和压缩技术,搭载了业界领先的人脸识别算法,能实现软硬一体,即插即用的使用方式,可以帮助开发者极大地节约研发成本。目前这些产品已经在公共出行、教育、零售、金融、政务等多个行业落地,设备覆盖量超过1200万台。

同时,百度视觉技术团队还研发了软硬一体的AI相机系列产品,将领先的AI视觉技术与智能芯片技术联合优化。实现了端上AI视觉计算,推出多种形态的AI相机产品,可以实现人脸检测、跟踪、人体分析、车辆分析等功能,产品稳定性、功耗、综合效果行业领先。基于这些软硬一体的AI相机产品,百度还开发了整套智能视频监控方案,可以实现顾客会员识别、店内热力图、人流动线分析、客流量统计等功能。如今,已经在3C卖场、手机品牌店、通信营业厅、便利店等多个场景中落地应用。

此次视觉技术的重磅升级,是百度大脑技术能力的长期积累。此前,百度视觉技术已在国际多项赛事中屡屡夺冠,展现出百度大脑强悍的AI技术实力。在6月份刚刚结束的CVPR顶级视觉学术会议上,百度视觉技术摘取了包括物体检测、图像增强、智慧城市、视频理解等6项世界第一,ICME人脸关键点竞赛、DAWN深度学习benchmark速度成本等也取得世界第一的好成绩。

在即将到来的5G时代,越来越多物理设备将连接到高可靠、低延时的网络空间,这将彻底改变人们与环境及设备的交互方式。本次全新发布的视觉语义化平台2.0,正在推进视觉技术由“看清看懂”向“交互”进行升级。百度将通过百度大脑的生态体系,把这些能力开放给开发者和各位合作伙伴。希望通过助力开发者,实现开放共赢,共建更强大的AI生态,用科技让复杂的世界更简单。


首页
取消 评论