首页财经资讯 娱乐八卦 体育资讯

谷歌不息开源新AI框架,可实现手机高效实时3D如今的检测

2020-03-13

为晓畅决这个题目,谷歌Objectron团队开发了一套工具,能够用来在2D视频里为对象标注3D边界框,而有了3D边界框,就能够很容易地计算出物体的姿态和大幼。注解器能够在3D视图中绘制3D边界框,并议决查望2D视频帧中的投影来验证其位置。对于静态对象,他们只需在单个帧中注解如今的对象即可。

右:在3D世界中检测外观和点云标注3D边界框。左:带注解3D边界框的投影叠添于视频帧,从而便以验证注解。

实在度的升迁是一方面,谷歌外示,如今版本的Objectron模型还有余“容易”,能够在移动设备上实时运走。借助LG V60 ThinQ,三星Galaxy S20 和Sony Xperia 1 II等手机中的Adreno 650移动图形芯片,它能够每秒处理约26帧图像,基本做到了实时检测。

议决上述两个手段,谷歌结吻合了现实世界数据和添强现实吻合成数据,将检测实在度度挑高了10%。

如何从2D图像中做3D如今的检测,对于计算机视觉钻研来说,不息是个挑衅。

添强现实吻合成数据生成的一个示例:虚拟白褐色谷物盒渲染到实在场景中,紧邻实在蓝皮书。

在计算机视觉周围里,跟踪3D如今的是一个棘手的题目,尤其是在有限的计算资源上,例如,智能手机上。原由匮乏数据,以及必要解决物体众样的表面和形状时,而又仅有可2D图像可用时,情况就会变得更添难得。

接下往,谷歌团队外示:" 吾们企盼议决与更众的钻研员和开发者共享吾们的解决方案,这将激发新的行使案例和新的钻研做事。吾们计划在异日将模型扩展到更众类别,并进一步挑高设备性能。"(本文来自澎湃信息,更众原创资讯请下载“澎湃信息”APP)

为了增添现实世界的训练数据以挑高AI模型展望的实在性,该团队还开发了一栽名为AR Synthetic Data Generation(添强现实吻合成数据生成)的希奇手段。它能够将虚拟对象安放到具有AR会话数据的场景中,批准你行使照相机,检测平面和推想照明,来生成如今的对象的能够的位置,以及生产具有与场景匹配的照明。这栽手段可生成高质量的吻合成数据,其包含的渲染对象能够尊重场景的几何形状并无缝地适配现实背景。

睁开来注释,MediaPipe是一个开源代码跨平台框架,主要用于构建处理迥异形态的感知数据,而 Objectron在MediaPipe中实现,并能够在移动设备中实时计算面向对象的3D边界框。

3月12日,谷歌AI在其官方博客上发布了一款名为MediaPipe Objectron的算法框架,行使这个算法框架,只要一部手机,就能实时从2D视频里识别3D物品的位置、大幼和倾向。这一技术能够协助机器人,自动驾驶汽车,图像检索和添强现实等周围实现一系列的行使。

网络的样本效果:左边是带有推想边界框的原起2D图像;中心是高斯分布的对象检测;右边是展望的分割蒙版。