东南教育网您的位置:首页 >机器人 >

深入探索深度感知和深度学习

导读 对于感知,具有三个RGB颜色通道的卷积神经网络(CNN)(例如VGG或ResNet)已成为标准。对于机器人和计算机视觉任务,通常借用其中一种架构(连同

对于感知,具有三个RGB颜色通道的卷积神经网络(CNN)(例如VGG或ResNet)已成为标准。对于机器人和计算机视觉任务,通常借用其中一种架构(连同预先训练的权重),然后执行传输学习或微调特定于任务的数据。但在某些任务中,了解图像中的颜色可能只会带来有限的好处。考虑训练机器人来掌握以前看不见的新物体。理解环境的几何形状而不是颜色和纹理可能更重要。操纵的物理过程 - 通过接触施加力来控制一个或多个物体 - 取决于物体几何形状,姿势和其他很大程度上颜色不变的因素。例如,当您用手操纵笔时,只要您对接触点的位置和方向有很好的理解,您通常可以无需查看实际的笔就可以无缝移动笔。因此,在继续之前,人们可能会问:使用彩色图像是否有意义?

还有另一种选择:深度图像。这些是单通道灰度图像,用于测量相机的深度值,并使我们对图像中对象的颜色不变。我们还可以使用深度来“过滤”超过一定距离的点,这可以消除背景噪音,我们稍后将通过机器人床制作进行演示。上面示出了成对深度和真实图像的示例。

在这篇文章中,我们考虑在加州大学伯克利分校AUTOLab的三个正在进行的项目环境中结合深度图像和深度学习的潜力:Dex-Net用于机器人抓取,分割堆中的物体和机器人床制作。

感知深度

深度图像编码场景中的表面相对于特定视点的距离(例如,以毫米为单位)。我们在本文顶部的图像中提供了一个示例。左上角是3D立方体结构的RGB图像,其具有位于距相机不同距离的点。右上角是深度图像的一种表示,其中较暗的点表示较近的表面,但是使用其他表示也是有效的,例如对较远的区域使用较暗的点,或者对于不同的原点使用深度。有关如何创建深度图像的其他背景信息,请查看Comet Labs研究团队发布的此博客文章。

深度感知的最新进展

最近,在深度感测方面已经取得了许多进步,这些进步与计算机视觉和深度学习的改进同时发生。

传统上,深度感测涉及匹配来自两个不同相机的对准RGB图像之间的点对,然后使用得到的视差图来获得环境中对象的深度。

我们今天通常使用的深度传感器是结构光传感器,其使用不可见波长将已知图案投影到场景中。Kinect的创新特别是从红外(IR)投影仪投影已知图案,并使用单个红外摄像机拍摄图像。由于光线以直线传播,因此放置在投影仪上的虚拟红外摄像机将始终捕获图案的相同图像。因此,来自真实IR相机的图像图案可以与预先保存的“模板”图像匹配以找到对应关系。这可以在嵌入式硬件上快速完成。

深度感应的另一种方法是LIDAR,这是一种较老的技术,通常用于测量陆地和地形,最近已应用于一些自动驾驶汽车。LIDAR虽然通常提供比Kinect更高质量的深度图,但由于需要扫描激光,因此速度更慢且更昂贵。

总而言之,Kinect是一种消费级RGB-D系统,可直接利用硬件捕获RGB图像和每像素深度值,并且比以前的解决方案更快,更便宜(不会牺牲太多精度)。如今,许多用于研究和工业目的的机器人,如Fetch Robot和丰田人体支援机器人,都配备了类似的内置深度感应摄像头。在机器人的深度感测的未来进展可能来自现有的相机,如改善英特尔的RealSense,或由公司,如引进新技术Photoneo。

使用深度图像的先前研究

机器人硬件中深度感知的可用性允许深度图像用于实时导航(Maier等人,2012),用于实时绘图和跟踪(Newcombe等人,2011),以及用于建模室内环境(Henry et al。,2012)。由于深度允许机器人了解它们与障碍物的距离,因此可以使它们在导航过程中找到并避开它们。

深度图像还被用于实时检测,识别和定位人体部位(Plagemann *,Ganapathi *,等人,2010),在真实游戏系统(例如,Xbox One)上具有高可靠性。深度可以消除或减轻模糊性的来源,例如照明和各种各样的人体外观和衣服。最近的其他工作使用模拟的深度图像来开发闭环策略以引导机器人手臂朝向物体(Viereck等,2017)。在他们的情况下,深度图像的优点是可以在模拟中快速生成大型数据集,并且使用光线跟踪相对准确地模拟深度图像。

这些结果表明,对于某些任务,深度图像可以编码足够量的有用信息,并且颜色不变性可能是有益的。我们在下面描述三种这样的情况

例1:机器人抓握

通用拾取 - 抓住各种以前看不见的物体 - 仍然是机器人技术的一大挑战。尽管许多研究人员(例如,Pinto和Gupta,2016)使用RGB图像,但他们的系统需要数月的训练时间,机器人可以实际执行抓取。使用3D对象网格的一个关键优势是可以通过渲染技术合成精确的深度图像,这些技术使用几何和相机投影(Johns等,2016,Viereck等,2017)。

我们的敏捷网络(Dex-Net)是AUTOLab中正在进行的研究项目,其中包括使用大型合成数据集,分析稳健性模型,随机抽样和深度学习技术的训练机器人抓取策略的算法,代码和数据集。Dex-Net在抓取环境中引入了域随机化,专注于使用简单的抓取器抓取复杂对象,与OpenAI最近的工作形成鲜明对比,OpenAI显示了使用复杂抓取器抓取简单对象的域随机化的价值。在之前的BAIR博客文章中,我们提供了一个包含670万个样本的数据集,用于训练掌握质量模型。在这里,我们扩展讨论,重点是深度图像

模拟数据集用于训练Grasp质量卷积神经网络(GQ-CNN)以确定抓取尝试成功的可能性。可以在策略中使用此GQ-CNN。例如,策略可以对各种抓取进行采样并通过GQ-CNN提供每个抓取,选择具有最高抓取成功概率的那个,然后执行其相应的开环轨迹。有关我们结果的概述,请参阅我们之前的BAIR博客文章。

2017年,Dex-Net扩展到了bin-picking,它涉及迭代地从堆中抓取对象。我们将bin-picking建模为部分观察的Markov决策过程,并通过模拟生成对象堆。由于模拟,我们能够获得对象姿势的完整知识,并使用算法监督器来执行任务的演示。然后,我们对GQ-CNN进行了微调,并对主管的政策进行了模仿学习。使用在物理ABB YuMi机器人上获得的学习策略,我们能够使用来自深度相机的信息在三分钟内清除10个物体的堆。

深度问题

我们在这些项目中的结果表明,深度图包含足够的线索来确定抓取点,分割图像和检测可变形物体的角落。我们推测,随着深度相机质量的提高以及成本的降低,深度图像将成为机器人技术日益重要的形式。使用深度图像合成训练样例要容易得多,自然地会产生颜色不变性,并且可以轻松过滤背景噪声(正如我们在机器人床上制作中所展示的那样)。深度图像的尺寸低于RGB(一对三个8比特通道),并且CNN似乎学习两者中的边缘和空间图案的滤波器。

免责声明:本文由用户上传,如有侵权请联系删除!