新模型旨在使机器人对自己的物理环境有类似人的感觉
我们难道不希望在房子周围有什么帮助吗,特别是如果该帮助来自智能,适应性强,无所适从的机器人的形式?当然,在电器世界中有一个窍门的Roombas。但是,麻省理工学院的工程师正在设想机器人更像是家庭佣工,能够遵循高级的Alexa类型的命令,例如“去厨房给我拿杯咖啡”。
为了执行这样的高级任务,研究人员认为,机器人将必须能够像人类一样感知其物理环境。
麻省理工学院航空和航天学助理教授卢卡·卡洛恩(Luca Carlone)说:“为了做出世界上的任何决定,您需要对周围环境有一个心理模型。” “这对人类来说是如此轻松。
但是对于机器人来说,这是一个痛苦的难题,那就是将通过摄像机看到的像素值转换为对世界的理解。”现在,卡洛恩和他的学生已经开发出了一种模仿机器人的空间感知的方法人类感知并导航世界。
他们称其为3-D动态场景图的新模型使机器人能够快速生成其周围环境的3-D地图,其中还包括对象及其语义标签(例如,椅子和桌子),以及机器人可能在其环境中看到的人,房间,墙壁和其他结构。
该模型还允许机器人从3-D地图中提取相关信息,以查询对象和房间的位置,或人员在其路径上的移动。
卡洛恩说:“这种压缩的环境表示非常有用,因为它使我们的机器人能够快速做出决定并规划路径。” “这与我们作为人类所做的事情相差不远。如果您需要规划从家到麻省理工学院的道路,则不必规划需要采取的每个位置。您只需要考虑街道和地标的水平,这有助于您更快地规划路线。”
卡洛恩说,除了家庭佣工以外,采用这种新型心理模式的机器人也可能适合其他高级工作,例如与工厂车间的人们并肩工作或为生还者寻找灾区。
他和他的学生(包括第一作者和MIT研究生安东尼·罗西诺尔)将在本周的机器人技术:科学与系统虚拟会议上介绍他们的发现。
映射组合
目前,机器人的视觉和导航技术主要沿着两条途径发展:3-D映射,使机器人可以在实时探索的三个维度上重建环境;语义分割,可以帮助机器人将其环境中的特征分类为语义对象,例如汽车与自行车等,到目前为止,这些对象大多是在二维图像上完成的。
Carlone和Rosinol的新空间感知模型是第一个实时生成环境3D地图的模型,同时还在该3D地图中标记物体,人(与物体相反的动态物体)和结构。
团队新模型的关键部分是Kimera,这是一个由团队先前开发的开源库,用于同时构建环境的3-D几何模型,同时对物体是椅子还是桌子的可能性进行编码。
卡洛恩说:“就像是由不同动物混合而成的神话生物一样,我们希望基梅拉成为3-D映射和语义理解的结合。”
Kimera的工作原理是实时获取机器人摄像机的图像流以及车载传感器的惯性测量值,以估计机器人或摄像机的轨迹并将场景重建为3D网格。
为了生成语义3-D网格,Kimera使用了经过训练的现成的神经网络,该网络在数百万张真实世界的图像上经过训练,可以预测每个像素的标签,然后使用称为“射线投射”的技术将这些标签投影到3-D中,通常在计算机图形学中用于实时渲染。
结果是一张机器人环境的地图,该地图类似于一个密集的三维网格,其中每个面都按颜色编码,作为环境中对象,结构和人员的一部分。
分层的场景
如果机器人仅依靠该网格在其环境中导航,那将是一项计算量大且耗时的任务。因此,研究人员以Kimera为基础,开发了从Kimera最初的高密度3D语义网格构造3D动态“场景图”的算法。
场景图是操纵和渲染复杂场景的流行计算机图形模型,通常在视频游戏引擎中用于表示3D环境。
在使用3-D动态场景图的情况下,相关算法将Kimera详细的3-D语义网格抽象化或分解为不同的语义层,以便机器人可以通过特定的层或镜头“查看”场景。这些层次的层次结构从对象和人,到开放的空间和结构(如墙壁和天花板),再到房间,走廊和大厅,最后是整个建筑物。
卡洛恩说,这种分层表示避免了机器人不得不理解原始3-D网格中数十亿个点和面的感觉。
在物体和人的层面上,研究人员还能够开发算法,以实时跟踪环境中人类的运动和形状。
该团队在与MIT Lincoln Laboratory合作开发的逼真的模拟器中测试了他们的新模型,该模拟器模拟机器人在充满人流的动态办公环境中导航。
卡洛恩说:“从本质上讲,我们使机器人具有与人类相似的思维模型。” “这可能会影响许多应用,包括自动驾驶汽车,搜索和救援,协作制造以及家用机器人。
另一个领域是虚拟现实和增强现实(AR)。想象一下,戴着运行我们算法的AR护目镜:这些护目镜将能够帮助您解决诸如“我将红色杯子放在哪里?”的问题。和“最近的出口是什么?”
您可以将其视为Alexa,它了解您周围的环境并了解物体,人类及其关系。”
Rosinol说:“得益于深度学习的最新进展以及数十年来对同时定位和制图的研究,我们的方法才得以实现。” “通过这项工作,我们正在朝着称为空间AI的机器人感知新时代迈进,该时代尚处于起步阶段,但在机器人技术以及大规模虚拟和增强现实方面具有巨大潜力。”