教人工智能连接视觉和触觉等感官
在加拿大作家玛格丽特·阿特伍德(Margaret Atwood)的著作《盲人刺客》中,她说,“触摸在眼前,在言语之前。这是第一种语言,也是最后一种语言,它总是说真话。”
虽然我们的触觉给了我们一个感受物理世界的通道,但我们的眼睛帮助我们立即理解这些触觉信号的全貌。
被编程去看或感觉的机器人不能完全互换地使用这些信号。为了更好地弥合这一感官鸿沟,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员提出了一种可预测的人工智能(AI),可以通过触摸来学习看,也可以通过看来学习感受。
团队的系统可以从视觉输入中创建真实的触觉信号,并预测哪些对象和哪些部分直接从这些触觉输入中被触摸。他们使用了一个KUKA机器人手臂,上面有一个特殊的触觉传感器,名为GelSight,由麻省理工学院的另一个小组设计。
使用简单的网络相机,团队记录了工具、家居产品、面料等近200件物品,被触摸超过1.2万次。该小组将12000个视频剪辑分解成静态帧,汇编了“VisGel”,这是一个由300多万张视觉/触觉配对图像组成的数据集。
“通过看现场,我们的模型可以想象接触到平坦的表面或锋利的边缘的感觉,”CSAIL博士的云珠李说。学生和主要作者对一篇关于该系统的新论文。“通过盲目地触摸周围,我们的模型可以纯粹从触觉来预测与环境的互动。将这两种感觉结合起来可以增强机器人的能力,并减少我们可能需要的数据,以完成涉及操作和抓取对象的任务。
最近的工作是为机器人配备更多类似人的物理感官,例如麻省理工学院2016年的项目使用深度学习来视觉指示声音,或者预测物体对物理力的反应的模型,这两种方法都使用了大型数据集,无法用于理解视觉和触觉之间的交互。
团队的技术通过使用VisGel数据集,以及一些被称为生成对抗性网络(GANS)的东西来实现这一点。
甘使用视觉或触觉图像来生成另一种模式的图像。它们通过使用相互竞争的“生成器”和“鉴别器”来工作,而生成器的目的是创建真实的图像来愚弄鉴别器。每次鉴别器“捕捉”到发生器时,它都必须暴露决策的内部推理,这使得发生器能够反复改进自己。
可触摸的视觉
人类只需看到物体就能推断出它的感受。为了更好地给机器这种力量,系统首先必须定位触摸的位置,然后推导出区域的形状和感觉的信息。
参考图像-没有任何机器人-对象交互-帮助系统编码关于对象和环境的细节。然后,当机器人手臂操作时,模型可以简单地将当前帧与其参考图像进行比较,并轻松地识别触摸的位置和比例。
这看起来就像给系统提供一个计算机鼠标的图像,然后“看到”模型预测对象应该被触摸以拾取的区域-这可以极大地帮助机器计划更安全和更有效的操作。
触摸到视觉
对于触觉到视觉,其目的是使模型产生基于触觉数据的视觉图像。该模型分析了一个触觉图像,然后计算出接触位置的形状和材料。然后,它回过头来看参考图像,以“幻觉”的互动。
例如,如果在测试过程中,模型被输入到鞋上的触觉数据,它可以产生一个最有可能被触摸的鞋子的图像。
这种类型的能力可能有助于在没有视觉数据的情况下完成任务,比如当光线关闭时,或者如果一个人盲目地进入一个盒子或未知的区域。
展望未来
当前数据集只有受控环境中的交互示例。该团队希望通过在更多非结构化区域收集数据,或使用新的MIT设计的触觉手套来改进这一点,以更好地增加数据集的大小和多样性..
仍然有一些细节是很难从切换模式中推断出来的,比如通过触摸来告诉一个物体的颜色,或者告诉一个沙发是多么柔软,而不需要实际按下它。研究人员说,这可以通过建立更稳健的不确定性模型来改善,以扩大可能的结果的分布。
在未来,这种类型的模型可以帮助视觉和机器人之间更和谐的关系,特别是在辅助或制造环境中的目标识别、抓取、更好的场景理解和无缝人机器人集成方面。
加州大学伯克利分校博士后安德鲁·欧文斯(Andrew Owens)说:“这是第一种能够令人信服地在视觉和触觉信号之间进行转换的方法。他说:“这种方法对于机器人技术非常有用,你需要回答‘这是硬的还是软的’这样的问题。“或者”如果我把这只杯子提到它的把手上,我的握力会有多好?“这是一个非常具有挑战性的问题,因为信号是如此不同,而且这种模型已经证明了很大的能力。