教人工智能连接视觉和触觉等感官

导读在加拿大作家玛格丽特·阿特伍德（Margaret Atwood）的著作《盲人刺客》中，她说，“触摸在眼前，在言语之前。这是第一种语言，也是最后一

在加拿大作家玛格丽特·阿特伍德（Margaret Atwood）的著作《盲人刺客》中，她说，“触摸在眼前，在言语之前。这是第一种语言，也是最后一种语言，它总是说真话。”

虽然我们的触觉给了我们一个感受物理世界的通道，但我们的眼睛帮助我们立即理解这些触觉信号的全貌。

被编程去看或感觉的机器人不能完全互换地使用这些信号。为了更好地弥合这一感官鸿沟，麻省理工学院计算机科学与人工智能实验室（CSAIL）的研究人员提出了一种可预测的人工智能（AI），可以通过触摸来学习看，也可以通过看来学习感受。

团队的系统可以从视觉输入中创建真实的触觉信号，并预测哪些对象和哪些部分直接从这些触觉输入中被触摸。他们使用了一个KUKA机器人手臂，上面有一个特殊的触觉传感器，名为GelSight，由麻省理工学院的另一个小组设计。

使用简单的网络相机，团队记录了工具、家居产品、面料等近200件物品，被触摸超过1.2万次。该小组将12000个视频剪辑分解成静态帧，汇编了“VisGel”，这是一个由300多万张视觉/触觉配对图像组成的数据集。

“通过看现场，我们的模型可以想象接触到平坦的表面或锋利的边缘的感觉，”CSAIL博士的云珠李说。学生和主要作者对一篇关于该系统的新论文。“通过盲目地触摸周围，我们的模型可以纯粹从触觉来预测与环境的互动。将这两种感觉结合起来可以增强机器人的能力，并减少我们可能需要的数据，以完成涉及操作和抓取对象的任务。

最近的工作是为机器人配备更多类似人的物理感官，例如麻省理工学院2016年的项目使用深度学习来视觉指示声音，或者预测物体对物理力的反应的模型，这两种方法都使用了大型数据集，无法用于理解视觉和触觉之间的交互。

团队的技术通过使用VisGel数据集，以及一些被称为生成对抗性网络（GANS）的东西来实现这一点。

甘使用视觉或触觉图像来生成另一种模式的图像。它们通过使用相互竞争的“生成器”和“鉴别器”来工作，而生成器的目的是创建真实的图像来愚弄鉴别器。每次鉴别器“捕捉”到发生器时，它都必须暴露决策的内部推理，这使得发生器能够反复改进自己。

可触摸的视觉

人类只需看到物体就能推断出它的感受。为了更好地给机器这种力量，系统首先必须定位触摸的位置，然后推导出区域的形状和感觉的信息。

参考图像-没有任何机器人-对象交互-帮助系统编码关于对象和环境的细节。然后，当机器人手臂操作时，模型可以简单地将当前帧与其参考图像进行比较，并轻松地识别触摸的位置和比例。

这看起来就像给系统提供一个计算机鼠标的图像，然后“看到”模型预测对象应该被触摸以拾取的区域-这可以极大地帮助机器计划更安全和更有效的操作。

触摸到视觉

对于触觉到视觉，其目的是使模型产生基于触觉数据的视觉图像。该模型分析了一个触觉图像，然后计算出接触位置的形状和材料。然后，它回过头来看参考图像，以“幻觉”的互动。

例如，如果在测试过程中，模型被输入到鞋上的触觉数据，它可以产生一个最有可能被触摸的鞋子的图像。

这种类型的能力可能有助于在没有视觉数据的情况下完成任务，比如当光线关闭时，或者如果一个人盲目地进入一个盒子或未知的区域。

展望未来

当前数据集只有受控环境中的交互示例。该团队希望通过在更多非结构化区域收集数据，或使用新的MIT设计的触觉手套来改进这一点，以更好地增加数据集的大小和多样性..

仍然有一些细节是很难从切换模式中推断出来的，比如通过触摸来告诉一个物体的颜色，或者告诉一个沙发是多么柔软，而不需要实际按下它。研究人员说，这可以通过建立更稳健的不确定性模型来改善，以扩大可能的结果的分布。

在未来，这种类型的模型可以帮助视觉和机器人之间更和谐的关系，特别是在辅助或制造环境中的目标识别、抓取、更好的场景理解和无缝人机器人集成方面。

加州大学伯克利分校博士后安德鲁·欧文斯（Andrew Owens）说：“这是第一种能够令人信服地在视觉和触觉信号之间进行转换的方法。他说：“这种方法对于机器人技术非常有用，你需要回答‘这是硬的还是软的’这样的问题。“或者”如果我把这只杯子提到它的把手上，我的握力会有多好？“这是一个非常具有挑战性的问题，因为信号是如此不同，而且这种模型已经证明了很大的能力。

免责声明：本文由用户上传，如有侵权请联系删除！

标签：

上一篇:教人工智能创造更有常识的视觉效果

下一篇:对机器人的图灵测试将判断类人机器人的逼真程度

教人工智能连接视觉和触觉等感官

猜你喜欢

最新文章