探索机器人技术中声音动作和视觉之间的相互作用
近年来,研究人员开发了越来越多的计算技术,以使机器人具有类似人的能力。但是,到目前为止开发的大多数技术都只专注于人为地再现视觉和触觉,而不理会听觉感知等其他感觉。
卡内基梅隆大学(CMU)的研究小组最近进行了一项研究,探讨了使用声音开发具有更先进传感功能的机器人的可能性。他们的论文发表在《机器人技术:科学与系统》上,介绍了迄今为止编译的最大的声音动作视觉数据集,该数据集是作为一个称为Tilt-Bot 的机器人平台收集的,并与各种各样的对象进行了交互。
“在机器人学习中,我们通常仅将视觉输入用于感知,但是人类拥有的感知方式不仅仅是视觉。”进行这项研究的研究人员之一雷尔·平托(Lerrel Pinto)对TechXplore说。“声音是学习和理解我们的物理环境的关键组成部分。因此,我们提出了一个问题:声音可以用机器人学买我们吗?为了回答这个问题,我们创建了Tilt-Bot,该机器人可以与物体互动并收集物体。互动的大规模视听数据集。”
本质上,Tilt-Bot是一种自动托盘,可以倾斜物体,直到它们碰到托盘的一面墙为止。Pinto和他的同事们在机械手托盘的墙壁上放置了接触式麦克风,以记录物体撞击墙壁时产生的声音,并使用高架摄像头直观地捕捉每个物体的运动。
研究人员收集了与60个不同对象进行的超过15,000次Tilt-Bot交互的视觉和音频数据。这使他们能够编译一个新的图像和音频数据集,这有助于训练机器人在动作,图像和声音之间建立关联。
Pinto和他的同事在论文中使用此数据集来探索机器人应用程序中声音与动作之间的关系,并收集了许多有趣的发现。首先,他们发现分析移动和撞击物体的声音记录可以使机器区分不同的物体,例如区分金属螺丝刀和金属扳手。
Pinto解释说:“我们研究的令人兴奋的初步结果是,仅凭声音,您就可以识别出接近80%的物体类型。” “我们还表明,机器可以学习基于音频的对象表示形式,从而在以后帮助解决机器人任务。例如,当识别空酒杯的声音时,机器人可以理解,对其进行操作将需要与操作不同的动作。它会在装满酒杯时发挥作用。”
有趣的是,Pinto和他的同事表明,录音有时可以比视觉表示提供更多有价值的信息来解决机器人任务,因为它们也可以用来有效预测物体的未来运动。在一系列使用机器人在训练过程中未遇到的对象的实验中,他们发现,当机器人与这些对象互动时收集的音频嵌入可以预测正向模型(即,将来如何最好地操纵一个对象)提高24%而不是被动的视觉嵌入。
由这组研究人员汇编的数据集最终可以帮助开发机器人,这些机器人可以根据音频记录和在周围收集的图像来选择其动作和对象操纵策略。Pinto和他的同事现在正在计划进一步的研究,以探索声音分析在创建具有更高级功能的机器人方面的潜力。
Pinto说:“这项工作只是将声音整体集成到机器人技术中的第一步。” “在未来的工作中,我们将研究声音和动作的更实际的应用。”