东南教育网您的位置:首页 >机器人 >

一个加强机器人模仿学习的框架

导读 近年来,世界各地的研究团队一直在使用强化学习(RL)来教机器人如何完成各种任务。然而,训练这些算法可能非常具有挑战性,因为它也需要大量

近年来,世界各地的研究团队一直在使用强化学习(RL)来教机器人如何完成各种任务。然而,训练这些算法可能非常具有挑战性,因为它也需要大量的人力来正确定义机器人要完成的任务。

教机器人如何完成特定任务的一种方法是通过人类演示。虽然这看起来很简单,但却很难实现,这主要是因为机器人和人类的身体非常不同,因此他们能够做出不同的动作。

加州大学伯克利分校(University of California Berkeley)的研究人员最近开发了一种新的框架,可以帮助克服通过模仿学习训练机器人时遇到的一些挑战(比如,通过模仿学习训练机器人)。,使用人类演示)。他们的框架被称为AVID,基于之前研究中开发的两个深度学习模型。

“当狂热的发展,很大程度上我们建立了两个近期作品,CycleGAN和太阳能,而引入的方法解决妨碍学习人类的基本限制在domain-shift和培训视频物理机器人从视觉输入,分别“劳拉·史密斯的研究人员进行的这项研究,对TechXplore说。

史密斯和她的同事使用了Cycle-GAN技术,这是一种可以在像素水平上转换图像的技术,而不是使用不考虑机器人和人体之间差异的技术。通过使用Cycle-GAN,他们的方法将人类如何完成给定任务的演示转化为机器人完成相同任务的视频。然后他们利用这些视频为RL算法开发了一个奖励函数。

“AVID的工作方式是让机器人观察人类完成某项任务,然后想象自己完成同样的任务会是什么样子,”史密斯解释道。“为了学习如何真正实现这种想象中的成功,我们让机器人通过反复试验来学习。”

利用史密斯和她的同事开发的框架,机器人一次只能学习一个阶段的任务,在不需要人类用户干预的情况下,重置每个阶段并再次尝试。因此,学习过程在很大程度上是自动化的,机器人学习新技能时只需要很少的人工干预。

“我们的方法的一个关键优势是,人类教师可以在机器人学生学习时与之互动,”史密斯解释道。“此外,我们设计的培训框架能够让我们用最少的努力来学习长期的行为。”

研究人员在一系列试验中评估了他们的方法,发现它可以有效地教会机器人如何完成复杂的任务,比如操作咖啡机,只需处理20分钟的原始人类演示视频,并练习新技能180分钟。此外,AVID比其他所有技术都要好,包括模仿消融、像素空间消融和行为克隆方法。

“我们发现,我们可以利用CycleGAN来有效地制作机器人可以理解的人类演示视频,而不需要繁琐的数据收集过程,”史密斯说。“我们还表明,利用临时扩展任务的多阶段性质,可以让我们在轻松训练的同时,学习强健的行为。”我们认为,我们的工作是有意义的一步,使自主机器人在现实世界的部署触手可及,因为它为我们提供了一个非常自然、直观的方式来教他们。”

史密斯和她的同事们引入了新的学习框架,使一种不同类型的模仿学习成为可能。在模仿学习中,机器人一次学习完成一个更高层次的目标,专注于每一步中最具挑战性的部分。此外,它不需要人类用户在每次练习后重置场景,而是允许机器人自动重置场景并继续练习。将来,AVID可以增强模仿学习过程,让开发人员更快更有效地训练机器人。

“到目前为止,我们工作的主要限制之一是,我们需要为机器人可能遇到的每一个新场景收集数据并对赛昂人进行培训。我们希望能够将CycleGAN训练作为一次性的前期成本,这样一旦对大量数据进行训练,机器人就可以通过一些演示和一点实践,很快掌握非常广泛的技能。”

免责声明:本文由用户上传,如有侵权请联系删除!