学习语言的机器就像孩子一样

导读孩子们通过观察他们的环境，倾听他们周围的人，以及他们所看到和听到的点之间的点来学习语言。除此之外，这有助于孩子建立他们语言的词序，

孩子们通过观察他们的环境，倾听他们周围的人，以及他们所看到和听到的点之间的点来学习语言。除此之外，这有助于孩子建立他们语言的词序，例如主语和动词在句子中的位置。

在计算中，学习语言是句法和语义解析器的任务。这些系统受到人类注释的句子的训练，这些句子描述了单词背后的结构和意义。解析器对于网络搜索，自然语言数据库查询以及Alexa和Siri等语音识别系统变得越来越重要。很快，它们也可能用于家庭机器人。

但是收集注释数据对于不太常见的语言来说可能是耗时且困难的。此外，人类并不总是同意注释，注释本身可能无法准确反映人们自然说话的方式。

在本周的自然语言处理经验方法会议上发表的一篇论文中，麻省理工学院的研究人员描述了一种解析器，它通过观察学习更接近地模仿儿童的语言习得过程，这可以极大地扩展解析器的能力。为了学习语言的结构，解析器观察标题视频，没有其他信息，并将单词与记录的对象和动作相关联。给定一个新句子，然后解析器可以使用它所学习的语言结构来准确预测句子的意义，而无需视频。

这种“弱监督”方法 - 意味着它需要有限的训练数据 - 模仿儿童如何观察周围的世界并学习语言，而无需任何人提供直接背景。据研究人员称，这种方法可以扩展数据类型，减少培训解析器所需的工作量。例如，一些直接注释的句子可以与许多更容易获得的字幕视频相结合，以提高性能。

将来，解析器可用于改善人与机器人之间的自然交互。例如，配备解析器的机器人可以不断地观察其环境，以加强其对口头命令的理解，包括当口语句子不完全语法或清楚时。“人们在部分句子，连续思想和混乱的语言中互相交谈。你想要一个适合他们特定说话方式的机器人......并且仍然能够找出他们的意思，”作者：安德烈巴布，计算机科学和人工智能实验室(CSAIL)的研究员，以及麻省理工学院麦戈文研究所的脑，脑和机器中心(CBMM)。

解析器还可以帮助研究人员更好地了解幼儿如何学习语言。“孩子可以从不同的方式获得冗余的补充信息，包括听父母和兄弟姐妹谈论世界，以及触觉信息和视觉信息，[帮助他或她]了解世界，”共同作者说。 Boris Katz，首席研究科学家兼CSAIL InfoLab集团负责人。“处理所有这些同步感官输入是一个了不起的难题。这项工作是了解这种学习如何在世界上发生的更大部分的一部分。”

该论文的共同作者是：第一作者，Candace Ross，电气工程和计算机科学系和CSAIL的研究生，以及CBMM的研究员; Yevgeni Berzak博士'17，脑和认知科学系计算心理语言学小组的博士后; 和CSAIL研究生Battushig Myanganbayar。

视觉学习者

对于他们的工作，研究人员将语义解析器与在视频中训练对象，人类和活动识别的计算机视觉组件相结合。语义解析器通常在用代码注释的句子上训练，该代码将每个单词的含义和单词之间的关系归于一致。有些人接受过静止图像或计算机模拟的培训。

罗斯说，新的解析器是第一个使用视频进行训练的解析器。在某种程度上，视频在减少歧义方面更有用。如果解析器不确定某个句子中的动作或对象，它可以引用视频来清除事物。“有时间成分 - 物体彼此相互作用，与人交互 - 以及静止图像或语言中看不到的高级属性，”罗斯说。

研究人员编制了一个大约400个视频的数据集，描述了人们进行了许多动作，包括拾取物体或将物体放下，然后走向物体。众包平台机械土耳其人的参与者随后为这些视频提供了1200个字幕。他们预留了840个用于训练和调整的视频标题示例，并使用360进行测试。使用基于视觉的解析的一个优点是“你不需要几乎同样多的数据 - 尽管你有[数据]，你可以扩展到庞大的数据集，”Barbu说。

在培训中，研究人员为解析器提供了确定句子是否准确描述给定视频的目标。他们为解析器提供了视频和匹配标题。解析器将标题的可能含义提取为逻辑数学表达式。例如，“女人正在捡苹果”这句话可以表示为：?xy。女人x，pick_up xy，苹果y。

这些表达和视频被输入到由Barbu和其他研究人员开发的称为“Sentence Tracker”的计算机视觉算法中。该算法查看每个视频帧以跟踪对象和人如何随时间变换，以确定动作是否如所描述的那样播放。通过这种方式，它确定视频的含义是否正确。

连接点

具有对象，人类和动作的最紧密匹配表示的表达式成为标题的最可能含义。最初，表达式可以指代视频中的许多不同对象和动作，但是可能含义的集合用作训练信号，其帮助解析器持续地降低可能性。“通过假设所有句子必须遵循相同的规则，它们都来自同一种语言，并且看到许多标题视频，你可以进一步缩小其含义，”Barbu说。

简而言之，解析器通过被动观察来学习：为了确定视频的标题是否为真，解析器必然必须识别标题的最高概率含义。“判断一个视频的句子是否属实的唯一方法是通过这个中间步骤，'句子是什么意思?' 否则，你不知道如何连接两者，“巴布解释道。“我们不会给系统赋予句子的含义。我们说，'有一个句子和一个视频。句子必须适用于视频。找出一些中间表示，使视频成为现实。'”

训练为学习单词产生句法和语义语法。给定一个新句子，解析器不再需要视频，而是利用其语法和词汇来确定句子结构和含义。

最终，这个过程正在学习“好像你还是个孩子”，Barbu说。“你看到你周围的世界，听到人们说话以学习意义。有一天，我可以给你一个句子并问它意味着什么，即使没有视觉，你也知道它的含义。”

在未来的工作中，研究人员对建模相互作用感兴趣，而不仅仅是被动观察。“孩子们在学习时会与环境互动。我们的想法是建立一个也会用感知来学习的模型，”罗斯说。

这项工作部分得到了CBMM，国家科学基金会，福特基金会研究生研究奖学金，丰田研究院和MIT-IBM脑启发多媒体理解项目的支持。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如有侵权行为，请第一时间联系我们修改或删除，多谢。

标签：学习语言

上一篇:使用物质状态搜索算法进行训练可以进行神经元模型修剪

下一篇:儿童应用中的广告比父母可能意识到的更为普遍

学习语言的机器就像孩子一样

猜你喜欢

最新文章