Facebook开源用于自然语言处理的LASER编码器技术
Facebook Inc.在加快自然语言处理应用程序向更多语言的转移方面做出了另一项重要贡献。
今天,这家社交媒体巨头开源了一种名为LASER的新PyTorch工具,该工具代表与语言无关的句子表示。借助LASER,Facebook尝试创建一种数学表示形式,以封装和理解所有自然语言,无论它们有多么独特。
在12月Facebook发布研究报告之后,LASER的开源。该报告“用于零射门跨语言转移和超越的大规模多语言句子嵌入”描述了Facebook工程师如何训练单个神经网络模型,该模型可以用34个单独的字母表示93种语言的结构。
Facebook最终建立了所谓的“单一表示”,即以矢量形式对句子进行数学转换,从而封装了所有93种语言的结构相似性。然后,该单一表示形式用于在多个任务上训练算法,这些算法涉及在以前从未见过的语言对之间匹配句子,例如瑞典语到斯瓦希里语,这在业内被称为“零镜头”语言学习。
Facebook研究员霍尔格·施文克(Holger Schwenk)表示,希望是具有“有限资源”的语言将能够从其他更流行的语言的联合培训中受益,从而可以构建自然语言处理模型来理解它们。
可以在GitHub上找到LASER的代码,该代码提供了一个“编码器-解码器”神经网络,该网络是使用长短期记忆神经网络构建的,用于理解人类的语音和文本。
解码器通过尝试将93种源语言之一中的随机句子翻译成英语或西班牙语来工作。将句子输入到编码器LSTM中,然后将这些词转换为固定长度的向量。然后,相应的LSTM尝试选择与原始单词含义匹配的英语或西班牙语句子。
Facebook表示,通过在众多双语文本上对编码器进行培训,例如以57种语言提供的OpenSubtitles2018电影字幕集合,它在创建允许其正确翻译句子的单一数学表示形式时变得更加准确。
星座研究公司(Constellation Research Inc.)的分析师Holger Mueller说,LASER似乎是在更好地理解下一代应用中的人类语音方面的重要贡献。但是,他说,该工具的早期实施能否证明其有效性还有待观察。
“作为讲多种其他语言的德语母语者,抽象句子结构并不是一件容易的事,”穆勒说。