东南教育网您的位置:首页 >互联网 >

Facebook开源其M2M100多语言模型以提高翻译准确性

导读 Facebook Inc 今天表示,在使用机器学习来在不依赖英语数据的情况下在任意两种语言之间生成更准确的翻译方面,已经取得了实质性进展。该公

Facebook Inc.今天表示,在使用机器学习来在不依赖英语数据的情况下在任意两种语言之间生成更准确的翻译方面,已经取得了实质性进展。

该公司正在开放其最新产品M2M-100的采购,该公司称这是第一个可以直接在任何100种语言之间进行翻译的多语言机器翻译模型。

到目前为止,由于英语培训数据的广泛可用性,大多数多语言机器翻译模型在两种不同语言之间进行翻译时都依赖英语作为一种中介。因此,例如,当模型将句子从法语翻译为中文时,它将首先将法语翻译为英语,然后再将其翻译为中文。这些模型在大多数情况下都可以很好地工作,但是在涉及更复杂的句子和短语时通常不准确。

Facebook表示,M2M-100可以直接从中文翻译成法语,或者在100多种语言对之间进行翻译,从而更好地保留含义,而无需使用英语作为中介。

在这么多不同的语言对之间进行翻译不是一件容易的事,因为模型需要访问许多高质量的训练数据。Facebook人工智能研究员Angela Fan在一篇博客文章中解释了她和她的团队如何着手创建一个庞大的“多对多”数据集,其中包含100多种不同语言的超过75亿个句子。这些数据是使用ccAligned,ccMatrix和LASER等开源数据挖掘工具收集的,然后根据诸如语言分类,地理和文化相似性之类的参数分为14种不同的语言组。

范说:“生活在具有相同家庭语言的国家中的人们往往会更频繁地交流,并且会受益于高质量的翻译。” “例如,一组将包括在印度使用的语言,例如孟加拉语,北印度语,马拉地语,尼泊尔语,泰米尔语或乌尔都语。我们系统地挖掘了每个组中所有可能的语言对。”

然后,在这14个语言组中的每个语言组中,Facebook为每个语言标识一到三种“过渡语言”,作为将其翻译成不同语言组的基础。

范说:“然后,我们针对这些桥梁语言的所有可能组合挖掘了并行训练数据。” “使用这项技术,我们的训练数据集最终获得了75亿条并行数据,对应2200个方向。由于挖掘的数据可用于训练给定语言对的两个方向(例如en-> fr和fr-> en),因此我们的挖掘策略可帮助我们有效地稀疏地进行挖掘,以最好地覆盖所有100×100(总共9,900个)一个模型中的指示。”

范的团队还使用了一种称为“反向转换”的技术来创建合成数据,以补充已经开采的并行数据。

“总体而言,与仅对挖掘数据进行训练相比,我们的过渡策略和反向翻译数据相结合,在100个反向翻译方向上的性能平均提高了1.7 BLEU。” “有了更强大,高效和高质量的培训,我们为装备精良的基础,可以建立和扩展我们的多对多模型。”

范说,完成的M2M-100模型比Facebook当前使用的现有以英语为中心的多语言模型能够以更高的精度翻译,在 用于评估机器翻译的广泛使用的BLEU度量标准上,该系统的性能要高出10个百分点。Facebook最终希望用M2M-100替换那些型号,以提高其数百万使用低资源语言的用户的翻译质量。

“我们将通过整合此类前沿研究,探索负责任地部署MT系统以及创建将其投入生产所需的更专业的计算架构,来继续改进模型。”

免责声明:本文由用户上传,如有侵权请联系删除!