Alexa语音规范化AI可将错误减少高达81%
文本规范化是大多数自然语言系统中的基本处理步骤。对于亚马逊的Alexa,“在下午5点给我预订一张桌子”可能会被助理的自动语音识别器转录为“下午五点”并进一步重新格式化为“下午5点”。然后,Alexa可能会转换为“5 :00PM“至”下午5点30分“为其文字转语音合成器。
那么这是如何工作的呢?根据Alexa AI集团应用科学家Ming Sun和Alexa语音机器学习科学家Yuzong Liu的说法,目前,亚马逊的语音助手依赖于“数以千计”的日期,电子邮件地址,数字,缩写和其他表达的手写规范化规则。对于英语而言,这一切都很好,但由于这种方法不能特别适应其他语言(没有大量的手工劳动),亚马逊科学家正在研究一种由机器学习驱动的更具可扩展性的技术。
在计划语言学协会北美分会(NAACL)上发布的预印纸(“ 带有子词单元的神经文本标准化”)中,Sun,Liu及其同事描述了一种打破输入词的AI文本规范化系统。并将流输出为称为子字单元的较小字符串。这些子词单元,Sun和刘在博客文章中解释,减少机器学习模型必须学习的输入数量,并清除像“博士”(可能意味着“医生”或“驱动器”)和“2”这样的片段中的含糊不清/ 3“(可能意味着”三分之二“或”二月三分之一“)。
此外,子字单元使AI模型能够更好地处理之前从未见过的输入字。不熟悉的单词可能包含熟悉的子词组件,这些有时足以帮助模型决定一个行动方案。
研究人员的系统通过将训练数据集中的单词减少为单个字符来创建子单词单元,该算法用于识别最常出现的双字符单元和三字符单元,直到达到容量(大约2,000个子字)。这些组件用于训练AI系统输出子字单元,单独的算法将这些单元拼接成完整的单词。
在对来自公共数据集的500,000个示例进行系统训练之后,研究人员表示,与先前报告的性能最佳的机器学习系统相比,错误率降低了75%,延迟减少了63%,或者花费的时间减少了63%。收到对单个请求的响应。通过考虑附加信息,例如词性,句子内的位置和大小写,它进一步降低了81%的错误率并且单词错误率仅为0.2%。