东南教育网您的位置:首页 >科技 >

这个过程不仅减少了别人说 嘿 Siri触发你的iPhone的可能性

导读 直到今天,10月1日在苹果《机器学习期刊》的博客上发表了一篇非常有趣的技术文章。其中,苹果详细解释了无限制的“Hey Siri”功能如何利

直到今天,10月1日在苹果《机器学习期刊》的博客上发表了一篇非常有趣的技术文章。其中,苹果详细解释了无限制的“Hey Siri”功能如何利用硬件、软件和iCloud功能,让客户不用手就能使用助手。该系统将基于云的语音识别、自然语言解释和其他服务与硬件辅助的设备上处理相结合。IOS设备总是运行“非常小的语音识别器”,只听短语“嘿Siri”。

iPhone或Apple Watch中的麦克风每秒记录16000个瞬时波形样本流。这就是为什么它不会给你的iPhone电池带来太多负担,也不会独占RAM和CPU等其他系统资源的原因:

为了避免整天运行主处理器只是为了听触发短语,iPhone的永远在线协处理器(AOP,是苹果M系列运动协处理器中嵌入的低功耗辅助处理器)可以访问你的麦克风信号iPhone 6s及更高版本。

我们使用AOP有限处理能力的一小部分来运行带有小型神经网络的检测器。当分数超过阈值时,运动协处理器将唤醒主处理器,主处理器将使用大型神经网络来分析信号。

因为电池小,Apple Watch只有在其运动协处理器检测到抬腕手势时才会运行“Hey Siri”检测器,从而打开屏幕,这也是为什么在Apple Watch上关闭屏幕时不能使用“Hey Siri”的原因。

WatchOS将把有限计算预算的5%左右分配给“Hey Siri”。

那么,他们如何实时识别真正的“嘿Siri”热词呢?

一旦被设备捕获,波形被分解成一系列帧,每个帧描述大约0.01秒的声音频谱。每次大约有20帧(0.2秒的音频)传输到深层神经网络。

在那里,声音被转换成一组语音声音类别的概率分布:短语“嘿,Siri”中使用的那些,以及静音和其他声音,总共大约20个声音类别。然后,计算“嘿Siri”的置信度得分。

如果分数足够高,Siri就会醒来。

在iPhone上,他们使用一个神经网络进行初始检测(运行在耗电的运动芯片上),另一个神经网络作为辅助检查程序(运行在主处理器上)。为了减少误触发,苹果还会在“嘿Siri”注册过程中将任何新的“嘿Siri”语音与存储在设备中的五个短语进行比较。

研究论文解释说:“这个过程不仅降低了别人说‘嘿Siri’触发你iPhone的可能性,还降低了其他听起来相似的短语触发Siri的速度。”

该设备还将波形上传到Siri服务器。

如果在云端运行的主语音识别器听到的语音不是“Hey Siri”(比如“Hey较真”、“Hey叙利亚”之类的),服务器会向手机发送取消信号,让手机重新进入睡眠状态。

苹果指出:“在一些系统上,我们在设备上运行了主语音识别器的简化版本,以便更早地提供额外的检查。在我看来,“部分系统”指的是连接电源的设备,比如Mac、苹果电视,甚至iPad。

上图:通过“Hey Siri”检测器的声学模式,底部显示了来自麦克风的波形频谱图。将顶部显示的最终分数与阈值进行比较,以决定是否激活Siri。

阈值本身是一个动态值,因为苹果希望用户在困难条件下激活Siri——如果错过了真正的“Hey Siri”事件,系统会进入更敏感的状态几秒钟。在此期间重复该短语将触发Siri。

以下是他们训练“嘿,Siri”探测器声学模型的方法:

甚至在Hey Siri功能出现之前,就有一小部分用户会在请求开始时先按下按钮说“Hey Siri”。我们在美式英语检测器模型的初始训练中使用了这种“Hey Siri”语音。

我们还包括训练主要语音识别器的一般语音示例。在这两种情况下,我们在训练短语中使用自动转录。Siri团队成员检查了转录子集的准确性。

在美式英语中,声学模型甚至考虑了“Siri”中不同的第一元音,一个在“严重”中,另一个在“叙利亚”中。

训练一个模特大概需要一天的时间,通常任何一次训练都有好几个模特。他们通常训练三个版本:一个运动芯片第一遍的小模型

,用于第二次通过的大尺寸模型以及用于Apple Watch的中型模型。

最后一个花絮:该系统也经过训练,可以识别本地化的“ Hey Siri”短语。

例如,说法语的用户说“ Dis Siri”。在韩国,他们说“ Siri야”,听起来像“ Siri Ya”。讲俄语的用户使用“приветSiri”短语(诸如“ Privet Siri”之类的声音)和泰语“” Siri”(诸如“ Wadi Siri”之类的声音)。

苹果公司说:“我们特别在各种条件下(例如在厨房(近处和远处),汽车,卧室和餐厅中)以各种母语的人进行录音,”

他们甚至使用多种语言的播客和Siri输入来表示背景声音(尤其是语音)和“用户可能对另一个人说的短语”。

“下一次您说'嘿Siri'时,您可能会想到使对该词组做出响应的所有事情,但我们希望它'行之有效',”苹果很好地总结了这一点。

高度技术性的文章提供了对我们视为理所当然的“ Hey Siri”技术的迷人见解,因此,如果您有兴趣了解更多信息,请务必对其进行阅读或保存,以备日后使用。

免责声明:本文由用户上传,如有侵权请联系删除!