FacebookAI研究人员以惊人的准确性克隆了比尔盖茨的声音
Facebook Inc.的研究人员设法克隆了微软公司的比尔·盖茨的声音,以至于您无法分辨它是机器产生的语音。
Facebook AI Research的肖恩·巴斯克斯(Sean Vasquez)和迈克·刘易斯(Mike Lewis)周一表示,他们已经在尝试模仿人类的语音已有一段时间了,这显然很困难,因为即使是史蒂芬·霍金(Stephen Hawking)可以说是最著名的口语机器,听起来仍然像机。
看来现在已经取得了进展,如果您听盖茨的克隆作品(如图),您会同意的。听起来像他,您很难分辨机器和他的真实声音之间的区别。
正如盖茨所说,机器在这里说:“甜美的姑娘的眼神中增添了光芒。” 它在此处克隆了“向您所珍惜的朋友写一封好记号”的字样。关于最后一句话,也许有些不可思议的是,当盖茨说“珍惜”时,机器是如何正确纠正盖茨毫无疑问的上升趋势的。
用于执行此操作的技术称为MelNet,可用于复制人类语调。迄今为止,盖茨的声音和许多其他人的声音已经完美地再现了。Vasquez和Lewis说,克隆的音频来自各种Ted Talks。
研究人员说,直到最近,文本转语音软件之所以不能很好地工作,是因为它使用了波形记录。这些说明了声音在几秒钟内如何发生变化。如果您听到盖茨说出的“珍惜”一词,则音调会发生很大变化。当试图模仿一个人时,深度学习机必须猜测所有这些微小的变化,这并非易事。
Vasquez和Lewis说,他们通过使用所谓的频谱图来训练机器,从而更加准确地克隆了语音。
研究人员说:“频谱图的时间轴比波形的时间轴紧凑几个数量级,这意味着跨越波形中成千上万个时间步长的依存关系仅跨越频谱图中成百上千个时间步长,”研究人员说。“这使我们的频谱图模型能够在几秒钟的时间内生成无条件的语音和音乐样本。”
但是有一些挫折。研究小组表示,尽管他们可以完美地再现句子,但它无法复制“语调以表明随着故事在数十秒或几分钟内演变而引起的话题或情绪变化”。该团队说,尽管如此,在人机交互方面,该技术在仅涉及简短短语的对话中仍可能具有变革性。