一种深度学习技术生成实时假唱的实时2-D动画
现场2-D动画是一种相当新的强大的交流形式,允许人类表演者实时控制卡通人物,同时与其他演员或观众成员互动和即兴创作。最近的例子包括斯蒂芬·科尔伯特(Stephen Colbert)在《晚间秀》节目中采访卡通嘉宾,荷马在《辛普森一家》节目中回答观众的现场电话提问,阿切尔在《ComicCon》节目中与现场观众交谈,以及迪斯尼的明星对决。邪恶力量和我的小马通过YouTube或Face book Live与粉丝进行现场聊天。
制作逼真而有效的二维动画需要使用交互系统,可以自动将人类表演实时转化为动画。这些系统的一个关键方面是实现良好的唇音同步,这本质上意味着动画角色的嘴在说话时适当地移动,模仿表演者的嘴中观察到的动作。
好的唇部同步可以让现场二维动画更有说服力和强大,让动画人物更真实地体现表演。相反,差的嘴唇同步通常会打破角色作为现场参与者在表演或对话的错觉。
在最近在ar Xiv上预发表的一篇论文中,Adobe Research和华盛顿大学的两位研究人员引入了一个基于深度学习的交互系统,该系统自动为分层的二维动画角色生成实时唇同步。他们开发的系统使用长时记忆(LSTM)模型,这是一种递归神经网络(RNN)体系结构,通常应用于涉及分类或处理数据的任务,以及进行预测。
“由于言语几乎是每一个活动画的主导成分,我们认为在这个领域最关键的问题是活唇同步,这需要将演员的言语转换成动画角色中相应的嘴动(即Viseme序列)。在这项工作中,我们专注于为现场二维动画创造高质量的唇部同步,“WilmotLi和DeepaliAneja,两位研究人员通过电子邮件告诉TechXplore。
李是Adobe Research的首席科学家,拥有博士学位。在计算机科学方面,他一直在进行广泛的研究,重点是计算机图形学和人机交互的交叉主题。另一方面,Aneja目前正在攻读博士学位。在华盛顿大学的计算机科学,她是图形和成像实验室的一部分。
由Li和Aneja开发的系统使用一个简单的LS TM模型,以每秒24帧的速度将流式音频输入转换成相应的viseme序列,延迟小于200毫秒..换句话说,他们的系统允许动画角色的嘴唇以类似于人类用户实时说话的方式移动,声音和嘴唇移动之间的延迟不到200毫秒。
在这项工作中,我们做出了两个贡献-识别适当的特征表示和网络配置,以达到最先进的结果,为实时二维唇同步,并设计一种新的增强方法,以收集训练数据的模型,“李和阿内贾解释说。
“对于手工创作的唇形同步,专业的动画师会对视觉的具体选择以及转换的时间和次数做出风格决定。因此,训练单一的“通用”模式对于大多数应用来说不太可能足够,”Li和Aneja说。此外,获得标记的LIP同步数据来训练深度学习模型既昂贵又耗时。专业的动画师每分钟可以花5到7个小时的时间与手工作者viseme序列交流。意识到这些局限性,Li和Aneja开发了一种方法,可以更快、更有效地生成培训数据。
为了更有效地训练他们的LS TM模型,Li和Aneja引入了一种新的技术,利用音频时间扭曲来增强手工编写的训练数据。这种数据增强过程实现了良好的唇同步,即使在一个小的标记数据集上训练他们的模型。
为了评估他们的互动系统在实时制作唇形同步方面的有效性,研究人员要求人类观众对由他们的模型驱动的实时动画的质量和使用商业二维动画工具制作的动画的质量进行评分。他们发现,大多数观众更喜欢他们的方法产生的唇音同步,而不是其他技术产生的。
“我们还调查了唇形同步质量与训练数据量之间的权衡,发现我们的数据增强方法显著提高了模型的输出,”Li和Aneja说。“一般来说,我们只要用15分钟的人工唇形同步数据就能产生合理的结果。”
有趣的是,研究人员发现,他们的LS TM模型可以根据它所训练的数据获得不同的唇同步风格,同时也可以在广泛的扬声器中很好地推广。该模型所取得的令人鼓舞的成果令人印象深刻,Adobe决定在2018年秋季发布的Adobe字符动画软件中集成一个版本。
“准确、低延迟唇同步对于几乎所有的现场动画设置都很重要,我们的人体判断实验表明,我们的技术在现有最先进的2D唇形同步引擎上有所改进,其中大部分都需要离线处理。”李和安说。因此,研究人员认为,他们的工作对现场和非现场二维动画制作都有直接的实际意义。研究人员不知道以前的二维唇同步工作与类似的全面比较与商业工具。
在他们最近的研究中,Li和Aneja能够解决一些与实时二维动画技术开发相关的关键技术挑战。首先,他们展示了一种新的方法来编码艺术规则的二维唇同步使用RNN,这可以在未来进一步加强。
研究人员认为,有更多的机会应用现代机器学习技术来改进二维动画工作流程。“到目前为止,一个挑战是缺乏训练数据,这是昂贵的收集。然而,正如我们在本工作中所展示的,可能有一些方法可以利用结构化数据和自动编辑算法(例如动态时间扭曲)来最大化手工制作的动画数据的效用,”Li和Aneja说。
虽然研究人员提出的数据增强策略可以显著降低设计用于产生实时唇向同步的模型的训练数据需求,但手工匹配足够的唇向同步内容来训练新模型仍然需要相当的工作和努力。然而,根据Li和Aneja的说法,从零开始为它遇到的每一种新的唇向同步风格重新训练一个完整的模型可能是不必要的。
研究人员有兴趣探索微调策略,可以使动画师调整模型以适应不同的风格与更少的用户输入量。一个相关的想法是直接学习一个唇形同步模型,其中明确包含可调谐的文体参数。虽然这可能需要一个更大的训练数据集,但潜在的好处是一个模型足够通用,以支持一系列唇向同步风格,而不需要额外的训练,“研究人员说。
有趣的是,在他们的实验中,研究人员观察到,他们用来训练模型的简单交叉熵损失并没有准确地反映唇同步序列之间最相关的知觉差异。更具体地说,他们发现某些差异(例如,缺少一个过渡或用一个张开的嘴巴来代替一个封闭的嘴巴)比其他的更明显。“我们认为,在未来的研究中设计或学习一个基于知觉的损失可能会导致结果模型的改进,”Li和Aneja说。