一个卷积网络来对齐和预测情感注释
能够识别和预测人类情绪的机器学习模型在过去几年里变得越来越流行。然而,为了使这些技术中的大多数表现良好,用于训练它们的数据首先由人类受试者进行注释。此外,随着时间的推移,情绪不断变化,这使得视频或录音的注释特别具有挑战性,往往导致标签和录音之间的差异。
为了解决这一局限性,密歇根大学的研究人员最近开发了一种新的卷积神经网络,它可以同时对齐和预测端到端的情感注释。他们在IEEE《情感计算学报》上发表的一篇论文中介绍了他们的技术,称为多延迟同步(MDS)网络。
“情感随时间不断变化;它在我们的谈话中起起落落。在工程学中,我们经常使用对情绪的连续描述来衡量情绪是如何变化的。我们的目标是通过语音来预测这些连续的测量。但这里有个问题。在对情感进行连续描述的过程中,最大的挑战之一就是我们需要不断变化的标签。这是由人工注释器团队完成的。然而,人不是机器。”
正如Mower学院的教务长继续解释的那样,人类注释者有时更能理解特定的情感暗示(比如,笑声),但却忽略了其他暗示背后的含义(比如,一声恼怒的叹息)。除此之外,人类需要一些时间来处理录音,因此,他们对情感暗示的反应有时会延迟。因此,连续的情绪标签可能会出现很多变化,有时与数据中的语音不一致。
在他们的研究中,Mower Provost和她的同事直接解决了这些挑战,专注于两个连续的情绪测量:积极性(效价)和能量(激活/唤醒)。他们引入了多延迟同步网络,这是一种处理语音和连续注释之间不一致的新方法,对不同类型的声音提示有不同的反应。
参与这项研究的另一名研究人员Soheil Khorram告诉TechXplore:“对情绪的时间连续维度描述(如唤起、效价)提供了关于情绪表达的短期变化和长期趋势的详细信息。”“我们研究的主要目的是开发一个自动情绪识别系统,能够从语音信号估计时间连续的多维情绪。这个系统可以在不同领域有许多实际应用,包括人机交互、电子学习、市场营销、医疗保健、娱乐和法律。”
由Mower教务长、Khorram和他们的同事开发的卷积网络有两个关键组件,一个用于情绪预测,另一个用于对齐。情感预测组件是一个通用的卷积架构,用来识别声学特征和情感标签之间的关系。
另一方面,校准组件是研究人员引入的新层(即延迟同步层),它将可学习的时间移位应用于声学信号。研究人员通过合并这些层来补偿延迟的变化。
Khorram解释说:“在开发从语音中预测时间-连续情感标签的自动系统时,一个重要的挑战是这些标签通常与输入语音不同步。”“这主要是由于反应时间造成的延迟,这是人类评估固有的。与其他方法相比,我们的卷积神经网络能够以端到端方式同时对齐和预测标签。多延迟同步网络利用了现代深度学习架构中传统的信号处理概念(即同步滤波)来处理反应延迟问题。
研究人员使用两个公开的数据集,即RECOLA和SEWA数据集,通过一系列的实验来评估他们的技术。他们发现,在训练注释者的情绪识别模型时,补偿注释者的反应延迟可以显著提高模型的情绪识别准确性。
他们还观察到,在定义连续的情绪标签时,注释者的反应延迟通常不超过7.5秒。最后,他们的发现表明,与其他情绪暗示相比,包括笑声在内的语言部分通常需要更小的延迟成分。换句话说,注释者通常更容易在包含笑声的演讲片段中定义情感标签。
“情感无处不在,它是我们交流的中心,”Mower教务长说。“我们正在建立强大的、可推广的情绪识别系统,这样人们就可以很容易地获取和使用这些信息。这一目标的一部分是通过创建算法来实现的,这些算法可以有效地使用大型外部数据源,包括标记的和非标记的,并通过有效地建模作为我们情感交流一部分的自然动态。另一部分是通过理解标签本身固有的复杂性来完成的。”
虽然Mower的教务长、Khorram和他们的同事将这项技术应用于情感识别任务,但它也可以用于增强其他输入和输出不完全一致的机器学习应用程序。在他们未来的工作中,研究人员计划继续研究如何将人类注释器生成的情感标签有效地集成到数据中。
“我们使用了一个同步滤波器来近似狄拉克函数并补偿延迟。然而,其他功能,如高斯和三角形,也可以用来代替同步内核,”Khorram说。“我们未来的工作将探索使用不同类型的内核来近似狄拉克函数的效果。此外,在本文中,我们着重于语音模态来预测连续的情绪注释,而所提出的多延迟同步网络对于其他输入模态也是一种合理的建模技术。另一个未来的计划是评估该网络在其他生理和行为模式下的表现,比如:视频、肢体语言和脑电图。”