AI音频：机器学习工具可以在一秒钟内预测声音中的情绪

生成式AI视频与音频发展太快了，这些最新的音频技术中，最让人诟病的还是对于声音中的情感情绪表达问题，无论是AI的语音还是音乐，总让人有机器感。不过，这方面的研究同样不少且发展也不慢，机器学习已经基本掌握了人类语音中的情绪……

研究人员调查了机器学习（ML）工具是否能够准确识别我们的情绪，以及如果可以的话，这些预测的准确度如何。他们调查了非常短的音频片段是否足以让ML模型独立于所说的话语来判断我们的情绪。他们发现，某些模型可以以与人类大致相同的准确度识别声音片段中的情绪。研究人员表示，这些模型可以实现在实时情境下连续情绪分类。

语言是表达自己的重要工具。然而，我们不说的内容可能更有助于传达情感。人类通常可以通过语音中嵌入的非语言线索来判断周围人的情绪。

现在，德国的研究人员想要找出技术工具是否也能够准确预测语音录音片段中的情感色彩。为此，他们比较了三种ML模型在识别音频片段中多样化情绪的准确度。他们的研究结果发表在《心理学前沿》杂志上。

文章的第一作者、马克斯·普朗克人类发展研究所生命周期心理学中心的研究员汉内斯·迪默林表示：

“我们展示了机器学习可以用于从音频片段中识别情绪，即使这些片段只有1.5秒长。”“我们的模型在对演员朗读的带有情感色彩的无意义句子进行分类时，实现了与人类相似的准确度。”

听见我们的情感

研究人员从两个数据集中获取了无意义的句子，一个是加拿大的，另一个是德国的。这样可以让他们调查ML模型是否能够准确识别情绪，而不受语言、文化细微差异和语义内容的影响。每个片段被缩短到1.5秒的长度，因为这是人们识别语音情感所需的最短时间。这也是能够避免情感重叠的最短音频长度。研究中涉及的情绪包括喜悦、愤怒、悲伤、恐惧、厌恶和中性情绪。

根据训练数据，研究人员生成了三种ML模型，它们分别采用以下三种方法：

深度神经网络（DNN）就像复杂的过滤器，分析声音组件，如频率或音高，以识别潜在的情绪；
卷积神经网络（CNN）扫描声音轨迹的视觉表示中的模式，类似于从声音的节奏和质地中识别情绪；
混合模型（C-DNN）结合了这两种技术，使用音频和其视觉频谱图来预测情绪。然后，在两个数据集上对这些模型的有效性进行了测试。

迪默林说：“我们发现，与仅使用CNN中的频谱图相比，DNN和C-DNN实现了更高的准确度。”“无论采用哪种模型，情感分类的正确率都高于猜测，并且与人类的准确度相当。”

和任何人一样好

迪默林解释说：“我们希望将我们的模型置于一个现实的环境中，并将人类的预测能力作为基准。”“如果模型表现超过人类，可能意味着存在着我们无法识别的模式。”研究人员表示，未经过训练的人类和模型表现相似可能意味着两者都依赖于类似的识别模式。

目前的研究结果还表明，可以开发出系统，能够即时解读情感线索，以在各种情境下提供即时而直观的反馈。这可能导致在各个领域开发可扩展、成本效益高的应用程序，其中理解情感背景至关重要，例如治疗和人际交流技术。

研究人员还指出了他们研究中的一些局限性，例如，由演员朗读的样本句子可能无法传达真实、自发情感的全部范围。他们还表示，未来的工作应该研究持续时间长于或短于1.5秒的音频片段，以找出情感识别的最佳持续时间。

更多内容欢迎访问我们的AI技术频道，https://www.locationsound.cn/aiaudio

{{userData.name}}