AI音频:机器学习工具可以在一秒钟内预测声音中的情绪

研究人员调查了机器学习(ML)工具是否能够准确识别我们的情绪,以及如果可以的话,这些预测的准确度如何。他们调查了非常短的音频片段是否足以让ML模型独立于所说的话语来判断我们的情绪。他们发现,某些模型可以以与人类大致相同的准确度识别声音片段中的情绪。研究人员表示,这些模型可以实现在实时情境下连续情绪分类。
语言是表达自己的重要工具。然而,我们不说的内容可能更有助于传达情感。人类通常可以通过语音中嵌入的非语言线索来判断周围人的情绪。
现在,德国的研究人员想要找出技术工具是否也能够准确预测语音录音片段中的情感色彩。为此,他们比较了三种ML模型在识别音频片段中多样化情绪的准确度。他们的研究结果发表在《心理学前沿》杂志上。
文章的第一作者、马克斯·普朗克人类发展研究所生命周期心理学中心的研究员汉内斯·迪默林表示:
根据训练数据,研究人员生成了三种ML模型,它们分别采用以下三种方法:
- 深度神经网络(DNN)就像复杂的过滤器,分析声音组件,如频率或音高,以识别潜在的情绪;
- 卷积神经网络(CNN)扫描声音轨迹的视觉表示中的模式,类似于从声音的节奏和质地中识别情绪;
- 混合模型(C-DNN)结合了这两种技术,使用音频和其视觉频谱图来预测情绪。然后,在两个数据集上对这些模型的有效性进行了测试。

研究人员还指出了他们研究中的一些局限性,例如,由演员朗读的样本句子可能无法传达真实、自发情感的全部范围。他们还表示,未来的工作应该研究持续时间长于或短于1.5秒的音频片段,以找出情感识别的最佳持续时间。
更多内容欢迎访问我们的AI技术频道,https://www.locationsound.cn/aiaudio