高信噪比 MEMS 麦克风将在生成式AI音频起到关键作用
人工智能的整合无疑已经改变了我们的日常生活,生成文本和图像的工具能够产生令人难以置信的逼真内容。然而,AI的影响不仅限于视觉和书面媒体,语音转文本(STT)和自然语言处理(NLP)等音频应用也从这一技术中受益。音频应用的新质量水平是否完全归功于最新的大型语言模型(LLM)为基础的AI生成?或者硬件在这些发展中仍然起着至关重要的作用?具体来说,高信噪比(SNR)的微机电系统(MEMS)麦克风对这种即将改变我们日常生活的新型人机界面的质量贡献有多大?在本文中,我们将探讨这些问题,并深入探讨高SNR MEMS麦克风在开发尖端音频应用(如文本转语音(TTS)和NLP)中的关键作用。
根据高通公司的《2023年声音状态报告》,每天佩戴耳机的时间正在增加。越来越多的人在咖啡馆等公共场所工作,并使用耳机来屏蔽背景噪音,无论是为了安静还是开会。在空闲时间,人们希望佩戴同样的耳机来玩游戏、听音乐或有声读物,或与朋友交流。由于佩戴时间更长,除了舒适性之外,音质正成为一个关键的购买标准。研究发现,越来越多的人在购买耳机时对“高级音频功能”感兴趣,例如空间音频、清晰的语音通话和更低的音频延迟。73%的受访者表示,他们设备的音质应在每次购买时有所提高——这一比例较前一年上升了67%。
消费者电子产品以及汽车中的重要音频功能是语音识别和语音生成。多年来,包括Siri和Alexa在内的语音助手简化了操作并启用了新应用,例如通过语音命令控制智能家居。如今,各种设备都配备了集成语音助手,从智能手机(图1)和耳机到智能电视、智能音箱、智能家居设备、笔记本电脑和平板电脑。语音助手在汽车中的使用也越来越多,以便驾驶员无需放开方向盘即可控制各种功能。SAR预测,到2028年,所有配备集成语音助手的设备市场将增长到每年销售30亿台,年均复合增长率为5%。

图1:集成在智能手机中的语音助手受益于基于高SNR MEMS麦克风的增强语音识别。
人工智能在音频领域的前景
然而,当前的系统离完美还有很长的路要走。语音识别仍然因口音、语言缺陷或简单的背景噪音而失败。语音输出仍然非常技术化,并明显不同于真实的声音。
这就是最新一代人工智能所承诺的技术革命将在所有人机交互中产生深远影响的地方。生成性AI音频的优势不仅限于语音助手,从而更好地理解人类的意图。生成几乎无法与真实人声区分的人工声音,例如,可以为视障人士提供更好的可访问性。它可以改善各种数字平台上的用户体验,并在娱乐领域或客户支持中提供新的可能性。
生成性AI音频的一个关键应用是语音转文本(STT),即将口语转换为文本。使用AI可以实现高速度和高准确性。与其对应的文本转语音(TTS)一起,STT在消费电子产品中有许多潜在应用,例如笔记本电脑或智能手机——不仅是语音助手的集成,还有会议的自动转录。在会议中,基于AI的应用可以总结谁说了什么以及提出了哪些要点,捕捉讨论的精髓,并且在会议进行过程中,您可以查看不同人提出的要点,确保每个人的观点都被考虑。
自然语言处理(NLP)和表达性语音生成
NLP是生成性语音AI的基本构建模块。其目标是理解口语的意义,无论是口音、口语表达、含糊的发音和口语与书面语言之间的其他差异。基于语速、语调和音色来识别意见和情感也是NLP的一部分。由于人类声音具有极大的范围,NLP的音频录制必须尽可能准确地捕捉纯净的声音,尽量减少背景噪音、闲聊和其他外部影响。换句话说,麦克风和信号处理对NLP的质量有显著贡献。
为了实现出色的语音识别,AI必须通过尽可能多的不同人声录音进行训练。只有这样,它才能处理语音的细微差别并理解口语文本。
MEMS麦克风在音频AI中的应用
对于NLP来说,只有在部署了适当的硬件时,音频AI才能最佳地完成其工作。一切都始于将人类语音产生的声波转换为电信号。这种转换的完美程度将影响录制信号的理解。任何损失或退化都会影响STT的准确性。
作为音频链中的第一个组件,麦克风在设计音频AI设备时起着至关重要的作用。MEMS麦克风无可匹敌:它们在非常小的体积中提供高性能和低功耗,因此可以轻松集成到各种设备中。
MEMS麦克风由三个构建模块组成(图2)。首先是实际的传感元件,即微机电系统:声波移动膜片,该膜片与背板形成电容器。电容变化产生电信号。第二个构建模块是ASIC,它包含膜片的电荷泵、放大器级、用于清洁电源的低压差稳压器(LDO)和校准逻辑。这些部件集成到第三个构建模块中,即封装。封装保护组件,对其进行屏蔽并形成声学背腔。

图2:MEMS麦克风的框图。
为了在困难条件下(如背景噪音、口音或说话者与麦克风之间的非最佳距离)识别语音的细微差别,麦克风的关键特性是信噪比(SNR),它描述了麦克风固有自噪声与标准参考信号之间的差异。麦克风的所有元件(MEMS、ASIC、封装和声音端口)都会对自噪声产生影响。
XENSIV™ MEMS麦克风在音频AI方面的优势
如上所述,音频AI设备需要具有高信噪比(SNR)的麦克风以实现准确的语音识别。英飞凌在高性能MEMS麦克风的开发方面有着悠久的历史。3英飞凌的革命性MEMS麦克风技术——密封双膜(SDM)采用了两个膜片和一个带电定子,以创建一个密封的低压腔体(图3)和一个差分输出信号。这种架构可实现超高SNR(高达75 dB)、极低的失真,并在麦克风级别提供高防护等级(IP57)。

图3:SDM技术利用两个膜片和一个带电定子创建一个密封的低压腔体和一个差分输出信号,从而实现超高SNR和极低的失真。
因此,英飞凌的XENSIV™ IM73A135实现了73 dB的SNR,这是业界MEMS麦克风中的最佳值之一,使其非常适合要求苛刻的应用,如音频AI。4×3毫米²的封装允许声音采集单元的微型化,并便于将语音AI技术集成到各种设备中,从笔记本电脑和会议电话到智能音箱和智能手机。
XENSIV™ MEMS麦克风的另一个优势是其低能耗。它们具有不同的工作模式以节省能源,有助于提高最终设备的电源效率。由于许多具有生成性语音AI的设备是可携带和电池供电的,因此实现更长的电池寿命尤为重要。
由于其紧凑的尺寸、成本效益和低功耗,可以在一个设备中使用多个麦克风。这可以检测和降低背景噪声,以实现更好的语音识别。还可以采用波束形成算法来从背景噪声中隔离并捕获特定的说话者,从而再次实现更好的语音识别。
在这个重视音频质量的世界中,MEMS麦克风的优势也体现在市场数据中。高SNR MEMS麦克风市场的增长速度明显高于SNR较低的麦克风市场。例如,Omdia预计,到2027年,消费者领域SNR超过64 dB的MEMS麦克风将以8.7%的复合年增长率增长,销量将达到近30亿台。
英飞凌早已预见到这一趋势,并一直在致力于开发用于音频AI应用等的高性能MEMS麦克风。除了已经引人注目的73 dB SNR之外,具有更高SNR和更低功耗的设备也将很快面世。

图4:XENSIV™ MEMS麦克风的关键价值指标。
结论
在生成式AI音频领域,高信噪比(SNR)MEMS麦克风的集成发挥着至关重要的作用。随着人工智能改变语音转文本(STT)等音频应用,MEMS麦克风通过捕捉细微的语音数据做出贡献。这一进步提高了语音识别能力,使其更加自然,并适用于从消费电子到视障人士辅助功能等各个领域。凭借出色的MEMS麦克风的优势,音频AI将在未来几年内开拓更多的应用,包括语音克隆、情绪识别等。
英飞凌科技自主研发和生产MEMS麦克风的所有构建模块。该公司可以轻松确定MEMS、ASIC和封装的最佳组合,以实现每种应用的最佳性能。这为改善用户体验和语音AI不断发展格局中的更广泛应用铺平了道路。