Soniox推出AudioMind高级AIGC语音转录模型 接近人类方式来倾听和理解声音
加州初创公司Soniox推出了AudioMind,这是其首个能够深入理解音频并将对白和转录转化为可操作信息的AI模型。Soniox在英语语音转文本和自然语言处理领域已经处于领先地位,现在该公司通过开发能够通过音频完全理解世界和人类的AI,将其方法推向了更远的领域,旨在解决需要现实世界互动的问题。
Soniox将AudioMind描述为世界上第一个能够理解音频全部丰富性的AI模型。但一如既往,一般化和略显抽象的定义并不能完全概括这一本质上非常有用和令人渴望的AI转录应用。
Soniox成立于2020年,目前总部位于美国加州福斯特城,该公司开发了市场上最好的语音识别引擎之一。该公司目前提供市面上领先的云转录引擎之一——这也是audioXpress成功用于采访和一般语音转文本转换的引擎。
专注于语音AI的Soniox在2021年推出了世界上第一个用于语音识别的无监督学习方法。这一创新对于克服之前阻碍语音系统性能的局限性至关重要。
2023年,Soniox开始从语音AI向通用AI转型,利用其在无监督学习和构建准确、可靠、高效的AI技术方面的独特专长。最近,Soniox宣布他们正在努力开发自己的大型语言模型(LLM),并发布了Soniox 7B。这是一个支持英语和代码、具有8K上下文的大型语言模型,建立在法国公司Mistral.ai创建的大型语言模型Mistral 7B之上,并通过额外的预训练和微调增强了其强大的问题解决能力。据Soniox称,其Soniox 7B大型语言模型在所有基准测试中都超过了Mistral 7B,并在某些基准测试中与GPT-4不相上下。现在,Soniox将利用在Soniox 7B上学到的经验来创建一个真正的AI代理。
Soniox首席执行官Klemen Simonic表示:“今天是人工智能的一个重要里程碑:发布了AudioMind,这是第一个能够深入理解音频的人工智能模型,让人们能够接触到全方位的听觉体验。Soniox的使命是通过音频理解世界和人类。我们从构建最准确的语音识别AI开始。今天,我们推出了AudioMind,这是世界上第一个能够理解音频全部丰富性的人工智能模型。”
AudioMind已经被训练得以类似于人类处理的方式来倾听和理解音频。它可以识别语音、说话者,辨别音调、性别、情感,以及区分环境声音和人造声音。该模型能够从音频中直接生成并创建自定义格式的文档,这是仅通过文本方法无法实现的。目前仅支持英语,可以处理长达60分钟的音频文件,而且处理1小时的音频大约只需3分钟。
西莫尼克补充道:“AudioMind在驾驭音频力量方面取得了重大飞跃。我们希望它将改变我们与音频世界的互动方式,解锁新的可能性,并催化各个领域的创新应用浪潮。”
在公司网站上,Soniox发布了一系列由AudioMind直接生成且未经修改的示例,旨在展示AudioMind在转录生成、说话者智能、声音智能、音频摘要、音频文档创建、音频问答和语音交互等方面的能力。这些示例展示了AudioMind在得到提示时如何生成自定义转录,理解格式化指令。在这些示例中,我们可以看到AudioMind如何从声音中识别、确定并理解说话者的状态,以及识别声音并理解它们在整个音频环境中的上下文。
AudioMind还可以通过用户提供的提示指令进行自定义音频摘要,并可以将音频转换为自定义格式的文档,利用所有可用的音频信息确保内容按照提示中的指定进行组织和格式化。该模型甚至能够回答有关音频内容的复杂问题,例如确定对话的主题,将对话属性归属于特定的说话者,并分析情感语调和声音。 音频也可以作为一种提示方法。用户无需打字,直接说出提示,AudioMind就可以详细听到用户的声音。
Soniox创始人兼首席执行官Klemen Simonic在人工智能领域拥有12年以上的多元化行业和学术经验,曾在Facebook、谷歌、斯坦福大学和斯洛文尼亚卢布尔雅那大学工作。作为Facebook语音团队的创始成员之一,Klemen开发的语音技术包括语音活动检测、语言识别和自动语音识别系统。
Ambroz Bizjak是Soniox的联合创始人兼首席架构师。Ambroz在斯洛文尼亚卢布尔雅那大学攻读数学和计算机科学本科期间认识了Klemen。毕业后,Ambroz在Cosylab工作了8年,期间他开发了用于粒子加速器、聚变反应堆和癌症治疗系统的控制系统核心软件,这些系统在世界各地都有使用。参与这些高影响力项目的工程师和科学家们称赞Ambroz是世界上最杰出的程序员之一。
同期录音网:也许你还没有get到,AI的发展是如此之快,当AI可以去理解每个人的语言和语音,从语音中了解复杂的情绪,甚至语音背后的潜意,那AI的生成再创造将……
更多AI音频技术内容请访问我们的“AI技术频道”:https://www.locationsound.cn/aiaudio