Speechmatics 推出AI高级语音交互的 Flow API

Speechmatics是语音识别领域的先驱，目前也是多语言转录技术的领导者，该公司宣布推出API，该API将使开发人员能够在任何产品中构建语音交互功能，包括AI助手和代理。Flow将Speechmatics的实时自动语音识别（ASR）技术与大型语言模型（LLM）和文本到语音功能相结合，为准确、响应迅速且安全的基于语音的交互提供完整解决方案。

Speechmatics一直专注于企业应用，了解企业在实施语音助手时所面临的长期挑战，即如何准确理解各种口音和语言、保持自然流畅的对话并确保数据隐私。现有的解决方案往往在准确性、延迟或灵活性方面不尽如人意，从而限制了它们在现实商业应用中的有效性。

这家位于英国剑桥的公司解释说，Flow基于Speechmatics的ASR技术构建，该技术能理解50种语言的语音，识别各种口音，并适用于任何嘈杂环境。Flow拥有安全的基础设施、低延迟，并且能够与任何首选的大型语言模型集成，为企业级语音交互提供灵活性和安全性。

Trevor Back，Speechmatics首席产品官

Speechmatics首席产品官Trevor Back表示：

“Flow标志着企业语音技术的重大飞跃。通过将我们世界一流的ASR技术与先进的对话式AI功能相结合，我们正帮助企业在一系列广泛的应用中创造更自然、更高效、更安全的语音交互。”

虚拟助理

Flow利用Speechmatics业界领先的实时引擎，能够创建出反应迅速的虚拟助理，它们可以听到并理解说出的每一个字，处理打断和交叉对话的能力也非常出色。由于该API支持说话人识别和语音分段（即根据说话人的身份将包含人类语音的音频流分割成多个片段），因此它可以根据情况称呼多人的名字，或者在未被呼唤时忽略说话人，甚至在背景声音清晰可闻时也能忽略。

开发人员可以通过API将Flow集成到现有的产品和服务中，从而实现快速部署和定制，以满足特定的业务需求。Flow还提供添加自定义提示的功能，以便根据特定客户需求对助理进行个性化设置。它还将提供从内部文档中添加答案的功能，以确保对特定客户查询做出准确回应。

Speechmatics的这种新方法建立在公司在语音技术方面的丰富经验之上，结合了人工智能和机器学习领域的最新突破，能够实时准确地理解和将人类级别的语音转录成文本。由于Speechmatics在为大型媒体组织提供转录服务方面处于领先地位，从实时直播字幕生成到从大型电视档案中生成元数据，Flow都受益于这一庞大的词汇量。Speechmatics每月处理全球超过500年的转录量，涵盖50种语言，并能翻译69种语言对。

Speechmatics在语音识别领域率先应用了机器学习，其神经网络考虑了声学、语言、方言、多个说话人、标点、大小写、上下文和隐含意义。结合最新的AI驱动的语音功能，Speechmatics能够提供一种解决方案，跨用例和行业利用摘要、主题、情感、翻译等功能。

Flow API的应用范围非常广泛。它包括通用型AI助理，但也可用于任何能从人们与之交谈中受益的AI代理或产品。Speechmatics刚刚为Flow开放了一个等待名单，预计将在2024年晚些时候正式发布。

{{userData.name}}