Speechmatics 推出AI高级语音交互的 Flow API
Speechmatics是语音识别领域的先驱,目前也是多语言转录技术的领导者,该公司宣布推出API,该API将使开发人员能够在任何产品中构建语音交互功能,包括AI助手和代理。Flow将Speechmatics的实时自动语音识别(ASR)技术与大型语言模型(LLM)和文本到语音功能相结合,为准确、响应迅速且安全的基于语音的交互提供完整解决方案。
Speechmatics一直专注于企业应用,了解企业在实施语音助手时所面临的长期挑战,即如何准确理解各种口音和语言、保持自然流畅的对话并确保数据隐私。现有的解决方案往往在准确性、延迟或灵活性方面不尽如人意,从而限制了它们在现实商业应用中的有效性。
这家位于英国剑桥的公司解释说,Flow基于Speechmatics的ASR技术构建,该技术能理解50种语言的语音,识别各种口音,并适用于任何嘈杂环境。Flow拥有安全的基础设施、低延迟,并且能够与任何首选的大型语言模型集成,为企业级语音交互提供灵活性和安全性。
Trevor Back,Speechmatics首席产品官
Speechmatics首席产品官Trevor Back表示:
“Flow标志着企业语音技术的重大飞跃。通过将我们世界一流的ASR技术与先进的对话式AI功能相结合,我们正帮助企业在一系列广泛的应用中创造更自然、更高效、更安全的语音交互。”
虚拟助理
Flow利用Speechmatics业界领先的实时引擎,能够创建出反应迅速的虚拟助理,它们可以听到并理解说出的每一个字,处理打断和交叉对话的能力也非常出色。由于该API支持说话人识别和语音分段(即根据说话人的身份将包含人类语音的音频流分割成多个片段),因此它可以根据情况称呼多人的名字,或者在未被呼唤时忽略说话人,甚至在背景声音清晰可闻时也能忽略。
开发人员可以通过API将Flow集成到现有的产品和服务中,从而实现快速部署和定制,以满足特定的业务需求。Flow还提供添加自定义提示的功能,以便根据特定客户需求对助理进行个性化设置。它还将提供从内部文档中添加答案的功能,以确保对特定客户查询做出准确回应。
Speechmatics的这种新方法建立在公司在语音技术方面的丰富经验之上,结合了人工智能和机器学习领域的最新突破,能够实时准确地理解和将人类级别的语音转录成文本。由于Speechmatics在为大型媒体组织提供转录服务方面处于领先地位,从实时直播字幕生成到从大型电视档案中生成元数据,Flow都受益于这一庞大的词汇量。Speechmatics每月处理全球超过500年的转录量,涵盖50种语言,并能翻译69种语言对。
Speechmatics在语音识别领域率先应用了机器学习,其神经网络考虑了声学、语言、方言、多个说话人、标点、大小写、上下文和隐含意义。结合最新的AI驱动的语音功能,Speechmatics能够提供一种解决方案,跨用例和行业利用摘要、主题、情感、翻译等功能。
Flow API的应用范围非常广泛。它包括通用型AI助理,但也可用于任何能从人们与之交谈中受益的AI代理或产品。Speechmatics刚刚为Flow开放了一个等待名单,预计将在2024年晚些时候正式发布。