AI 语音初创公司 ElevenLabs 获得 8000 万美元融资,推出克隆语音市场
由谷歌和 Palantir 前员工创立的 AI 语音初创公司ElevenLabs在成立短短两年内就跻身独角兽行列。该公司今天宣布在 B 轮融资中筹集了 8000 万美元,使其估值增长了十倍,达到 11 亿美元。
此次投资由现有投资者 Andreessen Horowitz (a16z)、前 GitHub 首席执行官 Nat Friedman 和前苹果 AI 领导人 Daniel Gross 共同领投,红杉资本和 SV Angel 也参与其中。六个月前,A 轮融资 1900 万美元,该公司估值约为 1 亿美元。
ElevenLabs 掌握了使用机器学习 (ML) 进行不同语言语音克隆和合成的技术,该公司表示计划利用这笔资金推进其研究,并在现有产品的基础上进行开发。它还宣布了一系列新功能,包括一个用于为完整电影配音的工具和一个新市场,用户可以在其中出售他们的克隆声音以换取金钱。
预计它们将在未来几周内推出。
![AI 语音初创公司 ElevenLabs 获得 8000 万美元融资,推出克隆语音市场 - 第1张 - 同期录音网 AI 语音初创公司 ElevenLabs 获得 8000 万美元融资,推出克隆语音市场 - 第1张](https://pic.locationsound.cn/2024/02/1709216234-Eleven-Labs-AI-1.png?x-oss-process=image/resize,m_fill,w_800,h_450/quality,q_80/format,webp)
使内容普遍可访问
在一个方言和语言随地区而变化的世界中,不可能为每个人本地化内容。传统上,这种方法是专注于英语或主流语言,同时为具有增长潜力的特定市场聘请配音艺术家。然后,艺术家用目标语言录制内容并进行分发。现在的问题是,这些人工配音与原来的内容相差甚远。另外,即使如此,也不可能扩展内容以进行广泛分发——尤其是当制作团队不是那么大的时候。
来自波兰的前 Google机器学习工程师 Piotr Dabkowski 和前 Palantir 部署策略师 Mati Staniszewski 在观看配音不佳的电影时亲眼目睹了这个问题。这一挑战激励他们成立了 ElevenLabs,这家公司的使命是借助人工智能的力量,以任何语言和声音让所有内容都能被普遍访问。
ElevenLabs 于 2022 年首次亮相,此后一直在一点点成长。在初始阶段,它通过合成自然的人工智能英语语音的文本转语音模型引起了轰动。然后,该模型扩展到11 Multilingual v1 和 v2,引入了对更多语言合成的支持,包括波兰语、德语、西班牙语、法语、意大利语、葡萄牙语和印地语。同时,该公司还开发了一个语音实验室,用户可以在其中克隆自己的声音或生成全新的合成声音(通过随机采样声音参数)以与合成工具一起使用。这使他们能够将自己选择的文本(例如播客的脚本)转换为他们喜欢的语音和语言的音频内容。
“ElevenLabs 的技术结合了上下文感知和高压缩来提供超真实的语音。该公司的专有模型不是一个接一个地生成句子,而是为了理解单词关系并根据更广泛的上下文调整传递方式。它也没有硬编码功能,这意味着它可以在生成语音时动态预测数千种语音特征。”Staniszewski 告诉 VentureBeat。
一百万用户并且还在增加
在推出测试版工具后的几个月内,ElevenLabs 获得了巨大的关注,已有超过一百万用户加入。该公司还基于人工智能语音研究,推出了AI Dubbing,这是一种语音到语音转换工具,允许用户将音频和视频翻译成 29 种不同的语言,同时保留原始说话者的声音和情感。截至目前,其客户中有41%的财富500强企业。其中还包括著名的内容出版商,例如 Storytel、华盛顿邮报和 TheSoul Publishing
“我们不断建立新的 B2B 合作伙伴关系,迄今为止已建立了 100 多个合作伙伴关系。人工智能声音具有广泛的适用性——从帮助创作者增强观众体验,到扩大教育机会,以及在出版、娱乐和无障碍方面提供创新解决方案,”斯坦尼斯谢夫斯基指出。
现在,随着用户群的不断增长,ElevenLabs 也在寻求产品方面的创新,为用户提供最好的功能集。这就是新的 Dubbing Studio 工作流程的用武之地。
该工作流程建立在人工智能配音产品的基础上,为专业用户提供了一套专用工具,不仅可以用他们选择的语言配音整部电影,还可以生成和编辑他们的文字记录、翻译和时间码,从而对制作进行额外的实际控制。它支持 29 种语言,例如 AI Dubbing,但错过了对内容本地化至关重要的一个关键要素:口型同步。
这意味着,如果使用该工具对电影进行本地化,它只会以目标语言配音 – 视频中的嘴唇动作将保持原样。Staniszewski 证实,该公司目前专注于提供最佳音频体验,但希望将来增加此功能。
销售人工智能语音的市场以及未来的更多内容
除了 Dubbing Studio 之外,ElevenLabs 还推出了一款可将文本或 URL 转换为音频的辅助应用程序,以及一个语音库或一个市场,使用户能够出售他们的人工智能克隆语音以换取金钱。该公司允许用户灵活地定义人工智能生成的语音的可用性和补偿条款,但指出共享语音将是一个涉及不同验证层的多步骤过程。此举将为用户提供更广泛的语音模型,同时为这些语音模型的创建者提供赚钱的机会。
“在分享语音之前,用户必须通过语音验证码,在特定时间范围内阅读文字提示,以确认自己的语音与训练样本匹配。这与我们团队的审核和手动批准一起,确保了真实的、经过用户验证的声音可以被共享和货币化。”创始人兼首席执行官说道。
随着这些功能预计在未来几周内全面上市,ElevenLabs 希望吸引更多来自不同细分市场的客户。该公司表示,计划利用这笔资金(融资总额达到 1.01 亿美元)推进人工智能语音研究、扩大基础设施并开发新的垂直产品,同时建立强大的安全控制措施,包括可以识别人工智能音频的分类。
“未来几年,我们的目标是打造语音人工智能研究和产品部署全球领导者的地位。我们还计划开发针对专业用户和用例的日益先进的工具,”Staniszewski 说。
AI 驱动的语音和语音生成领域的其他参与者包括MURF.AI、Play.ht和WellSaid Labs。据Market US统计,2022 年此类工具的全球市场规模为 12 亿美元,预计 2032 年将达到近 50 亿美元,复合年增长率略高于 15.40%。