瞬息音宇宙 Pika的AI口形同步与音效生成开放

春节后OpenAI 分享了 Sora 的视频,这是全世界所有内容创作领域影响意义的大事件,其流畅和逼真的生成式AI人工智能视频模型震惊了全世界,静默的视频让我们以为声音制作还有时间窗口,冷眼旁观没几天,AI音频领域的领先者ElevenLabs就给Sora视频用AI加上了声音,AI视频生成声音,这么秒就来了!,但它目前仍然只是一个内部模型,有人也对此表示怀疑,小编当时也认为ElevenLabs当时蹭流量的嫌疑很大。

 

就在本月中,人工智能生成式AI视频初创公司Pika,对,就是斯坦福那两位优秀的华人女生创办的AI公司,他们应用ElevenLabs TTS API技术,推出了AI口形同步(lip-Synch 唇形同步),允许用户在视频中添加人工智能语音,同时还添加匹配的动画,以确保说话角色的嘴部与对话同步应动。口型功能我们还在评估中,紧跟着没几天Pika又推出了音效生成,用户只需一个开关键,就可以通过输入文本为视频增加语音与音效。Pika说,视频可以通过音效来增强,以创建一个更加完整和身临其境的场景。

 

来看看下面的视频:

 

先前还是仅付费用户可以使用,就在上周末,Pika对所有用户开放了这两个功能,不过就在小编写这个文章时,注册又不可用了,“升级新功能警告,请注意打开声音。”不知是否还有新的功能推出。

Pika AI 视频自动生成音效。此举有望为人工智能生成的视频添加一个全新的维度,AI视频其中大多数视频都是无声的,以前需要用户通过其他音频编辑软件添加自己的声音文件。现在,有了 Pika 的新功能,就可以直接在应用程序内完成此操作并创建新的声音文件,而无需单独创作声音。

Pika 确认用户将通过两种方式得到声音效果

  • 一种方法是根据上下文生成,平台下的人工智能模型将决定哪种音频最适合根据文本提示生成的视频,用户所要做的就是在输入提示时打开“音效”开关,专有模型将完成其余的工作,并在几秒钟内提供完整的视听输出 – 以及与场景相关的声音。

  • 第二种方法是后续方法,用户可以在平台上生成或上传无音频剪辑后添加特定的人工智能生成的声音。用户必须单击“编辑”和“声音效果”(可用于修改区域和展开画布功能),然后编写完整的文本提示来描述他们想要什么样的声音添加到相关剪辑。根据提供的提示,模型将生成多个声音选项,允许用户选择并添加最适合他们需要的声音选项。

以前,用户被迫使用其他来源的音频,这给流程带来了困扰并花费了更多时间,Pika 虽然并不是唯一一个探索通过文本提示生成声音的,但它是人工智能视频领域第一个将生成的音频作为视频输出的一部分的公司。

再看这一段音效生成的官方视频:

通过生成式 AI 视频制作与口型同步和音效生成这三项主要功能,Pika创建了第一个“一体式”主要生成式 AI 视频创作平台,用户可以在其中使用 AI 完成所有操作 – 音效、配音和视觉效果 – 所有将人工智能算法集中在一处。

音频新功能对影像制作人来说是非常有吸引力的,消除了对单独的电影摄影师、摄像师、声音设计师、ADR录音师、甚至演员的需要,或者至少由单一电影制作人自己采购所有这些内容的责任对于某些项目。电影制片人不再需要去现场拍摄或通过不同的素材图像和声音数据库和程序来查找文件来拼接电影,Pika 现在可以让用户只输入文字并比以前更快地生成所有一体化影音文件,更完善直接的匹配想象。

从另一个角度,也证明了影像中声音的重要性。

下一步,该初创公司计划在这项工作的基础上推出更多功能。该公司估值近 2 亿美元,已经融资了 5500 万美元资金,不仅与 OpenAI 竞争,还与创意 AI 领域其他资金雄厚的参与者展开竞争,包括 Adobe、Runwa、Stability AI 和最近推出的 Haiper。

如此发展迅猛的发展,你怎么想?欢迎文末留言!

 

更多内容欢迎访问我们的AI技术频道,https://www.locationsound.cn/aiaudio