首页 > 综合知识 > 正文

GoogleDeepMind的新AI可以为视频生成音频工作原理如下

来源:综合知识2024-06-20 11:15:06
导读 GoogleDeepMind正在开发视频转音频(V2A)技术。该技术将视频像素与自然语言文本提示相结合,为屏幕动作生成丰富的音景。V2A可以为任何视频输...

GoogleDeepMind正在开发视频转音频(V2A)技术。该技术将视频像素与自然语言文本提示相结合,为屏幕动作生成“丰富的音景”。V2A可以为任何视频输入生成无限数量的音轨。

视频生成模型正在快速发展,但目前许多系统只能生成无声视频。即将到来的一项重大进步是为这些无声电影制作配乐。GoogleDeepMind正在开发视频转音频(V2A)技术,实现同步视听生成,让生成的电影栩栩如生。

我们来看一下详细情况。

该公司表示,V2A技术将视频像素与自然语言文本提示相结合,为“屏幕动作生成丰富的音景”。

该技术可与Veo等视频生成模型配对,以创建具有戏剧性配乐、逼真音效或与视频人物和基调相匹配的对话的镜头。

V2A鼓

它还可以为一系列传统镜头生成配乐,包括档案材料、无声电影等,从而开辟更广泛的创作机会。

值得注意的是,V2A可以为任何视频输入生成无限数量的音轨。

该公司表示:“我们尝试了自回归和扩散方法来发现最具可扩展性的人工智能架构,基于扩散的音频生成方法为同步视频和音频信息提供了最真实、最引人注目的结果。”

V2A系统首先将视频输入编码为压缩表示。然后,扩散模型在视觉输入和自然语言提示的指导下,迭代地从随机噪声中提炼音频。此过程生成与提示紧密一致的同步、逼真的音频。最后,音频输出被解码,转换为音频波形,并与视频数据相结合。

关键词:
版权声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

猜你喜欢

最新文章