导读 GoogleDeepMind正在开发视频转音频(V2A)技术。该技术将视频像素与自然语言文本提示相结合,为屏幕动作生成丰富的音景。V2A可以为任何视频输...
GoogleDeepMind正在开发视频转音频(V2A)技术。该技术将视频像素与自然语言文本提示相结合,为屏幕动作生成“丰富的音景”。V2A可以为任何视频输入生成无限数量的音轨。
视频生成模型正在快速发展,但目前许多系统只能生成无声视频。即将到来的一项重大进步是为这些无声电影制作配乐。GoogleDeepMind正在开发视频转音频(V2A)技术,实现同步视听生成,让生成的电影栩栩如生。
我们来看一下详细情况。
该公司表示,V2A技术将视频像素与自然语言文本提示相结合,为“屏幕动作生成丰富的音景”。
该技术可与Veo等视频生成模型配对,以创建具有戏剧性配乐、逼真音效或与视频人物和基调相匹配的对话的镜头。
V2A鼓
它还可以为一系列传统镜头生成配乐,包括档案材料、无声电影等,从而开辟更广泛的创作机会。
值得注意的是,V2A可以为任何视频输入生成无限数量的音轨。
该公司表示:“我们尝试了自回归和扩散方法来发现最具可扩展性的人工智能架构,基于扩散的音频生成方法为同步视频和音频信息提供了最真实、最引人注目的结果。”
V2A系统首先将视频输入编码为压缩表示。然后,扩散模型在视觉输入和自然语言提示的指导下,迭代地从随机噪声中提炼音频。此过程生成与提示紧密一致的同步、逼真的音频。最后,音频输出被解码,转换为音频波形,并与视频数据相结合。