首页 >> 甄选问答 >

GoogleDeepMind的新AI可以为视频生成音频工作原理如下

2024-06-20 11:15:06

问题描述：

GoogleDeepMind的新AI可以为视频生成音频工作原理如下，急！求解答，求此刻有回应！

GoogleDeepMind正在开发视频转音频(V2A)技术。该技术将视频像素与自然语言文本提示相结合，为屏幕动作生成“丰富的音景”。V2A可以为任何视频输入生成无限数量的音轨。

视频生成模型正在快速发展，但目前许多系统只能生成无声视频。即将到来的一项重大进步是为这些无声电影制作配乐。GoogleDeepMind正在开发视频转音频(V2A)技术，实现同步视听生成，让生成的电影栩栩如生。

我们来看一下详细情况。

该公司表示，V2A技术将视频像素与自然语言文本提示相结合，为“屏幕动作生成丰富的音景”。

该技术可与Veo等视频生成模型配对，以创建具有戏剧性配乐、逼真音效或与视频人物和基调相匹配的对话的镜头。

V2A鼓

它还可以为一系列传统镜头生成配乐，包括档案材料、无声电影等，从而开辟更广泛的创作机会。

值得注意的是，V2A可以为任何视频输入生成无限数量的音轨。

该公司表示：“我们尝试了自回归和扩散方法来发现最具可扩展性的人工智能架构，基于扩散的音频生成方法为同步视频和音频信息提供了最真实、最引人注目的结果。”

V2A系统首先将视频输入编码为压缩表示。然后，扩散模型在视觉输入和自然语言提示的指导下，迭代地从随机噪声中提炼音频。此过程生成与提示紧密一致的同步、逼真的音频。最后，音频输出被解码，转换为音频波形，并与视频数据相结合。

　　免责声明：本答案或内容为用户上传，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如遇侵权请及时联系本站删除。