AI下载站
您的位置:首页 > AI模板集市 > FoleyCrafter
FoleyCrafter

FoleyCrafter

  • 类型:AI模板集市
  • 更新:2024-12-26 13:37:22
  • 等级:
    介绍

我们研究了神经拟音,即自动生成与视频同步的高质量音效,从而实现身临其境的视听体验。尽管应用范围广泛,但现有方法在同时合成高质量和视频对齐(即语义相关和时间同步)声音时遇到了局限性。为了克服这些限制,我们提出了FoleyCrafter,这是一个新颖的框架,它利用预先训练的文本到音频模型来确保高质量的音频生成。

FoleyCrafter 由两个关键组件组成:用于语义对齐的语义适配器和用于精确音视频同步的时间控制器。语义适配器利用并行交叉注意力层来调节视频特征的音频生成,从而产生与视觉内容语义相关的逼真声音效果。同时,时间控制器集成了起始检测器和基于时间戳的适配器,以实现精确的音视频对齐。

FoleyCrafter 的一个显着优势是它与文本提示的兼容性,能够使用文本描述根据用户意图实现可控和多样化的视频到音频生成。我们在标准基准上进行了广泛的定量和定性实验,以验证FoleyCrafter的有效性。模型和代码可在 Github 上找到。

本站所有软件文章图片来源于网友上传,如果侵权请联系[AI下载站],我们24小时内撤销

Copyright©2025 2025 All rights reserved. 版权所有 AI下载站 网站地图