人工智能领域正迎来文本音频生成技术的蓬勃发展。近期,研究者们推出了一款名为 TANGOFLUX 的新型模型,该模型在性能与效率方面均表现出色。
TANGOFLUX 是一种高效的文本转音频生成模型,拥有515百万个参数,能够在短短3.7秒内生成最长30秒的44.1kHz音频,其速度在单个A40GPU上的表现尤为出色。
TANGOFLUX 的主要特色在于能够生成多种音效,如鸟鸣、口哨、爆炸声等,虽然音乐生成效果尚不理想。
文本音频生成模型面临的主要挑战是如何创建偏好配对。与大型语言模型(LLMs)不同,文本音频生成模型缺乏可验证的奖励机制或金标准答案。为此,研究团队提出了一种名为 CLAP-Ranked Preference Optimization(CRPO)的新框架,通过迭代生成和优化偏好数据,提升模型的对齐性能。研究发现,使用 CRPO 生成的音频偏好数据在性能上优于现有方案。
基于此框架,TANGOFLUX 在多项客观和主观基准测试中均表现出领先水平。此外,研究团队还决定开源所有代码和模型,以促进更多人对文本音频生成的研究。TANGOFLUX 对于需要音频生成的应用场景具有重要意义。
在实际效果上,TANGOFLUX 在音频生成质量上优于其他模型,展现出更清晰的事件声音、更好的事件顺序再现以及更高的音频质量。通过比较多个示例,用户可以直观感受到 TANGOFLUX 在音频生成中的优势。
提示词:人类悠扬的口哨声与自然鸟鸣和谐共存,生成的效果如下:
随着这一新技术的问世,文本到音频生成的应用前景愈发广阔,未来有望在影视制作、游戏音效等领域发挥重要作用。
项目入口:https://tangoflux.github.io/
划重点:
🎧 TANGOFLUX 是一款高效的文本音频生成模型,能够在3.7秒内生成30秒的高质量音频。
🔧 提出了 CLAP-Ranked Preference Optimization(CRPO)框架,以优化模型性能和音频偏好数据。
🌍 所有代码和模型已开源,旨在推动文本音频生成的研究与应用。
暂无评论