英伟达推出Fugatto：AI音频模型一键生成音乐与音效

在音乐与声音创作领域，技术与创意的融合始终面临众多挑战。现有的人工智能模型常常只擅长特定任务，缺乏广泛的适应性，这限制了 AI 在音乐制作中的辅助能力。为了使 AI 更好地服务于音乐和音频制作，我们迫切需要一款能够灵活应对不同创作需求的通用模型。为此，NVIDIA 发布了 Fugatto，一款拥有25亿参数的音频生成与处理模型。

Fugatto 的设计旨在通过结合文本提示与先进的音频合成能力，提供高度灵活的声音输入和创作实验空间。例如，它能够将钢琴旋律转换为人声演唱，或者让小号演奏出意想不到的音色。

Fugatto 除了支持文本输入之外，还支持可选的音频输入，突破了传统音频生成模型的界限，使艺术家和开发者能够实时创作与修改，从而流畅地生成新型声音。

在技术层面，Fugatto 采用了一种创新的数据生成方法，超越了传统的监督学习。其训练不仅依赖于常规数据集，还结合了专门生成的数据集，从而形成丰富多样的音频与转换任务。此外，Fugatto 利用大语言模型（LLM）增强指令生成能力，更好地理解音频与文本提示之间的关系。

一个重要的创新是“可组合音频表示变换”（ComposableART），它是在推理时采用的一种技术，能够灵活地结合、插值或否定不同的音频生成指令。ComposableART 使得用户在音频合成过程中享有更大的控制力，能够精确导航 Fugatto 的声音调色盘，创造出独特的声音效果。

Fugatto 的架构基于增强型 Transformer 模型，结合自适应层归一化等特定修改，能够在多种输入条件下保持一致性，并支持复杂的组合指令。初步测试显示，Fugatto 在常见基准测试中表现优异，特别是在声音合成和转换方面，相较于其他专业模型展现出更强的能力。

Fugatto 的发布标志着音频生成 AI 的一次重要进步，突破了传统的局限，为创意音频制作提供了强大而灵活的工具。它在音乐、游戏、娱乐和教育等多个领域的潜在应用，表明 AI 技术将在辅助人类创造力方面继续发挥关键作用。

官方博客: NVIDIA 博客

论文: Fugatto 论文

划重点:

🎵 Fugatto 是 NVIDIA 推出的音频 AI 模型，具有25亿个参数，支持文本和音频输入，助力音乐与声音创作。

💻 采用创新的数据生成方法和可组合音频表示变换技术，使得用户能够灵活生成和修改声音。

🌟 初步测试结果表明，Fugatto 在音频合成与变换方面的表现超过多种专业模型，展现了强大的创意潜力。

英伟达推出Fugatto：AI音频模型一键生成音乐与音效

三星计划将ChatGPT整合进Galaxy AI，挑战谷歌Gemini的市场地位

IMAX运用AI翻译技术，实现多语言电影体验！

暂无评论

发表评论取消回复

三星计划将ChatGPT整合进Galaxy AI，挑战谷歌Gemini的市场地位

IMAX运用AI翻译技术，实现多语言电影体验！

相关推荐

暂无评论

发表评论 取消回复

搜索

英伟达推出Fugatto：AI音频模型一键生成音乐与音效

发表评论取消回复