Meta推出SPIRIT LM：音频大模型让AI沟通更“声情并茂”！

Meta AI近期重磅推出了名为SPIRIT LM的基础多模态语言模型，能够灵活融合文本与语音，为音频和文本的多模态任务开辟了新的可能性。

SPIRIT LM基于一个具有70亿参数的预训练文本语言模型，通过持续训练文本和语音单元，成功扩展到语音模态。它不仅可以理解和生成文本，像传统的大型文本模型一样，还能理解和生成语音，并且能够将文本与语音结合，创造出多种令人惊叹的效果。例如，用户可以利用它进行语音识别，将语音转换为文字；也可以进行语音合成，把文字转换为语音；更可以执行语音分类，识别一段语音所传达的情感。

更为惊人的是，SPIRIT LM特别擅长“情感表达”。它能够识别和生成多种语调和风格的语音，使得AI的声音听起来更自然，更具情感色彩。想象一下，SPIRIT LM生成的语音不再是冰冷的机械音，而是如同真人般，充满了各种情绪的表现!

为了让AI更加“声情并茂”，Meta的研究人员专门开发了两个版本的SPIRIT LM：

“基础版”（BASE）：专注于语音的音素信息，即语音的基本构成。

“表达版”（EXPRESSIVE）：除了包含音素信息外，还融入了音调和风格信息，让AI的声音更加生动和富有表现力。

那么，SPIRIT LM是如何实现这些功能的呢?

简而言之，SPIRIT LM的基础是Meta之前发布的强大文本模型LLAMA2。研究人员将大量文本与语音数据输入LLAMA2，并采用特别的“交错训练”方法，使LLAMA2能够同时学习文本与语音的规律。

为了评估SPIRIT LM的“情感表达”能力，Meta的研究团队设计了一个新的测试基准——“语音-文本情感保留基准”（STSP）。该基准包含表达不同情感的语音和文本提示，用于验证AI模型是否能够准确识别和生成相应情感的语音和文本。测试结果显示，SPIRIT LM的“表达版”在情感保留方面表现优异，是目前首个能够跨模态保留情感信息的AI模型!

当然，Meta的研究人员也坦诚道，SPIRIT LM仍有许多需改进之处。例如，当前只支持英语，未来需要扩展至其他语言；另外，SPIRIT LM的模型规模尚且不够，未来仍需扩大模型规模，以提高性能。

SPIRIT LM标志着Meta在AI领域的一次重大进展，为我们打开了进入“声情并茂”AI世界的大门。相信不久的将来，我们将看到更多基于SPIRIT LM开发的有趣应用，使AI不仅能够沟通交流，还能够像人类一样，表达情感，进行更自然、更亲密的互动!

项目地址：https://speechbot.github.io/spiritlm/

论文地址：https://arxiv.org/pdf/2402.05755

Meta推出SPIRIT LM：音频大模型让AI沟通更“声情并茂”！

英伟达 CEO 对谷歌 NotebookLM AI 工具的痴迷与看法

三星发布全新Gauss 2 AI模型：将成未来Galaxy智能核心

暂无评论

发表评论取消回复

英伟达 CEO 对谷歌 NotebookLM AI 工具的痴迷与看法

三星发布全新Gauss 2 AI模型：将成未来Galaxy智能核心

相关推荐

暂无评论

发表评论 取消回复

搜索

Meta推出SPIRIT LM：音频大模型让AI沟通更“声情并茂”！

发表评论取消回复