当前标签

语音生成

Meta推出SPIRIT LM:音频大模型让AI沟通更“声情并茂”!

Meta AI最近开源了多模态语言模型SPIRIT LM,具备文本与语音的混合处理能力,开启了新的多模态任务可能性。该模型基于70亿参数的预训练文本模型,经过特定训练能同时理解和生成文本与语音,实现语音识别、合成和情感分类。SPIRIT LM有基础版和表达版,后者更具情感表现力。尽管展现出色的跨模态情感保留能力,模型目前仅支持英文,未来需扩展语言和提升规模,期待更多创新应用。

查看全文