语音生成

新闻热点 123 次浏览

Meta推出SPIRIT LM：音频大模型让AI沟通更“声情并茂”！

Meta AI最近开源了多模态语言模型SPIRIT LM，具备文本与语音的混合处理能力，开启了新的多模态任务可能性。该模型基于70亿参数的预训练文本模型，经过特定训练能同时理解和生成文本与语音，实现语音识别、合成和情感分类。SPIRIT LM有基础版和表达版，后者更具情感表现力。尽管展现出色的跨模态情感保留能力，模型目前仅支持英文，未来需扩展语言和提升规模，期待更多创新应用。

查看全文

搜索