阿里巴巴CosyVoice2.0升级发布，语音生成技术重大突破，响应速度提升

阿里巴巴旗下通义实验室语音团队近日宣布，开源语音生成模型CosyVoice升级至2.0版本，此次升级在准确性、稳定性和自然度方面取得重大突破。采用了一体化离线与流式建模技术的CosyVoice2.0，实现了高效的双向流式语音合成，首包合成延迟仅需150ms，大幅提高了语音合成的即时响应性。

微信截图_20241216105354.png

在发音准确度上，CosyVoice2.0较上一版本在错误率上降低了30%至50%，在Seed-TTS测试集的hard测试中创下了最低的字错误率纪录，尤其在处理绕口令、多音字和生僻字方面表现卓越。此外，2.0版本在零样本语音生成和跨语言语音合成方面，均保持了音色的统一性，特别是跨语言语音合成能力相比1.0版本有了显著增强。

CosyVoice2.0在音频合成韵律、音质和情感匹配方面也有所提升，MOS评测分数从5.4增至5.53，接近商业级语音合成大模型的水平。2.0版本还增加了更多细致的情感控制和方言口音控制，为用户提供了丰富的语言选项，包括粤语、四川话、郑州话、天津话和长沙话等主流方言，以及角色扮演功能，如模仿机器人、小猪佩奇等风格的讲话。

CosyVoice2.0的升级，不仅优化了语音合成技术，提升了用户体验，还进一步推动了开源社区的进步，激励更多开发者投身于语音处理技术的创新与应用。

GitHub仓库:访问CosyVoice（https://github.com/FunAudioLLM/CosyVoice）以获取最新的CosyVoice2更新
在线体验DEMO:https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B
开源代码:https://github.com/FunAudioLLM/CosyVoice
开源模型:https://www.modelscope.cn/models/iic/CosyVoice2-0.5B

阿里巴巴CosyVoice2.0升级发布，语音生成技术重大突破，响应速度提升

埃菲尔铁塔137年传奇，3i智能净地站创新共鸣，科技与艺术的完美融合

海辰储能新品发布：∞Power大容量储能系统震撼亮相，引领能源自由新潮流

暂无评论

发表评论取消回复

埃菲尔铁塔137年传奇，3i智能净地站创新共鸣，科技与艺术的完美融合

海辰储能新品发布：∞Power大容量储能系统震撼亮相，引领能源自由新潮流

相关推荐

暂无评论

发表评论 取消回复

搜索

阿里巴巴CosyVoice2.0升级发布，语音生成技术重大突破，响应速度提升

发表评论取消回复