阿里巴巴旗下通义实验室语音团队近日宣布,开源语音生成模型CosyVoice升级至2.0版本,此次升级在准确性、稳定性和自然度方面取得重大突破。采用了一体化离线与流式建模技术的CosyVoice2.0,实现了高效的双向流式语音合成,首包合成延迟仅需150ms,大幅提高了语音合成的即时响应性。

微信截图_20241216105354.png

在发音准确度上,CosyVoice2.0较上一版本在错误率上降低了30%至50%,在Seed-TTS测试集的hard测试中创下了最低的字错误率纪录,尤其在处理绕口令、多音字和生僻字方面表现卓越。此外,2.0版本在零样本语音生成和跨语言语音合成方面,均保持了音色的统一性,特别是跨语言语音合成能力相比1.0版本有了显著增强。

CosyVoice2.0在音频合成韵律、音质和情感匹配方面也有所提升,MOS评测分数从5.4增至5.53,接近商业级语音合成大模型的水平。2.0版本还增加了更多细致的情感控制和方言口音控制,为用户提供了丰富的语言选项,包括粤语、四川话、郑州话、天津话和长沙话等主流方言,以及角色扮演功能,如模仿机器人、小猪佩奇等风格的讲话。

CosyVoice2.0的升级,不仅优化了语音合成技术,提升了用户体验,还进一步推动了开源社区的进步,激励更多开发者投身于语音处理技术的创新与应用。

  • GitHub仓库:访问CosyVoice(https://github.com/FunAudioLLM/CosyVoice)以获取最新的CosyVoice2更新

  • 在线体验DEMO:https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B

  • 开源代码:https://github.com/FunAudioLLM/CosyVoice

  • 开源模型:https://www.modelscope.cn/models/iic/CosyVoice2-0.5B