B站最新推出的基于 XTTS 和 Tortoise 的 GPT 风格文本转语音(TTS)模型 IndexTTS 正式上线。该模型在处理中文文本时,拥有独特的拼音纠正汉字发音功能,并能通过标点符号精确控制停顿,使文本转语音效果更为自然流畅,受到了广泛关注。
IndexTTS 经过数万小时的数据训练,实现了行业领先的性能,超越了包括 XTTS、CosyVoice2、Fish-Speech 和 F5-TTS 等在内的流行 TTS 系统。系统多个模块得到增强,尤其在扬声器条件特征表示和音频质量优化方面进行了深度改进。通过混合建模,IndexTTS 能够快速纠正误读的汉字,提升了用户体验。
该模型采用最新的条件编码器和基于 BigVGAN2 的语音解码器,不仅提高了训练稳定性,还增强了声音音色相似性和音质。团队已在 arXiv 上提交相关论文,并计划在未来几周内发布模型参数和代码。此外,IndexTTS 还提供了多种测试集,包括多音节词汇以及主观和客观评测集,供研究者深入分析。
在多项评测中,IndexTTS 表现突出,尤其在字词错误率(WER)和扬声器相似性(SS)方面优于许多同行模型。例如,在普通话测试中,IndexTTS 的字词错误率仅为1.3%,远低于其他模型,显示出其强大的准确性和稳定性。同时,在音质评测中,IndexTTS 的 MOS 评分达到4.01,展现了其出色的音质和音色。
随着技术的不断进步和应用场景的拓展,IndexTTS 的发布标志着文本转语音技术迈向新高度。用户可联系相关团队获取更多关于该系统的信息及技术支持。
项目:https://github.com/index-tts/index-tts
划重点:
🌟 IndexTTS 是基于 XTTS 和 Tortoise 的 GPT 风格 TTS 模型,具备纠正汉字发音和控制停顿的能力。
📊 系统经过数万小时训练,性能超越多个现有流行 TTS 系统,展现行业领先水平。
🔍 IndexTTS 在多项评测中表现优异,字词错误率和音质均优于其他模型,彰显其强大优势。
暂无评论