IndexTTS：领先TTS模型，精准纠正汉字发音

B站最新推出的基于 XTTS 和 Tortoise 的 GPT 风格文本转语音（TTS）模型 IndexTTS 正式上线。该模型在处理中文文本时，拥有独特的拼音纠正汉字发音功能，并能通过标点符号精确控制停顿，使文本转语音效果更为自然流畅，受到了广泛关注。

IndexTTS 经过数万小时的数据训练，实现了行业领先的性能，超越了包括 XTTS、CosyVoice2、Fish-Speech 和 F5-TTS 等在内的流行 TTS 系统。系统多个模块得到增强，尤其在扬声器条件特征表示和音频质量优化方面进行了深度改进。通过混合建模，IndexTTS 能够快速纠正误读的汉字，提升了用户体验。

该模型采用最新的条件编码器和基于 BigVGAN2 的语音解码器，不仅提高了训练稳定性，还增强了声音音色相似性和音质。团队已在 arXiv 上提交相关论文，并计划在未来几周内发布模型参数和代码。此外，IndexTTS 还提供了多种测试集，包括多音节词汇以及主观和客观评测集，供研究者深入分析。

在多项评测中，IndexTTS 表现突出，尤其在字词错误率（WER）和扬声器相似性（SS）方面优于许多同行模型。例如，在普通话测试中，IndexTTS 的字词错误率仅为1.3%，远低于其他模型，显示出其强大的准确性和稳定性。同时，在音质评测中，IndexTTS 的 MOS 评分达到4.01，展现了其出色的音质和音色。

随着技术的不断进步和应用场景的拓展，IndexTTS 的发布标志着文本转语音技术迈向新高度。用户可联系相关团队获取更多关于该系统的信息及技术支持。

项目:https://github.com/index-tts/index-tts

划重点:

🌟 IndexTTS 是基于 XTTS 和 Tortoise 的 GPT 风格 TTS 模型，具备纠正汉字发音和控制停顿的能力。

📊 系统经过数万小时训练，性能超越多个现有流行 TTS 系统，展现行业领先水平。

🔍 IndexTTS 在多项评测中表现优异，字词错误率和音质均优于其他模型，彰显其强大优势。

IndexTTS：领先TTS模型，精准纠正汉字发音

AdobePhotoshopiOS版发布：免费功能丰富，跨设备协作新体验

中国牵头养老机器人国际标准发布

暂无评论

发表评论取消回复

AdobePhotoshopiOS版发布：免费功能丰富，跨设备协作新体验

中国牵头养老机器人国际标准发布

相关推荐

暂无评论

发表评论 取消回复

搜索

IndexTTS：领先TTS模型，精准纠正汉字发音

发表评论取消回复