Kokoro语音合成模型：8200万参数，TTS领域新里程碑

随着人工智能技术的迅猛发展，语音合成技术越来越受到业界关注。最近，一款名为Kokoro的最新语音合成模型在Hugging Face平台正式发布，该模型拥有8200万个参数，为语音合成领域的发展树立了新的里程碑。

Kokoro v0.19在发布前几周，在TTS（文本转语音）领域排行榜上位居首位，其表现甚至超越了参数量更多的其他模型。在单声道设置下，该模型仅用了不到100小时的音频数据，就能达到与467M参数的XTTS v2和1.2B参数的MetaVoice等模型相当的效果。这一成就揭示了传统语音合成模型性能与参数、计算量以及数据量之间的关联可能比以往预期更为密切。

对于用户来说，仅需在Google Colab中运行几行代码，即可轻松加载模型和语音包，生成高质量音频。目前，Kokoro支持美国英语和英国英语，并提供多种语音包供用户选择。

Kokoro的训练过程利用了Vast.ai的A10080GB vRAM实例，租用成本较低，保证了高效训练。整个模型的训练仅用了不到20个训练周期和不到100小时的音频数据。在训练过程中，Kokoro模型采用了公有领域的音频数据以及其他开放许可证的音频，确保了数据的合规性。

尽管Kokoro在语音合成领域表现出色，但由于训练数据和架构的限制，目前尚不支持声音克隆，且主要训练数据集中在长篇朗读和叙述，而非对话。

模型：https://huggingface.co/hexgrad/Kokoro-82M

体验：https://huggingface.co/spaces/hexgrad/Kokoro-TTS

划重点：

🌟 Kokoro-82M是一款新发布的语音合成模型，具有8200万参数，支持多种语音包。

🎤该模型在TTS领域表现卓越，曾在排行榜上排名第一，仅用不到100小时的音频数据进行训练。

📊Kokoro模型的训练采用了开放许可证的数据，确保合规性，但目前仍存在一些功能限制。

Kokoro语音合成模型：8200万参数，TTS领域新里程碑

苹果上海新公司成立，聚焦AI业务布局

拜登总统签署AI能源基建行政命令

暂无评论

发表评论取消回复

苹果上海新公司成立，聚焦AI业务布局

拜登总统签署AI能源基建行政命令

相关推荐

暂无评论

发表评论 取消回复

搜索

Kokoro语音合成模型：8200万参数，TTS领域新里程碑

发表评论取消回复