随着人工智能技术的迅猛发展,语音合成技术越来越受到业界关注。最近,一款名为Kokoro的最新语音合成模型在Hugging Face平台正式发布,该模型拥有8200万个参数,为语音合成领域的发展树立了新的里程碑。
Kokoro v0.19在发布前几周,在TTS(文本转语音)领域排行榜上位居首位,其表现甚至超越了参数量更多的其他模型。在单声道设置下,该模型仅用了不到100小时的音频数据,就能达到与467M参数的XTTS v2和1.2B参数的MetaVoice等模型相当的效果。这一成就揭示了传统语音合成模型性能与参数、计算量以及数据量之间的关联可能比以往预期更为密切。
对于用户来说,仅需在Google Colab中运行几行代码,即可轻松加载模型和语音包,生成高质量音频。目前,Kokoro支持美国英语和英国英语,并提供多种语音包供用户选择。
Kokoro的训练过程利用了Vast.ai的A10080GB vRAM实例,租用成本较低,保证了高效训练。整个模型的训练仅用了不到20个训练周期和不到100小时的音频数据。在训练过程中,Kokoro模型采用了公有领域的音频数据以及其他开放许可证的音频,确保了数据的合规性。
尽管Kokoro在语音合成领域表现出色,但由于训练数据和架构的限制,目前尚不支持声音克隆,且主要训练数据集中在长篇朗读和叙述,而非对话。
模型:https://huggingface.co/hexgrad/Kokoro-82M
体验:https://huggingface.co/spaces/hexgrad/Kokoro-TTS
划重点:
🌟 Kokoro-82M是一款新发布的语音合成模型,具有8200万参数,支持多种语音包。
🎤该模型在TTS领域表现卓越,曾在排行榜上排名第一,仅用不到100小时的音频数据进行训练。
📊Kokoro模型的训练采用了开放许可证的数据,确保合规性,但目前仍存在一些功能限制。
暂无评论