国内长期缺乏优质的内容配音产品,要么依赖API,要么产品本身不错但声音模型不够理想。
以ElevenLabs为例,虽然其英语表现尚可,但中文表现则明显不足。开源模型的主要问题在于质量相对较差,具体表现为音质差,有明显的电流感,在多语言混合场景和多音多意字的准确表达上存在困难。
MiniMax近日推出的海螺AI国际版,一个月前上线了秒级语音克隆功能,中英文朗读效果出色。近期在国内页面上线了语音生成功能,体验后令人惊喜,支持超过17种语言的配音,能够精准控制多种情绪表达,并拥有数百种音色库以满足不同需求。
最值得一提的是音频质量非常高,声音生成的常见问题都得到了解决,同时提供了高度自定义选项,即便使用相同音色,通过调整也能呈现出不同的效果。
接下来,让我们先欣赏一下我制作的小短片,然后从功能和效果两方面来探讨海螺语音生成能力的表现。
### 详细的功能自定义选项
海螺语音的功能强大且细致,拥有超过17种语言的庞大音色库,每种语言又支持众多音色,用户可以自由选择男女声及年龄。
用户可以通过筛选快速找到所需的任何身份和年龄背景的音色,例如,如果视频脚本需要一个年迈而有正义感的老人,就可以通过筛选快速获取。
选择音色后,还可以对音色进行详细的自定义,包括情绪、语速、音量和声调等。通过这些自定义选项,用户可以调教出非常不同的声音,即使选择的是相同的音色,也能产生有趣的效果。
此外,还可以在需要停顿的地方添加标记,以使模型在生成声音时停顿指定的时间。
### 强大的生成效果
除了丰富的音色之外,海螺的模型本体也非常强大。许多开源TTS模型存在音质问题,如电流感、失真等,而海螺在这方面表现出色。
例如,我找了一段相对较长的内容进行口播稿生成,音质非常好,停顿自然,强调时读音加重。
海螺支持长内容生成,最长可输入10000字符,足以满足长稿子和小说的生成需求。
在多语言混合场景和多音字场景下,海螺也表现出色,例如,在一段包含5种不同语言的测试文本中,海螺读得非常完美。
这是多音字的场景,海螺准确地判断了“走一行”(háng),“先行”(xíng),“银行”(háng),“行程”(xíng)这几个不同位置的读音,处理复杂的多音字语句也非常出色。
介绍就到这里,大家可以多尝试使用。以下为使用链接:
- 海螺语音:https://hailuoai.com/audio
- Hailuo
- 国内API服务:https://platform.minimaxi.com/document/T2A%20V2
去年我还常和朋友讨论国内何时能出现像ElevenLabs这样强大的配音产品,如今我们已经取得了比ElevenLabs更出色的成果。过去一年,我们在图片、视频和音频领域都推出了与一流水准相媲美的模型,期待今年国内AI厂商能给我们带来更多惊喜。
暂无评论