ElevenLabsScribev1语音转文本,多语言高精度转录

ElevenLabs,一家备受关注的人工智能语音克隆与生成领域的初创企业,最近发布了其最新研发的语音转文本模型——Scribe v1。此模型宣称在多种语言转换文本的准确性上达到了前所未有的高度,用户可以访问其官方网站体验这一技术。

在ElevenLabs的基准测试中,Scribe在将口语准确转换为文本方面,超过了谷歌的Gemini2.0Flash、OpenAI的Whisper v3和Deepgram Nova-3,错误率极低。ElevenLabs强调,Scribe支持99种语言的转录,包括以往较少关注的塞尔维亚语、粤语和马拉雅拉姆语。

ElevenLabs的首席研究员Flavio Schneider在社交平台X上评价Scribe是公司迄今为止发布的“最智能的音频理解模型”。他指出,Scribe不仅是一个转录工具,还能理解音频内容,并能检测非语言事件(如笑声、音效、音乐和背景噪音),在复杂环境下分析长时间的音频内容,并能准确区分说话者。特别值得一提的是,Scribe能在同一音频文件中识别并隔离多达32位不同的说话者。

ElevenLabs还提醒用户,Scribe“最适合需要高精度转录的场合,而非实时转录”。公司还计划推出低延迟版本,以扩大其在实时应用中的使用。

根据FLEURS和Common Voice的基准结果,Scribe在处理现实世界音频挑战方面表现出色,尤其在意大利语(准确率98.7%)和英语(准确率96.7%)的单词错误率方面达到了最低。

Scribe现已通过ElevenLabs官网和API提供使用,定价为每小时输入音频0.40美元,未来六周还将享受50%的折扣。此外,针对实时应用的低延迟版本也在开发中。

对于企业决策者来说,Scribe为高精度转录提供了一种可扩展的工具,适用于需要自动化文档、会议转录和内容可及性的行业。该模型对多种语言的高精度处理也将惠及跨国公司、媒体公司和客户支持应用。

值得一提的是,Scribe的发布与竞争对手Hume的文本转语音模型Octave的发布同日进行。Octave是一种基于大型语言模型的文本转语音工具,用户可以根据情感需求自定义AI生成的声音,旨在用于内容创作,如有声书、播客和视频游戏配音。尽管Scribe和Octave的功能不同,但二者的发布反映了AI驱动音频模型日益激烈的竞争。

产品入口: https://elevenlabs.io/blog/meet-scribe

🌟 Scribe v1是ElevenLabs最新推出的语音转文本模型,在多语言转换文本的准确率上创下新高。
🗣️ 支持99种语言,能够区分多达32位不同的说话者,适应复杂音频环境。
💰 当前定价为每小时0.40美元,未来六周享受50%折扣,低延迟版本正在开发中。

相关推荐

"ElevenLabs推出GenFM新功能:AI全新多声道播客生成工具,挑战NotebookLM"

ElevenLabs推出了新功能GenFM,用户可上传不同内容生成多声道播客,支持32种语言。该功能从YouTube视频或文档中自动选择两种声音,并添加人性化元素如停顿和填充词,以增强自然对话体验。移动增长负责人Jack McDermott表示,他们旨在平衡自然对话与内容实用性。未来,ElevenLabs计划增加自定义选项并在波兰和印度扩展业务,助力AI人才引进。

暂无评论

发表评论