近期,豆包公司发布了全新实时语音大模型,该模型在中文对话能力上实现了重大突破,被誉为“断崖式领先”,标志着人工智能对话能力的显著进步。此模型已在豆包App(版本7.2.0新春版)全面开放,为用户带来了更加丰富和真实的语音交流体验。
据悉,豆包的实时语音大模型实现了语音理解和生成的深度结合,构建了完整的语音对话系统。这一技术突破使得模型在语音表现力、控制力及情感把握上表现出色,具备低延迟和可随时中断对话的功能,极大提升了用户互动体验。官方强调,该技术不仅在智商上有所提升,情商也得到提升,能更深入地理解和表达情感。
此次更新还引入了实时语音通话功能,该功能基于豆包最新的大模型,能够根据不同场景灵活调整对话节奏、儿化音、音量和气音等细节。此外,新的语音功能还能模仿多种声线,支持多种方言和英语对话,甚至具备演唱部分歌曲的能力。这些功能使人与机器的对话真实感提升至新高度,几乎达到“人机难辨”的境界。
豆包研发团队表示,这项全新技术基于端到端框架,通过原生方法深度整合语音与文本模式,进行统一建模。这种设计不仅优化了语音识别和生成的流程,还为AI赋予了更加丰富的“灵魂”,使其能够更有效地与人类沟通。
豆包推出的实时语音大模型在中文语音对话领域的应用,将为用户带来前所未有的交互体验,进一步推动智能语音技术的发展。
暂无评论