2025年1月20日,豆包App正式推出了其最新版的“端到端”语音大模型,并对实时语音通话功能进行了重大升级。这一突破标志着豆包在语音交互领域的又一重大进步,超越了之前的ASR(自动语音识别)、LLM(大语言模型)和TTS(文生音频)的级联技术,实现了语音识别、理解和生成的整合。

根据《智能涌现》的评测,新版豆包的最大亮点是其具备类似人类的表达能力和情感输出,大幅提升了对话的流畅度和智能水平。特别是“灵魂歌手”和“百变大咖”模式,使豆包不仅能唱歌,还能进行丰富的角色扮演,成为用户互动的新选择。比如,当用户要求豆包模仿明星虞书欣的声音时,豆包不仅成功模仿了角色的语气,还巧妙地展现了自己的个性。

1.jpg

值得一提的是,豆包能在自然对话中即兴创作歌曲,无需复杂的指令或专业的提示。用户可以随意要求豆包唱歌,甚至可以指定歌词主题。尽管豆包偶尔会出现小失误,但其反应速度和即兴创作能力令人印象深刻,展现了其强大的拟人化能力。

此外,豆包新增的“受气小包”和“夸夸大师”两种人格模式也为用户带来了新鲜感。这些模式让豆包在不同情境下展现出不同的情绪和风格,从而增强了互动的趣味性和真实感。

随着语音交互技术的不断发展,豆包的这一更新不仅将AI的应用场景扩展到情感陪伴、心理咨询等领域,还使AI的情感交流能力更接近人类。这一转变无疑将为豆包在竞争激烈的市场中赢得一席之地,并引领AI交互的未来发展。