随着语音助手在我们日常生活中的普及,现有的数字语音助手在与用户互动时,往往显得缺乏个性和情感。为解决这一问题,Sesame 团队正致力于打造全新的“语音存在”概念,让数字助手在交流中更加真实、易被理解和重视。

QQ_1740965796294.png

Sesame 的核心愿景是打造一种数字伴侣,它不仅仅是一个处理请求的工具,更是一个能进行真实对话的伙伴。这些数字伴侣通过与用户的互动,逐步建立起信任感和自信心,使用户在日常生活中体验到更为丰富和深刻的交流。为此,Sesame 团队聚焦于情感智能、对话动态、上下文意识和一致的人格特征等关键组成部分。

情感智能使语音助手能够理解和回应用户的情感状态,而不仅仅是处理语音命令。它能够感知语音中的情感变化,从而提供更合适的反馈。对话动态则强调语音助手在交流过程中应具备的自然节奏,包括适时的停顿、恰当的语气强调和打断等,使对话更加流畅自然。

上下文意识同样重要,它要求语音助手根据对话的背景和历史,灵活调整语调和风格,以适应当前的情境。这种能力使得数字助手在不同场合下都能显得得体,从而提升用户满意度。最后,一致的人格特征意味着语音助手在各类对话中都应保持相对一致的个性和风格,以增强用户的信任感。

然而,实现“语音存在”的目标并非易事。Sesame 团队在个性、记忆、表现力和适当性等方面不断努力,近期在对话语音生成方面的实验成果显示了其方法的潜力。特别是在友好性和表现力上进行了优化,其生成的作品几乎听不出AI的痕迹,极具真实感。

Sesame 团队计划开源其研究成果,以便社区参与实验和改进。这一举措将有助于加速对话AI的发展,并扩展模型规模和语言支持,涵盖更多应用场景。此外,团队还计划探讨如何利用预训练语言模型,为多模态模型的构建打下基础。

项目demo: https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice

划重点:

🌟 Sesame 团队致力于实现“语音存在”,让数字助手不仅能执行命令,还能进行真实对话。

🔧 通过“对话语音模型”(CSM),团队在上下文理解和语音生成方面取得了新突破。

🌐 团队计划开源研究成果,并扩展语言支持,以推动对话AI的进一步发展。