根据《Scientific Reports》最新发表的研究,部分高级AI聊天机器人在处理复杂社交情境时,其表现已经超越了人类。
研究团队采用了广受欢迎的心理学测试工具——情境判断测试,结果显示,Claude、Microsoft Co pilot 和 you.com 的智能助手在选取最合适的行为反应方面,超越了参与测试的人类。
图源备注:图片由AI生成,图片授权服务商Midjourney
在社交互动日益关键的今天,AI在诸如客户服务、心理健康支持等领域的应用潜力逐渐显现。大型语言模型(本研究中的聊天机器人)能够有效处理语言、理解语境并给出恰当回应。尽管已有研究证实这些模型在学术推理和语言任务方面的能力,但它们在复杂社交情境中的表现尚待深入研究。
研究共对276名飞行员申请者进行了测试,通过情境判断测试,展示了12个需评估的情境,每个情境提供四种可能的行为选择。比较五个AI聊天机器人的表现,发现它们在测试中的表现至少与人类持平,部分甚至更优。其中,Claude的表现最为出色,其次是Microsoft Co pilot 和 you.com 的智能助手。
值得注意的是,当AI聊天机器人未选择最佳反应时,它们通常会选取次优选项,这与人类的决策模式相似。这表明AI系统在社交判断和概率推理方面具有一定的能力,尽管并非完美。
研究还发现,不同AI系统之间的可靠性存在差异。Claude在多次测试中展现出了最高的一致性,而Google Gemini在不同测试中的评分结果可能出现矛盾。尽管如此,所有AI系统的整体表现超出了预期,显示出它们在提供社交能力建议方面的潜力。
研究人员强调,尽管聊天机器人在日常任务中已被广泛使用,但在复杂社交互动中的表现仍需进一步验证。研究表明,大型语言模型在模拟社交情境中表现出色,但它们缺乏真实的情感,这对于真实的社交行为是必不可少的。
划重点:
🌟 AI聊天机器人在复杂社交判断中展现优异,有望成为社交顾问。
🧠 研究对比了多个聊天机器人的表现,Claude、Microsoft Co pilot表现抢眼。
⚖️ AI系统在模拟情境中表现良好,但在实际社交互动中的应用还需深入研究。
暂无评论