AI聊天机器人社交判断能力超人类，Claude、MicrosoftCopilot表现突出

根据《Scientific Reports》最新发表的研究，部分高级AI聊天机器人在处理复杂社交情境时，其表现已经超越了人类。

研究团队采用了广受欢迎的心理学测试工具——情境判断测试，结果显示，Claude、Microsoft Co pilot 和 you.com 的智能助手在选取最合适的行为反应方面，超越了参与测试的人类。

AI机器人写论文

图源备注:图片由AI生成，图片授权服务商Midjourney

在社交互动日益关键的今天，AI在诸如客户服务、心理健康支持等领域的应用潜力逐渐显现。大型语言模型（本研究中的聊天机器人）能够有效处理语言、理解语境并给出恰当回应。尽管已有研究证实这些模型在学术推理和语言任务方面的能力，但它们在复杂社交情境中的表现尚待深入研究。

研究共对276名飞行员申请者进行了测试，通过情境判断测试，展示了12个需评估的情境，每个情境提供四种可能的行为选择。比较五个AI聊天机器人的表现，发现它们在测试中的表现至少与人类持平，部分甚至更优。其中，Claude的表现最为出色，其次是Microsoft Co pilot 和 you.com 的智能助手。

值得注意的是，当AI聊天机器人未选择最佳反应时，它们通常会选取次优选项，这与人类的决策模式相似。这表明AI系统在社交判断和概率推理方面具有一定的能力，尽管并非完美。

研究还发现，不同AI系统之间的可靠性存在差异。Claude在多次测试中展现出了最高的一致性，而Google Gemini在不同测试中的评分结果可能出现矛盾。尽管如此，所有AI系统的整体表现超出了预期，显示出它们在提供社交能力建议方面的潜力。

研究人员强调，尽管聊天机器人在日常任务中已被广泛使用，但在复杂社交互动中的表现仍需进一步验证。研究表明，大型语言模型在模拟社交情境中表现出色，但它们缺乏真实的情感，这对于真实的社交行为是必不可少的。

划重点:

🌟 AI聊天机器人在复杂社交判断中展现优异，有望成为社交顾问。

🧠 研究对比了多个聊天机器人的表现，Claude、Microsoft Co pilot表现抢眼。

⚖️ AI系统在模拟情境中表现良好，但在实际社交互动中的应用还需深入研究。

AI聊天机器人社交判断能力超人类，Claude、MicrosoftCopilot表现突出

AI作弊现象蔓延教育诚信面临挑战：94%论文难识别，学校监管不力

Meta自研LlamaAI获赞，扎克伯格看好其领先地位，内部工具却用GPT-4

暂无评论

发表评论取消回复

AI作弊现象蔓延教育诚信面临挑战：94%论文难识别，学校监管不力

Meta自研LlamaAI获赞，扎克伯格看好其领先地位，内部工具却用GPT-4

相关推荐

暂无评论

发表评论 取消回复

搜索

AI聊天机器人社交判断能力超人类，Claude、MicrosoftCopilot表现突出

发表评论取消回复