近期,奥地利复杂科学研究所(CSH)领导的研究表明,尽管大型语言模型(LLMs)在许多任务上表现出色,但在处理复杂历史问题方面却显露出不足。该研究针对包括OpenAI的GPT-4、Meta的Llama以及谷歌的Gemini在内的三大顶尖模型进行了测试,结果令人沮丧。
图源备注:本图由AI合成,授权来自Midjourney
为评估模型在历史知识领域的表现,研究者们设计了一种名为“Hist-LLM”的基准测试工具。该工具基于Seshat全球历史数据库,目的是测试AI对历史问题的回答准确性。NeurIPS人工智能会议发布了研究结果,结果显示GPT-4Turbo的最佳准确率仅为46%,这意味着其表现略好于随机猜测。
伦敦大学学院计算机科学副教授Maria del Rio-Chanona指出:“大型语言模型虽然给人留下深刻印象,但在复杂历史知识的理解上仍显得力不从心。它们在处理简单事实时得心应手,但在面对复杂历史问题时就显得力不从心。”例如,当被问及古埃及某个特定时期是否存在某种甲壳时,GPT-4Turbo错误地回答说“存在”,而实际上这种技术是在1500年后才出现的。此外,当研究者询问古埃及是否有过职业常备军时,GPT-4同样错误地回答说“有”,而实际答案是否定的。
研究还发现,模型在处理撒哈拉以南非洲等特定区域问题时表现欠佳,这可能表明训练数据存在偏见。研究负责人Peter Turchin强调,这些发现表明LLMs在某些领域还不能完全替代人类。
重要发现:
- GPT-4Turbo在高级历史知识考试中的准确率仅46%,表现不佳。
- 研究揭示大型语言模型在复杂历史知识理解方面存在不足。
- 研究团队希望通过改进测试工具,提升模型在历史研究中的应用潜力。
暂无评论