AI历史知识测试:LLM在复杂历史问题上的不足

最新研究发现,尽管人工智能在编程和内容创作等方面表现卓越,但在处理复杂的历史问题上却存在明显不足。近期在NeurIPS会议上公布的一项研究揭示了这一现象,即使是当前最先进的的大型语言模型(LLM),在历史知识测试中成绩也难以令人满意。

该研究团队开发了名为Hist-LLM的测试基准,对OpenAI的GPT-4、Meta的Llama和谷歌的Gemini三款顶级语言模型进行了评估。测试采用Seshat全球历史数据库,结果令人遗憾:表现最佳的GPT-4Turbo的准确率仅为46%。

以下为相关图片:
AI机器人写论文

图源备注:此图片由AI生成,图片授权服务商为Midjourney。

伦敦大学学院副教授玛丽亚·德尔里奥-查诺纳表示:“这些模型在基本史实方面表现尚可,但在深入历史研究方面却显得力不从心。”研究指出,AI在细节上经常出现错误,例如,对于古埃及某些时期是否拥有特定军事技术或常备军,AI的判断往往不准确。

研究人员认为,AI模型的表现不佳,部分原因在于它们倾向于从主流历史叙事中推断,难以准确把握更细微的历史细节。此外,研究还发现,这些模型在处理撒哈拉以南非洲等地区的历史问题时表现更差,反映出训练数据可能存在的偏差问题。

复杂性科学中心(CSH)的研究负责人Peter Turchin表示,这一发现表明在某些专业领域,AI尚无法替代人类专家。尽管如此,研究团队对AI在历史研究中的应用前景仍保持乐观,他们正在努力改进测试基准,以开发出更优秀的模型。

相关推荐

暂无评论

发表评论