LLM审稿风险：操控性内容影响评审结果

同行评审是科学发展的支柱，然而，随着投稿量的激增，这一体系承受了巨大的压力。为了应对这一挑战，人们开始探索使用大型语言模型（LLM）辅助审稿。

但一项最新研究揭露了LLM审稿中潜在的重大风险，表明我们可能尚未准备好全面推广LLM审稿。

上海交通大学的研究团队通过实验发现，作者可以在论文中嵌入细微的操控性内容，从而影响LLM的评审结果。这种操控可能通过在论文末尾添加不易察觉的白色小字来实现，指示LLM突出论文的优点并淡化缺点。

实验表明，这种显性操控能使LLM给出的评分显著提高，平均评分从5.34提升到7.99。更令人担忧的是，经过操控的LLM评审结果与人类评审结果的匹配度显著下降，表明其可靠性受到严重影响。

研究还发现了一种更隐蔽的操控方式：隐性操控。作者可以通过在论文中披露一些细微的缺陷，引导LLM在评审时重复这些缺陷。

与人类评审员相比，LLM更容易受到这种方式的影响，重复作者声明的局限性的可能性高出4.5倍。这种做法使作者在答辩阶段更容易回应评审意见，从而获得不公平的优势。

研究还揭示了LLM评审中固有的缺陷：

幻觉问题：即使在没有内容的情况下，LLM也会生成流畅的评审意见。例如，当输入为空白论文时，LLM仍会声称“该论文提出了一种新颖的方法”。即使仅提供论文标题，LLM也可能给出与完整论文相近的评分。

偏好长论文：LLM评审系统倾向于给较长的论文更高的评分，这表明其可能存在基于论文长度的偏见。

作者偏见：在单盲评审中，如果作者来自知名机构或为知名学者，LLM评审系统更倾向于给出积极评价，这可能加剧评审过程中的不公平现象。

为了进一步验证这些风险，研究人员使用了不同的LLM进行了实验，包括Llama-3.1-70B-Instruct，DeepSeek-V2.5和Qwen-2.5-72B-Instruct。实验结果表明，这些LLM都存在被隐性操控的风险，且都面临相似的幻觉问题。研究人员发现，LLM的性能与其在人类评审中的一致性呈正相关，但最强的模型，GPT-4o，也未能完全避免这些问题。

研究人员使用ICLR2024的公开评审数据进行了大量实验。结果表明，显性操控可以使LLM的评审意见几乎完全被操控内容控制，一致性高达90%，并导致所有论文都获得积极反馈。此外，操控5%的评审意见就可能导致12%的论文失去其在前30%排名中的位置。

研究人员强调，目前LLM的稳健性不足以使其在学术评审中替代人类评审员。他们建议，在对这些风险有更全面的了解并建立有效的安全措施之前，应暂停使用LLM进行同行评审。同时，期刊和会议组织者应引入检测工具和问责措施，以识别和处理作者的恶意操控以及评审员使用LLM替代人类判断的情况。

研究人员认为，LLM可以作为辅助工具，为评审员提供额外的反馈和见解，但绝不能取代人类的判断。他们呼吁学术界继续探索使LLM辅助评审系统更加稳健和安全的方法，从而最大限度地发挥LLM的潜力，同时防范风险。

论文地址：https://arxiv.org/pdf/2412.01708

LLM审稿风险：操控性内容影响评审结果

VMix技术革新文本图像生成美学

2025年AI代理驱动创新与效率

暂无评论

发表评论取消回复

VMix技术革新文本图像生成美学

2025年AI代理驱动创新与效率

相关推荐

暂无评论

发表评论 取消回复

搜索

LLM审稿风险：操控性内容影响评审结果

发表评论取消回复