近期,Vectara机器学习团队对DeepSeek系列中的两款模型进行了详尽的幻觉测试。结果显示,DeepSeek-R1的幻觉率高达14.3%,远超其前代DeepSeek-V3的3.9%。这一发现表明,在推理能力增强的过程中,DeepSeek-R1产生了更多不准确或与原始信息不符的内容,引发了关于推理增强大语言模型(LLM)幻觉率的热议。

DeepSeek

图源说明:图片由AI生成,版权由Midjourney授权

研究团队指出,推理增强模型相较于普通大语言模型,更易产生幻觉。这一现象在DeepSeek系列与其他推理增强模型的对比中尤为突出。以GPT系列为例,推理增强的GPT-o1与普通版GPT-4o之间的幻觉率差异,也证实了这一观点。

image.png

为了评估这两款模型的表现,研究人员采用了Vectara的HHEM模型和Google的FACTS方法。HHEM作为专门的幻觉检测工具,在捕捉DeepSeek-R1幻觉率增加时表现出较高的灵敏度,而FACTS模型在此方面的表现则相对较弱。这表明,HHEM可能比LLM作为标准更为有效。

image.png

image.png

值得注意的是,尽管DeepSeek-R1在推理能力上表现出色,但其幻觉率也相对较高。这可能与推理增强模型需要处理的复杂逻辑有关。随着模型推理复杂性的增加,生成内容的准确性可能会受到影响。研究团队还强调,若DeepSeek在训练阶段能更专注于减少幻觉问题,或许能实现推理能力与准确性之间的良好平衡。

image.png

尽管推理增强模型通常具有较高的幻觉率,但这并不意味着它们在其他方面不具备优势。对于DeepSeek系列而言,后续的研究和优化中需解决幻觉问题,以提升整体模型性能。

参考资料:https://www.vectara.com/blog/deepseek-r1-hallucinates-more-than-deepseek-v3