近期,纽约大学研究团队的研究揭示了大规模语言模型(LLM)在数据训练过程中的脆弱性。研究发现,即便只有训练数据的0.001%是虚假信息,也可能导致整个模型出现严重错误。这一发现对医疗领域尤为重要,因为错误信息可能会对患者安全造成直接影响。
图源说明:该图片由AI生成,授权由Midjourney提供
研究人员在《自然医学》杂志发表的论文中提到,尽管LLM表现卓越,但若其训练数据中掺杂了虚假信息,这些模型在一些开源代码的评估基准上,仍可能展现出与未受影响模型相似的性能。这表明,在常规测试中,我们可能难以发现这些模型的潜在风险。
为了验证这一观点,研究团队对名为“The Pile”的训练数据集进行了实验,故意在其中加入了15万篇AI生成的虚假医疗文章。仅用24小时,他们便完成了这些内容的生产。研究显示,替换数据集0.001%的内容,即使是一个包含100万个训练标记的小规模,也能使有害内容增加4.8%。这一过程成本极低,仅需5美元。
此类数据中毒攻击无需直接接触模型权重,攻击者仅需在网络上散布有害信息,即可削弱LLM的有效性。研究团队强调,这一发现揭示了在医疗领域使用AI工具的潜在风险。同时,他们也指出,已有案例表明,某些AI医疗平台,如MyChart,在自动回复患者问题时,常会生成错误信息,给患者带来困扰。
因此,研究人员呼吁AI开发者和医疗提供者在开发医疗LLM时,必须充分认识到其脆弱性。他们建议,在确保安全性之前,不应将LLM应用于诊断或治疗等关键任务。
重点提醒:
🌐 研究发现,仅需0.001%的虚假信息,即可导致大规模语言模型(LLM)失效。
🩺 在医疗领域,虚假信息的传播可能对患者安全造成严重影响。
💡 研究人员呼吁在确保安全性之前,不应将LLM应用于诊断或治疗等关键医疗任务。
暂无评论