Anthropic体质分类器:AI安全防护新突破

人工智能企业Anthropic近期推出了一种名为“体质分类器”的新安全技术,旨在防御语言模型遭受恶意攻击。这项技术特别针对“通用越狱”现象——即尝试绕过所有安全措施的一种系统性攻击手段,以防止AI模型产生有害信息。

为了检验该技术的实用性,Anthropic开展了一次大规模的测试。他们招募了183名测试者,要求他们在两个月内尝试破解其安全防御系统。测试者需通过提出特定问题,试图诱导AI模型Claude3.5回答被禁止的十个问题。尽管提供了高达15,000美元的奖金以及约3,000小时的测试时间,但所有测试者均未能成功绕过Anthropic的安全措施。

Claude2,Anthropic,人工智能,聊天机器人 克劳德

**挑战中的成长**

Anthropic早期版本的“体质分类器”存在两个问题:一是将过多无害请求误判为危险请求,二是计算资源消耗巨大。经过改进,新版本分类器大幅降低了误判率,同时提高了计算效率。尽管如此,自动测试显示,即便改进后的系统成功阻止了超过95%的越狱尝试,但仍需额外23.7%的计算能力。相比之下,未受保护的Claude模型有86%的越狱尝试得以成功。

**基于合成数据的训练**

“体质分类器”的核心在于使用预定义的规则(即“宪法”)来辨别允许和禁止的内容。系统通过生成多语言、多风格的合成训练示例,训练分类器识别可疑输入。这种方法不仅提高了系统的准确性,还增强了其对抗多样化攻击的能力。

尽管取得了显著进步,Anthropic的研究人员承认,该系统并非完美无缺。它可能无法应对所有类型的通用越狱攻击,且未来可能出现新的攻击方式。因此,Anthropic建议将“体质分类器”与其他安全措施结合使用,以提供更全面的保护。

**公开测试与未来展望**

为了进一步检验系统的强度,Anthropic计划于2025年2月3日至10日期间发布公开演示版本,邀请安全专家尝试破解。测试结果将在后续更新中公布。这一举措不仅展示了Anthropic对技术透明度的承诺,也为AI安全领域的研究提供了宝贵的数据。

Anthropic的“体质分类器”代表了AI模型安全防护领域的重要进展。随着AI技术的快速发展,如何有效防止模型被滥用已成为行业关注的焦点。Anthropic的创新为这一挑战提供了新的解决方案,同时也为未来的AI安全研究指明了方向。

相关推荐

暂无评论

发表评论