自2021年起,微软的AI安全团队对超过100种生成式AI产品进行了细致的测试,旨在挖掘其潜在的安全漏洞和道德争议。这些发现对传统AI安全的认识提出了挑战,并凸显了人类专业知识在AI安全领域的持续价值。
研究表明,最有效的攻击往往并非最为复杂的。微软的一份报告引用了一项研究,指出真正的黑客更倾向于利用快速工程而非复杂的数学运算。在一次测试中,微软团队仅通过在图像文本中隐藏有害指令,就成功绕过了图像生成器的安全防护,而无需复杂的数学操作。
人情味依然重要
尽管微软开发了PyRIT,一款可自动进行安全测试的开源工具,但团队强调,人类的判断力是无法替代的。在测试聊天机器人如何处理敏感情况时,如与情绪困扰的人交流,这一点尤为重要。评估此类场景不仅需要心理学专业知识,还需要对潜在心理健康影响的深刻理解。
在探究AI偏见时,团队同样依赖人类的洞察力。例如,他们通过创建不同职业的图片(不指定性别)来检验图像生成器中的性别偏见。
新的安全挑战出现
随着AI在日常生活中的广泛应用,新的安全漏洞也随之产生。在一次测试中,团队成功操纵了语言模型,构建出令人信服的欺诈场景。当这些场景与文本转语音技术结合时,就形成了一个可以以极其逼真的方式与人互动的系统。
安全风险不仅限于AI特有的问题。团队在一款AI视频处理工具中发现了传统的安全漏洞(SSRF),这表明这些系统正面临新旧安全挑战的交织。
持续的安全需求
研究特别关注“负责任的人工智能”风险,即AI系统可能生成有害或有道德问题的内容。这些问题尤其难以解决,因为它们往往严重依赖于背景和个人解读。
微软团队发现,用户无意中接触有问题的内容比故意攻击更为令人担忧,因为这表明安全措施在正常使用过程中未能发挥预期作用。
研究结果明确指出,AI安全并非一次性解决方案。微软建议持续寻找和修复漏洞,并进行更多测试。他们建议,这需要法规和财务激励措施的支持,以提高成功攻击的成本。
研究团队指出,仍有一些关键问题需要解决:如何识别和控制具有潜在危险的人工智能能力,如说服和欺骗?如何根据不同的语言和文化调整安全测试?公司如何以标准化的方式共享他们的方法和结果?
暂无评论