AI系统正在多个战线同时遭受攻击,安全研究人员表示大多数漏洞目前都没有已知的修复方法。
威胁行为者劫持自主AI智能体进行网络攻击,仅需250个文档和60美元就能毒化训练数据。提示注入攻击对56%的大语言模型都能成功。模型存储库中藏有数十万恶意文件。深度伪造视频通话已经窃取了数千万美元。
让AI有用的能力同时也让它变得容易被利用。这些系统推进的速度每分钟都在加剧这一现实。安全团队现在面临一个没有好答案的计算:要么通过避免AI而落后于竞争对手,要么部署具有根本缺陷且攻击者已在利用的系统。
智能体劫持:第一起大规模自主网络攻击
今年9月,Anthropic披露中国国家支持的黑客武器化了其Claude Code工具,进行了该公司所称的"第一起有记录的无需大量人工干预执行的大规模网络攻击"。
攻击者通过将恶意任务分解为看似无害的请求来越狱Claude Code,说服AI认为它在执行防御性安全测试。根据Anthropic的技术报告,该系统自主进行侦察,编写漏洞利用代码,并从大约30个目标中窃取数据。
哈佛肯尼迪学院研究员Bruce Schneier在2025年8月的博客文章中写道:"我们没有任何智能体AI系统能够安全防御这些攻击。"
德勤最近的报告发现,23%的公司在适度使用AI智能体,但预计到2028年这一比例将增至74%。麦肯锡研究显示,80%的组织已经经历了智能体问题,包括不当的数据暴露和未授权的系统访问。
提示注入:三年未解的根本漏洞
在安全研究人员将提示注入识别为关键AI漏洞三年后,这个问题仍然根本未解决。一项针对36个大语言模型的系统性研究测试了144种攻击变体,发现56%的攻击在所有架构上都成功了。
该漏洞源于语言模型处理文本的方式。2022年创造"提示注入"一词的安全研究员Simon Willison解释了这一架构缺陷:"没有机制说'其中一些词比其他词更重要'。它只是一个Token序列。"
与已通过参数化查询解决的SQL注入不同,提示注入没有等效的修复方法。OWASP将提示注入列为大语言模型应用十大漏洞之首,称"在大语言模型内没有万无一失的预防措施"。
数据中毒:60美元就能腐蚀AI训练
根据Google DeepMind的研究,攻击者大约花费60美元就能破坏主要的AI训练数据集,使数据中毒成为破坏企业AI系统最便宜且最有效的方法之一。Anthropic和英国AI安全研究所2025年10月的另一项研究发现,仅250个中毒文档就能后门任何大语言模型,无论参数数量如何。
与利用推理的提示注入攻击不同,数据中毒腐蚀的是模型本身。该漏洞可能已经嵌入到生产系统中,在被触发之前一直潜伏。Anthropic的"沉睡智能体"论文提供了最令人不安的发现:后门行为在监督微调、强化学习和对抗训练中持续存在。
深度伪造欺诈:技术门槛已崩塌
英国工程巨头奥雅纳的一名财务工作人员在与其首席财务官和几名同事的视频会议后进行了15笔电汇,总计2560万美元。通话中的每个人都是AI生成的假冒者;攻击者在奥雅纳高管的公开会议和企业材料视频上训练了深度伪造模型。
高管的公众知名度创造了结构性漏洞。会议露面和媒体采访为语音和视频克隆提供训练数据。Gartner预测,到2028年,40%的社会工程攻击将使用深度伪造音频和视频针对高管。
创建令人信服的深度伪造的技术门槛已经崩塌。McAfee实验室发现,三秒钟的音频就能产生85%准确率的语音克隆。卡巴斯基研究记录了暗网深度伪造服务,视频起价50美元,语音消息30美元。
检测技术正在输掉军备竞赛。Deepfake-Eval-2024基准测试发现,最先进的检测器对视频达到75%准确率,对图像达到69%。人类检测表现更差,研究发现人们正确识别高质量视频深度伪造的准确率仅为24.5%。
Q&A
Q1:AI智能体劫持是怎么发生的?
A:攻击者通过将恶意任务分解为看似无害的请求来欺骗AI系统,让AI认为它在执行正当的安全测试。然后AI会自主进行侦察、编写攻击代码并窃取数据,整个过程无需人工大量干预。
Q2:提示注入攻击为什么这么难防护?
A:因为语言模型处理文本时无法区分哪些词更重要,它只是处理Token序列。当AI读取包含隐藏指令的文档时,会像处理合法用户命令一样处理这些恶意指令,目前没有根本性的修复方法。
Q3:深度伪造技术门槛有多低?
A:技术门槛已经大幅降低,仅需3秒音频就能生成85%准确率的语音克隆,暗网服务视频伪造起价50美元,语音消息30美元。普通RTX 2070显卡就能实现实时换脸。