0.01%虚假训练文本可致有害内容增加11.2%,警惕人工智能“数据投毒”
创始人
2025-08-05 08:06:06
0

在人工智能的发展进程中,一个惊人的现象被揭示:仅 0.01%的虚假训练文本,就能促使有害内容增加 11.2%。这一数据令人不寒而栗,充分彰显了“数据投毒”的潜在危害。当大量虚假或恶意数据混入训练集,人工智能系统便可能被误导,产出带有偏见、歧视甚至危险的结果。它犹如一颗隐藏的定时炸弹,随时可能在不经意间释放出有害信息,对社会秩序、个人安全及公共利益构成威胁。我们必须高度警惕这种“数据投毒”行为,加强数据监管与审核,确保人工智能的健康、安全发展。


国家安全部今天(5日)发布安全提示文章,人工智能的训练数据存在良莠不齐的问题,其中不乏虚假信息、虚构内容和偏见性观点,造成数据源污染,给人工智能安全带来新的挑战。

数据是人工智能的基础

人工智能的三大核心要素是算法、算力和数据,其中数据是训练AI模型的基础要素,也是AI应用的核心资源。

提供AI模型的原料。海量数据为AI模型提供了充足的训练素材,使其得以学习数据的内在规律和模式,实现语义理解、智能决策和内容生成。同时,数据也驱动人工智能不断优化性能和精度,实现模型的迭代升级,以适应新需求。

影响AI模型的性能。AI模型对数据的数量、质量及多样性要求极高。充足的数据量是充分训练大规模模型的前提;高准确性、完整性和一致性的数据能有效避免误导模型;覆盖多个领域的多样化数据,能提升模型应对实际复杂场景的能力。

促进AI模型的应用。数据资源的日益丰富,加速了“人工智能+”行动的落地,有力促进了人工智能与经济社会各领域的深度融合。这不仅培育和发展了新质生产力,更推动我国科技跨越式发展、产业优化升级、生产力整体跃升。

数据污染冲击安全防线

高质量的数据能够显著提升模型的准确性和可靠性,但数据一旦受到污染,可能导致模型决策失误甚至AI系统失效,存在一定的安全隐患。

投放有害内容。通过篡改、虚构和重复等“数据投毒”行为产生的污染数据,将干扰模型在训练阶段的参数调整,削弱模型性能、降低其准确性,甚至诱发有害输出。研究显示:

当训练数据集中仅有0.01%的虚假文本时,模型输出的有害内容会增加11.2%;

即使是0.001%的虚假文本,其有害输出也会相应上升7.2%。

造成递归污染。受到数据污染的人工智能生成的虚假内容,可能成为后续模型训练的数据源,形成具有延续性的“污染遗留效应”。当前,互联网AI生成内容在数量上已远超人类生产的真实内容,大量低质量及非客观数据充斥其中,导致AI训练数据集中的错误信息逐代累积,最终扭曲模型本身的认知能力。

引发现实风险。数据污染还可能引发一系列现实风险,尤其在金融市场、公共安全和医疗健康等领域。

在金融领域,不法分子利用AI炮制虚假信息,造成数据污染,可能引发股价异常波动,构成新型市场操纵风险;

在公共安全领域,数据污染容易扰动公众认知、误导社会舆论,诱发社会恐慌情绪;

在医疗健康领域,数据污染可能致使模型生成错误诊疗建议,不仅危及患者生命安全,也加剧伪科学的传播。

筑牢人工智能数据底座

加强源头监管,防范污染生成。以《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等法律法规为依据,建立AI数据分类分级保护制度,从根本上防范污染数据的产生,助力有效防范AI数据安全威胁。

强化风险评估,保障数据流通。加强对人工智能数据安全风险的整体评估,确保数据在采集、存储、传输、使用、交换和备份等全生命周期环节安全。同步加快构建人工智能安全风险分类管理体系,不断提高数据安全综合保障能力。

末端清洗修复,构建治理框架。定期依据法规标准清洗修复受污数据。依据相关法律法规及行业标准,制定数据清洗的具体规则。逐步构建模块化、可监测、可扩展的数据治理框架,实现持续管理与质量把控。

(总台央视记者 王莉)

相关内容

最新资讯

2026华东师范大学学科化学8... *A-历年考研真题试卷与参考答案*865普通化学原理(原965) 2003-2024年华东师范大学9...
小升初数学分班考真题卷(四) 小升初数学分班考真题卷(四)
高考语文 132 学霸应试经验... #优质好文激励计划# 在高考这场千军万马过独木桥的战役中,语文作为首门开考的科目,其重要性不言而喻...
安卓系统属于操作系统吗,引领智... 你有没有想过,那个陪伴你每天刷手机、玩游戏、办公的安卓系统,它到底是不是一个操作系统呢?这个问题听起...
苹果和安卓系统使用感受,系统使... 你有没有想过,为什么有些人偏爱苹果手机,而有些人却对安卓情有独钟呢?这背后可是大有文章哦!今天,就让...
特朗普:未来24小时内将“大幅... 特朗普宣称在未来 24 小时内将“大幅”提高印度输美商品关税。这一举措引发了广泛关注与争议。特朗普此...
安卓系统补帧怎么设置,轻松提升... 你有没有发现,最近你的安卓手机在玩游戏或者看视频时,画面突然变得流畅多了?这可不是你的错觉哦,这其实...
男子徒步雪山失联14天,妻子:... 在那苍茫的雪山之中,一名男子独自踏上了徒步之旅,然而,14 天过去,他却神秘失联。他的妻子心急如焚,...
半价理想MEGA?不用30万的... 零跑汽车是目前能盈利的少数新势力品牌之一,之所以能够赚钱,其实就是做好“平替市场”,在更低的价格下给...
李志强到桂阳高新区现场办公 新桂阳8月4日讯(记者 邓琴)今天下午,县委副书记、县长李志强到桂阳高新区现场办公,检查高温天气企业...