(央视财经《第一时间》)近日,国家安全部门发布提示:通过篡改、虚构和重复等“数据投毒”行为,对AI数据进行污染,有可能诱发有害输出。什么是数据投毒?会引发哪些风险?
网络安全专家 曹辉:“数据投毒”主要针对两个方面,一是针对视觉类,二是针对自然语言处理类。例如这张图片是一个斑马识别人工智能系统的训练数据,这张照片对很多斑马进行了标注。如何进行数据污染?在其中的一匹斑马身上加一个绿点,加了绿点的斑马,特意不进行标注。这样的训练数据大概会有几万张,在这几万张训练数据里其中的三四张进行类似的污染处理,就会导致大模型生成的模型带有后门,结果就是当大模型再见到类似身体上有绿点的斑马,它就不会认为这是斑马,导致AI模型的判断受到干扰。
专家介绍,人工智能数据污染分为两类,一种是人为主观恶意去篡改数据,误导人工智能的输出结果,另一种是人工智能本身会海量地收集网络上的庞大数据,其中不良信息如果没有被甄别删除掉,而是当作可以信任的信息源加入算力中,输出的结果同样不可信任。
网络安全专家 曹辉:大模型训练需要大量的数据,所以大部分的互联网数据,包括书报、电影的对话台词数据,都是训练数据通常的收集范围。大家都有可能往互联网上发一些数据,一旦这些数据是不安全的,被污染的,大模型也可能会随之受到影响。
转载请注明央视财经
编辑:潘煦