最近, 人工智能生成内容(AIGC)的快速发展已经让我们难以分辨真假媒体。2025年6月1日,来自π? AI实验室的Wayne Zhang、 武汉大学的Changjiang Jiang以及其他研究者在arXiv上发布了一篇名为《IVY-FAKE: A Unified Explainable Framework and Benchmark for Image and Video AIGC Detection》的研究论文。这项研究提出了首个统一的图像和视频AI生成内容检测框架,不仅能够检测内容是否为AI生成,还能用自然语言解释为什么。有兴趣深入了解的读者可以通过https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake访问完整数据集。
为什么我们需要更好的AI生成内容检测技术?
想象一下,你在社交媒体上看到一段令人震惊的视频,显示某位名人做出不当行为。这个视频看起来非常真实,但它真的是真的吗?随着DALL-E、Stable Diffusion和最近的SORA等AI模型的出现,创建几乎无法与真实内容区分的图像和视频变得越来越容易。这些技术虽然带来了创新的可能性,但同时也带来了严重的信息真实性挑战。
目前市场上的AIGC检测技术存在两个主要问题:一是大多数检测工具只是简单地告诉你"这是真的"或"这是假的",没有解释为什么;二是没有一种工具能同时处理图像和视频。这就像是医生只告诉你"你生病了",但不告诉你得了什么病,也不解释诊断理由,这显然不够透明,也难以让人信服。
研究团队注意到,多模态大语言模型(MLLMs)如GPT-4V具有解释推理能力,有望解决这一问题。但是,现有的数据集不足以训练这些模型进行可解释的AIGC检测。比如,AIGCDetectionBenchmark和GenVideo数据集只提供二元标签(真/假),而不提供解释;LOKI尝试提供更细粒度的异常标注,但规模和多样性有限;FakeBench专注于可解释的图像检测,但不包括视频内容;FakeClue提供大量图像注释,但缺乏视频数据。
IVY-FAKE:首个统一的可解释AIGC检测数据集
为了解决这些问题,研究团队构建了IVY-FAKE数据集,这是首个专为可解释多模态AIGC检测设计的大规模数据集。与现有基准相比,IVY-FAKE具有以下独特优势:
首先,它规模庞大且多样化,包含训练集中的94,781张图像和54,967个视频,以及测试集中的8,731张图像和9,956个视频。这些数据涵盖了广泛的内容类别,如动物、物体、人像、场景、文档、卫星图像和DeepFake媒体。
其次,它强调源多样性,收集了使用各种最先进生成技术(包括GAN、扩散模型和基于Transformer的生成器)创建的合成数据,并配对了来自真实世界环境的真实内容。数据来源包括公开基准如GenVideo、LOKI、FakeClue和WildFake,以及从YouTube等平台爬取的内容。
最重要的是,IVY-FAKE不仅仅提供二元标签,还包含详细的解释性注释。研究团队利用Gemini 2.5 Pro生成结构化、可解释的输出。每个样本的标注遵循一个特定模板,要求模型首先使用``标签表达推理过程,然后用``标签给出最终结论。这些解释进一步分类为空间特征(如材质异常、扭曲的组件、非自然光照等)和时间特征(如帧间亮度不一致、面部表情异常等),为研究人员提供了丰富的分析维度。
IVY-XDETECTOR:统一的图像和视频AIGC检测器
基于这个全新的数据集,研究团队提出了IVY-XDETECTOR(Ivy Explainable Detector),一个不仅能检测AI生成内容,还能解释其推理过程的统一架构。
IVY-XDETECTOR采用了类似LLaVA的结构,包含三个核心组件:视觉编码器、视觉投影器和大语言模型。研究团队使用SigLIP作为视觉主干来处理输入图像和从视频序列中提取的帧。为了支持高分辨率图像的细粒度检测,他们实现了动态分辨率策略——将输入图像分割成多个384×384的子图像,共同输入视觉编码器,有效支持高达2304×2304的输入分辨率。
对于视频输入,单个帧被调整为384×384大小。经视觉编码器编码后,结果特征经过池化操作,将令牌序列压缩到原始长度的四分之一。关键的是,为了保留视频数据中丰富的时间信息,研究团队避免了视频特征的时间压缩,而是将所有帧的特征连接起来,然后由大语言模型处理。
IVY-XDETECTOR的训练采用了三阶段渐进式训练框架:
第一阶段是视频理解能力的注入。他们使用Ivy-VL-LLaVA模型(具有40亿参数规模)作为初始化,该模型在图像-文本基准上表现出色,但缺乏视频数据接触。为解决这一问题,他们整理了300万个视频-文本对的数据集,包括VideoChatFlash和VideoLLaMA3等来源,以赋予模型基本的视频理解能力。
第二阶段是AIGC检测微调。之前的基础模型主要在真实(非生成)数据集上训练。为了使IVY-FAKE专门用于AIGC检测,研究团队从Demamba、FakeClue和WildFake等已建立的数据集中编译了一个目标数据集进行指令微调。这个阶段的目标是训练模型进行二元AIGC区分——将内容分类为"真实"或"假的"。
第三阶段是指令驱动检测和可解释性的联合优化。这个阶段旨在赋予IVY-XDETECTOR生成高质量、人类可理解的解释的能力,同时保持第二阶段获得的AIGC检测准确性。研究团队发现,在检测聚焦训练(第二阶段)之后顺序微调可解释性往往导致模型难以遵循检测特定指令。因此,在第三阶段,他们采用联合训练方法,同时在第二阶段的AIGC检测数据和新引入的可解释性指令数据的组合数据集上微调模型。
实验结果:IVY-XDETECTOR的惊人表现
研究团队进行了广泛的实验,评估了IVY-XDETECTOR在检测和解释能力方面的表现。结果令人印象深刻。
在图像内容分类方面,IVY-XDETECTOR在GenImage和Chameleon基准测试中取得了优异成绩。在GenImage上,该模型将平均准确率从之前最好的AIDE模型的86.88%提高到了98.36%。特别是对于BigGAN子集,准确率甚至提高了32.27%。在Chameleon上,与之前的最佳方法相比,准确率至少提高了20%。
在视频内容分类方面,IVY-XDETECTOR在GenVideo数据集上的表现也远超基线方法。该模型在大多数生成源上的准确率达到了99%以上。特别是在最具挑战性的"HotShot"子集上,召回率达到了99.57%,而之前最好的方法仅为65.43%。
更令人印象深刻的是其解释能力。研究团队将IVY-XDETECTOR与四个领先的大型语言模型进行了比较,包括两个开源模型(Qwen2.5-7B和InternVL2.5-8B)和两个专有模型(GPT-4V和Gemini 2.5 Pro)。结果显示,IVY-XDETECTOR不仅在准确性上优于所有基线,还提供了更透明的解释。与通过坐标或热图表达可解释性的方法(如LOKI)不同,该模型生成了人类可立即理解的视觉伪影自然语言描述。
一个具体的视频检测案例展示了IVY-XDETECTOR如何通过空间和时间分析逐步捕捉生成内容。对于一个AI生成的视频,模型首先分析了非自然的光照("许多场景特征强烈照明,没有明确定义或合理的物理光源"),然后识别了时间上的不一致性("照明特征在时间上与自然光源不一致"),最终得出这是合成内容的结论。
这项研究的影响和未来方向
IVY-FAKE的出现标志着AIGC检测领域的重要进步。首次有了一个统一的框架可以同时处理图像和视频内容,并提供详细的解释。这对于打击虚假信息、确保内容真实性和建立公众信任至关重要。
研究团队也指出了一些局限性和未来工作方向。目前,由于高空间令牌负载(729个令牌),模型被迫进行激进的时间下采样,这可能会降低时间一致性并减少检测细微时间伪影的准确性。未来的工作应该优化空间建模效率并加强时间一致性。
总的来说,IVY-FAKE及其配套模型IVY-XDETECTOR为透明、可信的多模态分析提供了强大的基础。随着AI生成内容变得越来越逼真和普遍,这样的工具将变得越来越重要,帮助我们在数字媒体时代保持信息完整性。