IVY-FAKE：如何检测AI生成的假视频图像？_科技资讯_新闻资讯

IVY-FAKE：如何检测AI生成的假视频图像？

创始人

2025-06-07 22:42:28

0次

最近，人工智能生成内容(AIGC)的快速发展已经让我们难以分辨真假媒体。2025年6月1日，来自π? AI实验室的Wayne Zhang、武汉大学的Changjiang Jiang以及其他研究者在arXiv上发布了一篇名为《IVY-FAKE: A Unified Explainable Framework and Benchmark for Image and Video AIGC Detection》的研究论文。这项研究提出了首个统一的图像和视频AI生成内容检测框架，不仅能够检测内容是否为AI生成，还能用自然语言解释为什么。有兴趣深入了解的读者可以通过https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake访问完整数据集。

为什么我们需要更好的AI生成内容检测技术？

想象一下，你在社交媒体上看到一段令人震惊的视频，显示某位名人做出不当行为。这个视频看起来非常真实，但它真的是真的吗？随着DALL-E、Stable Diffusion和最近的SORA等AI模型的出现，创建几乎无法与真实内容区分的图像和视频变得越来越容易。这些技术虽然带来了创新的可能性，但同时也带来了严重的信息真实性挑战。

目前市场上的AIGC检测技术存在两个主要问题：一是大多数检测工具只是简单地告诉你"这是真的"或"这是假的"，没有解释为什么；二是没有一种工具能同时处理图像和视频。这就像是医生只告诉你"你生病了"，但不告诉你得了什么病，也不解释诊断理由，这显然不够透明，也难以让人信服。

研究团队注意到，多模态大语言模型(MLLMs)如GPT-4V具有解释推理能力，有望解决这一问题。但是，现有的数据集不足以训练这些模型进行可解释的AIGC检测。比如，AIGCDetectionBenchmark和GenVideo数据集只提供二元标签（真/假），而不提供解释；LOKI尝试提供更细粒度的异常标注，但规模和多样性有限；FakeBench专注于可解释的图像检测，但不包括视频内容；FakeClue提供大量图像注释，但缺乏视频数据。

IVY-FAKE：首个统一的可解释AIGC检测数据集

为了解决这些问题，研究团队构建了IVY-FAKE数据集，这是首个专为可解释多模态AIGC检测设计的大规模数据集。与现有基准相比，IVY-FAKE具有以下独特优势：

首先，它规模庞大且多样化，包含训练集中的94,781张图像和54,967个视频，以及测试集中的8,731张图像和9,956个视频。这些数据涵盖了广泛的内容类别，如动物、物体、人像、场景、文档、卫星图像和DeepFake媒体。

其次，它强调源多样性，收集了使用各种最先进生成技术（包括GAN、扩散模型和基于Transformer的生成器）创建的合成数据，并配对了来自真实世界环境的真实内容。数据来源包括公开基准如GenVideo、LOKI、FakeClue和WildFake，以及从YouTube等平台爬取的内容。

最重要的是，IVY-FAKE不仅仅提供二元标签，还包含详细的解释性注释。研究团队利用Gemini 2.5 Pro生成结构化、可解释的输出。每个样本的标注遵循一个特定模板，要求模型首先使用``标签表达推理过程，然后用``标签给出最终结论。这些解释进一步分类为空间特征（如材质异常、扭曲的组件、非自然光照等）和时间特征（如帧间亮度不一致、面部表情异常等），为研究人员提供了丰富的分析维度。

IVY-XDETECTOR：统一的图像和视频AIGC检测器

基于这个全新的数据集，研究团队提出了IVY-XDETECTOR（Ivy Explainable Detector），一个不仅能检测AI生成内容，还能解释其推理过程的统一架构。

IVY-XDETECTOR采用了类似LLaVA的结构，包含三个核心组件：视觉编码器、视觉投影器和大语言模型。研究团队使用SigLIP作为视觉主干来处理输入图像和从视频序列中提取的帧。为了支持高分辨率图像的细粒度检测，他们实现了动态分辨率策略——将输入图像分割成多个384×384的子图像，共同输入视觉编码器，有效支持高达2304×2304的输入分辨率。

对于视频输入，单个帧被调整为384×384大小。经视觉编码器编码后，结果特征经过池化操作，将令牌序列压缩到原始长度的四分之一。关键的是，为了保留视频数据中丰富的时间信息，研究团队避免了视频特征的时间压缩，而是将所有帧的特征连接起来，然后由大语言模型处理。

IVY-XDETECTOR的训练采用了三阶段渐进式训练框架：

第一阶段是视频理解能力的注入。他们使用Ivy-VL-LLaVA模型（具有40亿参数规模）作为初始化，该模型在图像-文本基准上表现出色，但缺乏视频数据接触。为解决这一问题，他们整理了300万个视频-文本对的数据集，包括VideoChatFlash和VideoLLaMA3等来源，以赋予模型基本的视频理解能力。

第二阶段是AIGC检测微调。之前的基础模型主要在真实（非生成）数据集上训练。为了使IVY-FAKE专门用于AIGC检测，研究团队从Demamba、FakeClue和WildFake等已建立的数据集中编译了一个目标数据集进行指令微调。这个阶段的目标是训练模型进行二元AIGC区分——将内容分类为"真实"或"假的"。

第三阶段是指令驱动检测和可解释性的联合优化。这个阶段旨在赋予IVY-XDETECTOR生成高质量、人类可理解的解释的能力，同时保持第二阶段获得的AIGC检测准确性。研究团队发现，在检测聚焦训练（第二阶段）之后顺序微调可解释性往往导致模型难以遵循检测特定指令。因此，在第三阶段，他们采用联合训练方法，同时在第二阶段的AIGC检测数据和新引入的可解释性指令数据的组合数据集上微调模型。

实验结果：IVY-XDETECTOR的惊人表现

研究团队进行了广泛的实验，评估了IVY-XDETECTOR在检测和解释能力方面的表现。结果令人印象深刻。

在图像内容分类方面，IVY-XDETECTOR在GenImage和Chameleon基准测试中取得了优异成绩。在GenImage上，该模型将平均准确率从之前最好的AIDE模型的86.88%提高到了98.36%。特别是对于BigGAN子集，准确率甚至提高了32.27%。在Chameleon上，与之前的最佳方法相比，准确率至少提高了20%。

在视频内容分类方面，IVY-XDETECTOR在GenVideo数据集上的表现也远超基线方法。该模型在大多数生成源上的准确率达到了99%以上。特别是在最具挑战性的"HotShot"子集上，召回率达到了99.57%，而之前最好的方法仅为65.43%。

更令人印象深刻的是其解释能力。研究团队将IVY-XDETECTOR与四个领先的大型语言模型进行了比较，包括两个开源模型（Qwen2.5-7B和InternVL2.5-8B）和两个专有模型（GPT-4V和Gemini 2.5 Pro）。结果显示，IVY-XDETECTOR不仅在准确性上优于所有基线，还提供了更透明的解释。与通过坐标或热图表达可解释性的方法（如LOKI）不同，该模型生成了人类可立即理解的视觉伪影自然语言描述。

一个具体的视频检测案例展示了IVY-XDETECTOR如何通过空间和时间分析逐步捕捉生成内容。对于一个AI生成的视频，模型首先分析了非自然的光照（"许多场景特征强烈照明，没有明确定义或合理的物理光源"），然后识别了时间上的不一致性（"照明特征在时间上与自然光源不一致"），最终得出这是合成内容的结论。

这项研究的影响和未来方向

IVY-FAKE的出现标志着AIGC检测领域的重要进步。首次有了一个统一的框架可以同时处理图像和视频内容，并提供详细的解释。这对于打击虚假信息、确保内容真实性和建立公众信任至关重要。

研究团队也指出了一些局限性和未来工作方向。目前，由于高空间令牌负载（729个令牌），模型被迫进行激进的时间下采样，这可能会降低时间一致性并减少检测细微时间伪影的准确性。未来的工作应该优化空间建模效率并加强时间一致性。

总的来说，IVY-FAKE及其配套模型IVY-XDETECTOR为透明、可信的多模态分析提供了强大的基础。随着AI生成内容变得越来越逼真和普遍，这样的工具将变得越来越重要，帮助我们在数字媒体时代保持信息完整性。

数据团队检测编码器模型视频图像 Ivy-Fake 研究内容数据集

上一篇：新能源汽车下乡潮再起，乡镇市场能否成为新能源新蓝海？

下一篇：ai开店怎么开？手把手教你用黑科技当甩手掌柜

IVY-FAKE：如何检测AI生成的假视频图像？

相关内容

最新资讯