IVY-FAKE:如何检测AI生成的假视频图像?
创始人
2025-06-07 22:42:28
0

最近, 人工智能生成内容(AIGC)的快速发展已经让我们难以分辨真假媒体。2025年6月1日,来自π? AI实验室的Wayne Zhang、 武汉大学的Changjiang Jiang以及其他研究者在arXiv上发布了一篇名为《IVY-FAKE: A Unified Explainable Framework and Benchmark for Image and Video AIGC Detection》的研究论文。这项研究提出了首个统一的图像和视频AI生成内容检测框架,不仅能够检测内容是否为AI生成,还能用自然语言解释为什么。有兴趣深入了解的读者可以通过https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake访问完整数据集。

为什么我们需要更好的AI生成内容检测技术?

想象一下,你在社交媒体上看到一段令人震惊的视频,显示某位名人做出不当行为。这个视频看起来非常真实,但它真的是真的吗?随着DALL-E、Stable Diffusion和最近的SORA等AI模型的出现,创建几乎无法与真实内容区分的图像和视频变得越来越容易。这些技术虽然带来了创新的可能性,但同时也带来了严重的信息真实性挑战。

目前市场上的AIGC检测技术存在两个主要问题:一是大多数检测工具只是简单地告诉你"这是真的"或"这是假的",没有解释为什么;二是没有一种工具能同时处理图像和视频。这就像是医生只告诉你"你生病了",但不告诉你得了什么病,也不解释诊断理由,这显然不够透明,也难以让人信服。

研究团队注意到,多模态大语言模型(MLLMs)如GPT-4V具有解释推理能力,有望解决这一问题。但是,现有的数据集不足以训练这些模型进行可解释的AIGC检测。比如,AIGCDetectionBenchmark和GenVideo数据集只提供二元标签(真/假),而不提供解释;LOKI尝试提供更细粒度的异常标注,但规模和多样性有限;FakeBench专注于可解释的图像检测,但不包括视频内容;FakeClue提供大量图像注释,但缺乏视频数据。

IVY-FAKE:首个统一的可解释AIGC检测数据集

为了解决这些问题,研究团队构建了IVY-FAKE数据集,这是首个专为可解释多模态AIGC检测设计的大规模数据集。与现有基准相比,IVY-FAKE具有以下独特优势:

首先,它规模庞大且多样化,包含训练集中的94,781张图像和54,967个视频,以及测试集中的8,731张图像和9,956个视频。这些数据涵盖了广泛的内容类别,如动物、物体、人像、场景、文档、卫星图像和DeepFake媒体。

其次,它强调源多样性,收集了使用各种最先进生成技术(包括GAN、扩散模型和基于Transformer的生成器)创建的合成数据,并配对了来自真实世界环境的真实内容。数据来源包括公开基准如GenVideo、LOKI、FakeClue和WildFake,以及从YouTube等平台爬取的内容。

最重要的是,IVY-FAKE不仅仅提供二元标签,还包含详细的解释性注释。研究团队利用Gemini 2.5 Pro生成结构化、可解释的输出。每个样本的标注遵循一个特定模板,要求模型首先使用``标签表达推理过程,然后用``标签给出最终结论。这些解释进一步分类为空间特征(如材质异常、扭曲的组件、非自然光照等)和时间特征(如帧间亮度不一致、面部表情异常等),为研究人员提供了丰富的分析维度。

IVY-XDETECTOR:统一的图像和视频AIGC检测器

基于这个全新的数据集,研究团队提出了IVY-XDETECTOR(Ivy Explainable Detector),一个不仅能检测AI生成内容,还能解释其推理过程的统一架构。

IVY-XDETECTOR采用了类似LLaVA的结构,包含三个核心组件:视觉编码器、视觉投影器和大语言模型。研究团队使用SigLIP作为视觉主干来处理输入图像和从视频序列中提取的帧。为了支持高分辨率图像的细粒度检测,他们实现了动态分辨率策略——将输入图像分割成多个384×384的子图像,共同输入视觉编码器,有效支持高达2304×2304的输入分辨率。

对于视频输入,单个帧被调整为384×384大小。经视觉编码器编码后,结果特征经过池化操作,将令牌序列压缩到原始长度的四分之一。关键的是,为了保留视频数据中丰富的时间信息,研究团队避免了视频特征的时间压缩,而是将所有帧的特征连接起来,然后由大语言模型处理。

IVY-XDETECTOR的训练采用了三阶段渐进式训练框架:

第一阶段是视频理解能力的注入。他们使用Ivy-VL-LLaVA模型(具有40亿参数规模)作为初始化,该模型在图像-文本基准上表现出色,但缺乏视频数据接触。为解决这一问题,他们整理了300万个视频-文本对的数据集,包括VideoChatFlash和VideoLLaMA3等来源,以赋予模型基本的视频理解能力。

第二阶段是AIGC检测微调。之前的基础模型主要在真实(非生成)数据集上训练。为了使IVY-FAKE专门用于AIGC检测,研究团队从Demamba、FakeClue和WildFake等已建立的数据集中编译了一个目标数据集进行指令微调。这个阶段的目标是训练模型进行二元AIGC区分——将内容分类为"真实"或"假的"。

第三阶段是指令驱动检测和可解释性的联合优化。这个阶段旨在赋予IVY-XDETECTOR生成高质量、人类可理解的解释的能力,同时保持第二阶段获得的AIGC检测准确性。研究团队发现,在检测聚焦训练(第二阶段)之后顺序微调可解释性往往导致模型难以遵循检测特定指令。因此,在第三阶段,他们采用联合训练方法,同时在第二阶段的AIGC检测数据和新引入的可解释性指令数据的组合数据集上微调模型。

实验结果:IVY-XDETECTOR的惊人表现

研究团队进行了广泛的实验,评估了IVY-XDETECTOR在检测和解释能力方面的表现。结果令人印象深刻。

在图像内容分类方面,IVY-XDETECTOR在GenImage和Chameleon基准测试中取得了优异成绩。在GenImage上,该模型将平均准确率从之前最好的AIDE模型的86.88%提高到了98.36%。特别是对于BigGAN子集,准确率甚至提高了32.27%。在Chameleon上,与之前的最佳方法相比,准确率至少提高了20%。

在视频内容分类方面,IVY-XDETECTOR在GenVideo数据集上的表现也远超基线方法。该模型在大多数生成源上的准确率达到了99%以上。特别是在最具挑战性的"HotShot"子集上,召回率达到了99.57%,而之前最好的方法仅为65.43%。

更令人印象深刻的是其解释能力。研究团队将IVY-XDETECTOR与四个领先的大型语言模型进行了比较,包括两个开源模型(Qwen2.5-7B和InternVL2.5-8B)和两个专有模型(GPT-4V和Gemini 2.5 Pro)。结果显示,IVY-XDETECTOR不仅在准确性上优于所有基线,还提供了更透明的解释。与通过坐标或热图表达可解释性的方法(如LOKI)不同,该模型生成了人类可立即理解的视觉伪影自然语言描述。

一个具体的视频检测案例展示了IVY-XDETECTOR如何通过空间和时间分析逐步捕捉生成内容。对于一个AI生成的视频,模型首先分析了非自然的光照("许多场景特征强烈照明,没有明确定义或合理的物理光源"),然后识别了时间上的不一致性("照明特征在时间上与自然光源不一致"),最终得出这是合成内容的结论。

这项研究的影响和未来方向

IVY-FAKE的出现标志着AIGC检测领域的重要进步。首次有了一个统一的框架可以同时处理图像和视频内容,并提供详细的解释。这对于打击虚假信息、确保内容真实性和建立公众信任至关重要。

研究团队也指出了一些局限性和未来工作方向。目前,由于高空间令牌负载(729个令牌),模型被迫进行激进的时间下采样,这可能会降低时间一致性并减少检测细微时间伪影的准确性。未来的工作应该优化空间建模效率并加强时间一致性。

总的来说,IVY-FAKE及其配套模型IVY-XDETECTOR为透明、可信的多模态分析提供了强大的基础。随着AI生成内容变得越来越逼真和普遍,这样的工具将变得越来越重要,帮助我们在数字媒体时代保持信息完整性。

相关内容

最新资讯

鲲之益赋能汽车行业!汽车街数字... 在人工智能浪潮席卷全球的今天,各行各业正迎来前所未有的数字化变革。汽车产业作为国民经济的重要支柱,其...
5.7秒破百,媲美保时捷718... 各位车友,我是隔壁老王,今天咱们来聊聊2025款传祺影豹。这车最近可是火得不行,8万多的价格,5.7...
问界全系闪耀重庆车展,王铮亮亲... 第二十七届重庆国际车展上,问界汽车携其全系车型惊艳亮相,地点设在重庆国际博览中心的N2号馆。此次车展...
长安央企新身份亮相重庆车展,开... 在重庆车展盛大启幕之际,N8展馆外,一架引人注目的歼-10C战斗机模型成功吸引了众多参观者的目光,他...
运营商财经网康钊:中国同意卖给... 运营商财经 康钊/文 近日,根据路透社的消息称,中国批准向美国三大车企通用、福特及斯泰兰蒂斯的供应...
大众变速箱“内外有别”,背后真... 近年来,大众汽车在中国市场与北美市场的变速箱配置差异引发了广泛关注。中国消费者发现,大众在国内销售的...
修不起!换不起!新能源车五大死... 新能源车销量年年暴涨,但老司机们心里门儿清:这五大痛点不根治,油车就永远有喘息的机会! 表面风光背后...
大众首款大型SUV亮相,增程动... 曾公开嘲讽增程技术“落后”的德系巨头,如今却带着全尺寸增程SUV ID.ERA杀入战场。 这款车不仅...
小鹏G9降价24万起售,4月销... 诶,你说这车圈儿,真是个奇特的江湖。 原本以为是技术控的天下,结果发现,降价才是王道啊! 小鹏G9...
百余款新车亮相重庆车展 还有歼... 今年的重庆国际车展如期而至,不同于往届,这里不仅能打探新车,更有众多硬核的“黑科技”。6月7日—15...
被忽视的大牌SUV,拥有沃尔沃... 各位老铁们,今儿个我隔壁老王来聊聊这款被市场严重低估的小型SUV——吉利睿蓝X3 PRO。这车现在优...
再等1天上市!秦L EV的“姊... 大家好,我是隔壁老王,今天咱们来聊聊比亚迪海豹06 EV这款车。作为比亚迪秦L EV的姊妹车型,海豹...
俄全方位回击乌“蛛网”行动 俄... 新华社莫斯科6月7日电 题:俄全方位回击乌“蛛网”行动 俄乌局势会否失控 新华社记者赵冰 李东旭 俄...
原创 美... 在车展上,车模们如同闪耀的明星,成为聚光灯下的焦点,吸引着每一位观众的目光。她们优雅的身姿与迷人的笑...
长安汽车2025重庆车展:科技... 第二十七届重庆国际汽车展览会拉开帷幕,长安汽车作为本土汽车制造业的领军者,以“智慧全球 共赢未来”为...
原创 修... 新能源车销量年年暴涨,但老司机们心里门儿清:这五大痛点不根治,油车就永远有喘息的机会! 表面风光背后...
问界全系闪耀重庆车展,王铮亮亲... 第二十七届重庆国际车展盛大启幕,问界携其全系列车型惊艳亮相于重庆国际博览中心的N2展馆,为观众带来了...
比亚迪&小桔充电:万座... 近日,比亚迪与小桔充电在一次以“兆瓦闪充,万桩共建”为主题的生态启动仪式上,正式宣布了他们的战略合作...
长安汽车重庆车展:全品牌矩阵亮... 第二十七届重庆国际汽车展览会拉开帷幕,长安汽车作为本土汽车制造业的领军企业,以一场盛大的开馆仪式引领...
乘势而上 长安汽车以历史性发展... 6月7日,第二十七届重庆国际汽车展览会盛大开幕。作为重庆的龙头车企,长安汽车以“智慧全球 共赢未来”...