紫东太初开源视觉神经增强方法,即插即用终结多模态幻觉 | ACL 2025
创始人
2025-06-27 21:12:25
0

VHR团队 投稿

量子位 | 公众号 QbitAI

通过“视觉神经增强”机制,直接放大模型中的视觉关键注意力头输出,显著降低模型的幻觉现象。

中科院自动化所联合新加坡国立大学、东南大学等团队提出大模型幻觉的一种高效的解决方案VHR。

此前的主流方法主要通过对齐训练或输出层分布修正来缓解LVLMs的幻觉问题,但这些方法仅作用于模型的最终输出阶段, 未能深入干预其内部表征和生成机制,因此难以实现高效且精准的幻觉抑制。

01 引言

大型视觉语言模型(LVLMs)能够结合视觉和语言信息生成流畅的文本回答,但其输出常因过度依赖语言先验知识而非图像真实内容,导致事实性错误。

在图1中,通过对照实验揭示语言先验与幻觉现象之间的关联。当给定图像并提示模型「请详细描述该图像」时,模型生成的描述中错误地包含「椅子」和「杯子」这类图像中未出现的实体,呈现出典型的幻觉表现。

为了验证这种幻觉是否源于语言偏好,移除原始图像,重新提示模型根据此前生成的正确描述「图中有一张木桌,桌上有一个花瓶」进行补全。结果显示,模型补全的内容与之前的幻觉部分显著重叠,这表明模型并非基于视觉依据进行推理,而是系统性地依赖语言共现模式来生成内容。

这一现象证实了LVLMs产生的幻觉并非随机错误,而是受到其内部语言建模偏好的系统性影响。

图1. 揭示LVLMs中幻觉现象与语言偏好关联的示例。当幻觉发生时(对话1),移除图像输入并提示模型补全描述(对话2)。其输出内容与幻觉生成部分高度相似。

当前主流解决方案(如对齐训练、解码优化)主要通过对输出层的结果进行干预来缓解幻觉问题。这类”末端干预”方法虽然简单有效,但未能触及模型产生幻觉的根本原因——即 注意力机制内部的不平衡性。最新研究发现:

  • 在多头注意力模块中,部分注意力头会优先处理 输入上下文信息(如图像特征)

  • 而另一些头则更倾向于 激活模型记忆中的语言规律(如”桌子-椅子”共现关系)

这种功能分化形成了潜在的风险,可能导致模型过度依赖参数化知识而忽视视觉证据。

为量化这一现象,提出 视觉感知头散度(VHD)——该指标能测量每个注意力头对视觉输入的响应强度。通过VHD分析发现模型中的少数注意力头对视觉信息表现出显著敏感性,而大多数头则更依赖于语言规律。这很可能是多模态模型经常产生幻觉的关键原因之一。

02 VHR

团队首先提出VHD指标,用于量化注意力头对视觉信息的敏感度。VHD旨在衡量每个注意力头在生成过程中对视觉上下文的依赖程度。具体而言,对于第 层的第 个注意力头,其VHD得分计算如下:

其中,为欧式距离,表示注意力头的输出,分别代表视觉和文本输入。VHD通过对比有无图像输入时注意力头输出的差异,量化其对视觉信息的敏感度。实验发现,仅有少数注意力头表现出高VHD值,表明模型内部存在视觉感知与语言偏好头的显著分化。

进一步,我们提出 Token-VHD(T-VHD)指标,聚合每层中VHD得分最高的 个头,以评估生成每个词时模型对视觉信息的依赖程度:

统计表明, 幻觉词通常对应较低的T-VHD值,验证了语言偏好是幻觉的主要诱因之一。

视觉感知头的增强

基于VHD的分析,VHR通过以下步骤动态强化视觉敏感的注意力头:

1. 异常VHD过滤:为避免强化因视觉缺失而异常激活的注意力头,对满足以下条件的VHD得分置零:

其中 衡量无视觉输入时注意力头的激活强度。

2. 注意力头选择与强化:每层选择VHD得分前50%的注意力头,将其输出缩放 $\alpha$ 倍。

其中 为高VHD注意力头集合。此操作通过重定向注意力模块的输出方向,增强视觉上下文的贡献。

3. 分层渐进式增强:为避免层间干扰,采用逐层强化策略,并在首步生成时确定每层的关键注意力头。

为了评估VHR方法的有效性,在CHAIR、POPE和LLaVABench三个基准及多个大模型上与基线方法对比了效果。部分定量的实验结果如下表所示。更多结果烦请移步论文或代码。

表1. MSCOCO数据集上的CHAIR评估结果

表2. POPE数据集上的F1分数结果;图6. 不同方法的推理时间对比03 SSL

此外,SSL方法从语义引导的角度出发,通过分析模型内部表征空间来缓解LVLMs的幻觉问题。

VHR论文链接: https://arxiv.org/abs/2412.13949

代码链接: https://github.com/jinghan1he/VHR

SSL论文链接: https://arxiv.org/abs/2505.16146

相关内容

最新资讯

2026科普仁爱版四年级英语上... 为帮助四年级学生更好地预习和复习英语知识,快速了解小学英语教材的具体内容,我们特别整理了2026科普...
日本防卫费破9万亿,达到二战后... 据凤凰卫视报道,日本政府在12月26日的内阁会议上,正式敲定了2026年度预算,其中防卫费超过9万亿...
【微快讯】 三部门发文,完善幼... 近日,国家发展改革委、教育部、财政部联合发布《关于完善幼儿园收费政策的通知》(点击左下角“阅读原文”...
当孩子说不想上学, 别慌!试试... “妈妈,我不想上学了。” 当这句话从孩子口中说出,很多父母的第一反应,就像瞬间被抽空了力气——天塌...
世界最长高速公路隧道通车在即 这是12月20日拍摄的新疆乌尉高速公路天山胜利隧道内景。世界最长高速公路隧道——天山胜利隧道及其所在...
从ADS到L3进阶:鸿蒙智行如... 当辅助驾驶行业站在L3级商业化的门槛前,政策破冰仅仅拉开了序幕,真正的较量在于技术架构的底层实力。近...
2025人形机器人专题之本体:... 今天分享的是:2025人形机器人专题之本体:AI技术革命,车企转型具身智能 报告共计:74页 人形机...
首批L3级自动驾驶来了,这次真... 很多人都期待:在拥堵通勤上,车辆能真正“自己开”!近日,随着我国两款L3级自动驾驶车型获附条件准入许...
全国首辆L3级自动驾驶汽车上路... 自动识别红绿灯,自动紧急刹停……这样的场景已不再局限于科幻大片。12月25日晚高峰时段(17:00-...
从汽车到金融:百度伐谋如何让A... 在亚洲领先的独立汽车设计研发机构阿尔特,一场围绕汽车风阻优化的技术革新正悄然展开。12月25日百度A...