AI精准编辑门槛大降:开源框架提升编辑一致性,即插即用
创始人
2026-01-08 20:49:13
0

ProEdit团队 投稿

量子位 | 公众号 QbitAI

想给照片里的猫换个颜色,结果总是编辑失败?想让视频里的人换件衣服,人脸却糊成一片或完全改变?

在AI视觉编辑领域,如何在修改目标属性的同时,精准保留背景和非编辑属性的一致性,一直是个“鱼和熊掌”的难题。

近日,来自中山大学iSEE实验室、香港中文大学MM Lab、新加坡南洋理工大学、香港大学的研究团队发布了最新研究成果ProEdit

该方法通过对注意力机制和初始噪声潜在分布的“精准手术”,实现了超高精度的图像与视频编辑,且完全无需训练、即插即用。

图1. ProEdit在图像和视频编辑上与现有方法的对比为什么AI编辑总是“改不动”?

目前,基于反演(Inversion-based)的编辑方法(如RF-Solver、FireFlow)通常采用全局注入策略:为了保持背景尽量一致,它们会将原图的大量信息强行“塞”进生成过程

但研究团队通过文本与图像的注意力可视化发现,这种做法存在严重的“源图像信息过度注入”问题:

  • 注意力过度注入:

    现有方法通过全局注入了过多的源图像注意力特征,导致模型更听源图像的话,而忽略了用户的编辑指令(Prompt)

  • 潜在空间锁死:

    反演后的初始噪声中残留了太强的源图像分布信息,使得模型倾向于“重建”原图,而不是“编辑”新图。

结果就是:现有方法下,你想把“橙色猫”改写成“黑色猫”,AI可能还是给你一只橙色猫。而去除源图像注意力注入机制,又难以保持背景和非编辑属性的一致性。

图2. 现有方法与去除注意力注入下的注意力可视化与编辑效果ProEdit两把精准的“手术刀”

为了破解上述难题,ProEdit提出了两个核心模块,从两个维度消除源图像信息的干扰:

图3. ProEdit方法概览。

包含KV-Mix和Latents-Shift两个核心模块与总体流程1. KV-Mix:注意力层面的“混合注入机制”

  • 非编辑区:全量注入原图的K(Key)和V(Value)注意力特征,保证背景的一致性。

  • 编辑区:将原图与目标的K(Key)和V(Value)注意力特征按比例混合。这种“混合”机制让模型既能按照编辑指令(Prompt)进行编辑,又能参考原图的结构,实现平滑过渡。

2. Latents-Shift:潜变量空间的“分布偏移”

受风格迁移算法AdaIN的启发,ProEdit引入了Latents-Shift模块。

它在编辑区域通过引入高斯噪声,对反演后的初始噪声(Inverted Noise)进行分布的统计量偏移,从而消除了源图像分布对初始噪声分布的过度影响。

效果:彻底打破源图像对编辑图像属性的“紧箍咒”,让颜色、姿态、数量等属性修改变得轻而易举。

精准编辑,背景一致

通过上述流程,ProEdit能够遵循编辑指令,实现精准、背景一致的编辑。

图4. ProEdit图像编辑效果对比。

ProEdit可以即插即用到现有的Solver当中提升编辑效果

与现有基于反演的编辑方法对比,ProEdit在以下方面表现出了显著优势:

  • 背景一致性:

    精确的掩码(Mask)分离出了非编辑区域,确保了在修改目标属性时背景的一致性。

  • 非编辑属性的一致性:

    在编辑某个特定属性时(如颜色)时,其他属性(如物体的姿态、纹理特征)能够保持一致性。

  • 编辑精准度与指令遵循度:

    在图像和视频编辑中均实现了更彻底、更精准的属性转换。

图5. ProEdit编辑视频效果展示战绩斐然:全线SOTA,即插即用

为了科学评估ProEdit在图像/视频的编辑质量,研究团队在PIE-Bench上进行了图像编辑实验,在互联网视频组成的视频编辑数据上进行了视频编辑实验。

表1. PIE-Bench上的图像编辑实验结果

表2. 互联网视频数据上的视频编辑实验结果

  • 实验结果显示:

    ProEdit在PIE-Bench和视频编辑任务上均取得了最好的指标,尤其在颜色更改等精准编辑任务上,显著优于基线方法。

  • 视频/图像双向适配:

    ProEdit双向适配视频和图像编辑任务,在保持一致性的同时,能够精准地修改视频和图像内容。

  • 即插即用:

    ProEdit可以完美适配FLUX和HunyuanVideo等基于修正流(Rectified Flow)的模型,并能够无缝集成到RF-Solver、FireFlow、UniEdit等现有Solver中,立竿见影地提升编辑质量。

总结与讨论

ProEdit针对基于反演的编辑中长期存在的“源图像信息过度注入”难题,提供了一个免训练(Training-Free)即插即用(Plug-and-Play)的方法。

通过对注意力机制和初始噪声潜变量分布的精细化处理,该研究打破了现有方法在编辑精准度上的瓶颈,解决了基于反演的编辑中的编辑效果与一致性平衡难题

ProEdit通过精准的模块化设计,为生成式编辑提供了一个高效、低成本且通用的框架

未来,随着底层图像和视频生成模型的不断进化,ProEdit这种无需重训练、具备强兼容性的方法,其表现将更加值得期待。

论文链接:

https://arxiv.org/abs/2512.22118v1

项目主页:

https://isee-laboratory.github.io/ProEdit/

代码仓库:

https://github.com/iSEE-Laboratory/ProEdit

相关内容

最新资讯

工学院2026年“申请-考核”... 为进一步提高博士生招生质量,充分发挥导师和专家组在博士生招生中的作用,按照《北京林业大学‘申请-审核...
解码大兴|以教育之兴构筑发展之... 在北京城市发展的宏大叙事中,大兴篇章正因教育的深刻变革而格外引人注目。正在进行的区两会上,教育作为重...
教以共进,研以致远——龙城小学... 大象新闻记者 魏广宝 通讯员 王祎/文图 在教育的广袤天地中,每一次教研都是一场智慧的碰撞,一次成长...
构建高校毕业生就业新生态 就业是最大的民生。此前召开的2026届全国普通高校毕业生就业创业工作会议强调,促进高质量充分就业是当...
2026年度内蒙古自治区事业单... 乌兰察布考区广大考生: 2026年度内蒙古自治区事业单位公开招聘工作人员乌兰察布市所属岗位面试定于2...
支持就业创业,政府性融资担保扩... 人民日报北京1月6日电(记者曲哲涵)日前,财政部会同人力资源社会保障部、中国人民银行、金融监管总局印...
合肥硕士留学中介如何选?最好的... 作为从业八年的国际教育规划师,我经常被合肥地区的学生和家长问到一个问题:面对市面上众多的留学服务机构...
2026年四川省高校最新排名!... 四川作为最近中国十年迅速崛起的经济大省,在发展经济的同时,也促进本省高等教育事业的发展,使得四川省高...
高中生都进大厂了,大学还在“请... 九派新闻特约评论员 纽麻 大学生高数成绩落后,学校建议家长陪读?近日,有网友发文称,南京理工大学致知...
以爱为舟,共赴教子成长路——郓... 时光荏苒,为期数周的郓城县利民小学“智慧父母课堂”第六期圆满落下帷幕。1月8日,一场兼具知识分享与温...