腾讯开源OpenSearch-VL,突破多模态搜索AI智能体训练瓶颈
创始人
2026-05-07 18:28:38
0

IT之家 5 月 7 日消息,腾讯混元(Tencent Hunyuan)携手加州大学洛杉矶分校(UCLA)、香港中文大学等学府,联合发布 OpenSearch-VL 开源多模态训练方案,通过强化学习(RL)技术,打造具备前沿能力的深度搜索智能体。

多模态搜索智能体指能够处理图像、文本等多种模态输入,并主动调用外部工具(如搜索引擎、图像处理工具)进行多步骤推理、证据验证与知识检索的智能体,旨在解决知识密集型的复杂视觉问答。

该报告昨日(5 月 6 日)在 arXiv 平台发表,介绍了 OpenSearch-VL 方案,用于训练前沿多模态深度搜索智能体。研究构建了高质量数据管道,通过维基百科路径采样与模糊实体重写减少检索捷径,产出 SearchVL-SFT-36k 等数据集。

研究团队指出,目前阻碍前沿多模态搜索智能体进化的最大瓶颈,在于高质量的训练数据。现有顶尖系统多由商业公司主导,其数据来源、过滤标准与工具使用轨迹均属私有,阻碍了先进能力的复现与系统性研究。

研究提出 OpenSearch-VL,提供从数据、工具到训练算法的完整开源方案。

在构建数据管道方面,OpenSearch-VL 提出利用维基百科的超链接图谱,执行多跳实体路径采样,将中间实体重写为模糊描述,并将锚点实体锚定至源图像,从而抑制单步检索捷径,鼓励智能体学习多跳搜索与推理行为。

管道产出 SearchVL-SFT-36k 数据集用于监督微调,平均每轨迹包含 6.3 次工具调用。同时,随机选取 10% 数据应用模糊、下采样等降质处理,配对增强工具,诱导“边思考边处理图像”的行为。

工具环境超越仅检索的智能体,统一文本搜索、图像搜索、OCR、裁剪、锐化、超分辨率与透视校正等功能。这允许智能体在查询外部知识前,先处理模糊、低分辨率或倾斜的视觉输入,实现主动感知与知识获取的结合。

实验显示,OpenSearch-VL-30B-A3B 模型将基线平均得分从 47.8 提升至 61.6,在 VDR、MMSearch 等基准上取得显著增益。消融实验验证了各组件贡献:移除源锚点锚定、模糊重写或分阶段过滤导致平均得分下降 8.2 至 11.5 点。

IT之家附上参考地址

相关内容

最新资讯

追踪丨同济大学通报教师论文造假... 5月6日,同济大学发布情况通报: 近日,针对网络上对我校教师王某相关论文数据存疑的反映,学校成立调查...
世乒赛女团:孙颖莎五局险胜金娜... 北京时间5月7日,2026国际乒联世界团体锦标赛在伦敦继续进行,在女子团体八强的一场比赛中,孙颖莎五...
AI“智能体”生态规模化落地加... 众做周知,进入2026年以来,AI竞争日趋白热化,科技巨头微软(MSFT.US)试图“杀出”重围。 ...
解读国考税务面试优质机构,诚信... 在当今竞争激烈的就业市场中,公务员岗位因其稳定性和良好的发展前景,吸引了众多求职者的目光。其中,国考...
中信银行2026校招放榜:14... 近日,中信银行陆续公布了2026年校园招聘拟录取名单(第九批至第十一批)。三批次共计录取463人,其...
深耕数字经济专业,完善科创人才... 数字经济成为新质生产力核心增长引擎,数字贸易、数字金融、商业人工智能等新兴本科专业落地增设。数字化产...
明起报名!国考补录公告! 据国家公务员局消息,中央机关及其直属机构2026年度补充录用公务员报名即将开始,报考者可于5月8日8...
沈伯洋民调被蒋万安碾压,陈冠安... 2026年台北市长选战提前开打,岛内深绿智库5月7日公布一份最新民调,显示现任台北市长蒋万安支持率为...
京津冀校外教师培训活动在京成功... 来源:滚动播报 (来源:千龙网) 千龙网讯(记者 吴娜) 4月28日至29日,由北京市少年宫、北京市...
从专科到硕士!成都锦城学院一寝... 中新网四川新闻5月7日电 (张卓)最近,在成都锦城学院有一间寝室,四名大学生全员考上研究生。从专科到...