引文幻觉大幅下降的AI模型诞生,准确率媲美人类专家
创始人
2026-02-05 10:20:14
0

IT之家 2 月 5 日消息,紧跟最新研究进展对科学家而言至关重要,但每年发表的学术论文多达数百万篇,要做到这一点实属不易。人工智能系统在快速整合海量信息方面展现出巨大潜力,却仍存在编造内容、即“产生幻觉”的通病。

例如,华盛顿大学与艾伦人工智能研究所(AI2)的研究团队牵头分析了 OpenAI 最新模型 GPT-4o 后发现,该模型 78% 至 90% 的研究引用均为伪造。而 ChatGPT 这类通用人工智能模型,通常无法读取其训练数据采集完成后发表的学术论文。

为此,华盛顿大学与艾伦人工智能研究所的团队研发了 OpenScholar—— 一款专为整合前沿学术研究打造的开源人工智能模型。团队还构建了首个跨领域大型评测基准,用于评估模型整合与引用学术研究的能力。测试结果显示,OpenScholar 的引用准确率与人类专家持平;在 16 位科学家的盲评中,有 51% 的情况更偏爱 OpenScholar 生成的内容,而非领域专家撰写的答复。

IT之家注意到,该团队已将研究成果发表于《自然》期刊,项目的代码、数据集和演示版本均已开源,可供免费使用。

该研究的通讯作者汉娜内 · 哈吉希里齐表示:“我们上线演示版本后,很快就收到了远超预期的海量访问请求。”她同时担任华盛顿大学保罗 ·G· 艾伦计算机科学与工程学院副教授、艾伦人工智能研究所高级总监。

“梳理用户反馈后我们发现,同行和其他科研人员都在积极使用 OpenScholar。这充分说明,科研领域迫切需要这类开源、透明的学术研究整合系统。”

研究人员先完成模型训练,再为 OpenScholar 搭建了包含 4500 万篇学术论文的检索库,让模型的答复能依托成熟的科研成果。同时团队采用检索增强生成技术,使模型在训练完成后仍可检索新文献、整合内容并规范引用。

该研究的第一作者、艾伦人工智能研究所研究科学家浅井朱里(就读华盛顿大学艾伦学院博士期间完成此项研究)称:“研发初期,我们尝试结合谷歌搜索数据训练人工智能模型,但发现模型单独使用这类数据效果很差。它可能引用关联性极低的论文、仅单篇引用,甚至随意抓取博客内容。我们意识到必须让模型依托学术论文开展工作,随后优化了系统灵活性,使其能通过检索结果整合最新研究成果。”

为验证系统性能,团队搭建了 ScholarQABench 学术搜索评测基准,专门用于测评科研类人工智能系统。团队收集了 3000 条检索查询,以及计算机科学、物理学、生物医学、神经科学领域专家撰写的 250 篇长文答复。

哈吉希里齐表示:“人工智能处理现实任务的能力正不断提升,但核心问题始终是:我们能否信任它给出的答案?”

研究团队将 OpenScholar 与 GPT-4o、Meta 旗下两款顶尖人工智能模型进行对比,通过 ScholarQABench 从准确性、撰写质量、内容相关性等维度自动评测模型答复。

结果显示,OpenScholar 的表现优于所有参测模型。团队邀请 16 位科学家对各模型与人类专家的答复进行盲评对比:

  • 51% 的情况下,科学家更认可 OpenScholar 的答复,而非人类专家;
  • 若将 OpenScholar 的引用机制与工作流和大模型 GPT-4o 结合,科学家对人工智能答复的偏好率升至 70%;
  • 仅使用 GPT-4o 原生生成内容时,科学家偏好率仅为 32%。

浅井朱里表示:“科学家每天要面对海量新发论文,根本无法全部跟进,而现有人工智能系统并非针对科研人员的专属需求设计。目前已有大量科研人员使用 OpenScholar,得益于开源属性,业内同行已在本研究基础上迭代优化,进一步提升了模型效果。我们正在研发迭代模型 DR Tulu,该模型基于 OpenScholar 的技术成果,可实现多步骤检索与信息聚合,生成更全面的研究答复。”

相关内容

最新资讯

揭秘南方国际本科靠谱院校,专升... 在当今全球化的教育趋势下,国际本科项目成为了众多学生提升学历、拓宽国际视野的热门选择。尤其是在南方地...
2026粤教版高中物理必修一电... 为了让大家做好课前预习和巩固复习,下面为大家准备了2026粤教版高中物理必修一电子课本(高清版),大...
东湖评论:以“好房子”为标尺打... 2月1日晚,长江新区返乡置业购房季活动落下帷幕。本次活动以“骐骥驰骋·年味盛荟”为主题,集中推介新区...
谷城交管护航2026春运启幕 荆楚网(湖北日报网)讯(通讯员 邹静宇)为筑牢春运道路交通安全防线,保障群众平安返乡团圆,2月2日,...
现货白银快速跳水,日内跌超15... 今日早盘,现货黄金、白银快速跳水。 截至发稿,现货白银跌破80美元/盎司,日内跌超15%。沪银期...
【官方通知】2026年郑州航空... 【官方通知】2026年郑州航空工业管理学院普通专升本招生章程介绍 第一章 总则 第一条为保证郑州航空...
广东省历年高考211大学录取率... 广东省历年高考211大学录取率是多少(附:近三年分数线) 广东高考211录取率整体在4%左右波动。近...
2026鲁科版高中物理选择性必... 为了让大家做好课前预习和巩固复习,下面为大家准备了2026鲁科版高中物理选择性必修三电子课本(高清版...
男子自带折叠椅坐高铁引热议,网... 1月31日,浙江一网友在社交平台发布的一段高铁视频,引发关注。视频画面中,一名男子在高铁两节车厢连接...
清华五道口“布履金程”实践支队... 人民网北京2月3日电 为深入践行“扎根中国、面向世界”的育人理念,助力高质量共建“一带一路”,202...