有问题问AI?研究发现AI的回答超三成“不可靠”
创始人
2025-09-21 14:16:20
0

据参考消息网报道,据英国《新科学家》周刊网站于9月16日报道称,生成式人工智能(AI)工具及其驱动的深度研究智能体和搜索引擎,并非那么可靠,事实上,它们经常给出缺乏依据和存在偏见的说法。日前,一项分析发现,AI工具提供的答案有大约三分之一缺乏可靠资料的支持。对开放人工智能研究中心(OpenAI)的GPT-4.5来说,这一比例更高,达到47%。

赛富时公司AI研究部门的普拉纳夫·纳拉亚南·文基特和他的同事测试了一些生成式AI搜索引擎,包括OpenAI的GPT-4.5和GPT-5、You.com、“解惑”和微软的必应聊天。此外,他们还测试了5个深度研究智能体:GPT-5的深度研究功能、必应聊天的深度思考选项以及You.com、谷歌“双子座”和“解惑”提供的深度研究工具。

这一测试的目的,是确定答案的质量及人类应该如何对待其中包含的信息。

他们要求不同的AI引擎回答303个问题,评价AI的回应使用了8个指标。研究人员把这套指标称为DeepTrace。其设计目的是检测某个答案是否过于片面或自信,它与问题的相关性如何,它引述了什么资料,引述的资料对答案给出的说法有多少支持,以及引述的资料的详尽程度。

问题大致被分成两组:第一组包含一些有争议的问题,以发现AI回应中的偏见;第二组用于检测一系列领域的专业知识,包括气象学、医学和人机交互。

总的来说,AI驱动的搜索引擎和深度研究工具表现得相当差。

研究人员发现许多模型给出了过于片面的答案。必应聊天搜索引擎给出的答案有大约23%包含缺乏依据的说法,而You.com和“解惑”AI搜索引擎的这一比例为31%左右。GPT-4.5给出的缺乏依据的说法更多,为47%,而“解惑”深度研究智能体的该比例高达97.5%。纳拉亚南·文基特说:“看到这样的情况确实让我们很惊讶。”

当下,AI正在快速融入人们的生活。据统计,截至2025年,我国AI问答用户已突破3亿,83%的年轻用户在查询产品时首选AI。但越来越多的研究发现,AI并不代表客观与纯粹。甚至,“数据投毒”产业悄然兴起——通过伪造专家身份、虚构研究报告等方式,向AI“投喂”本不存在的虚假信息,从而让这些虚假内容以客观答案的形式,优先出现在你的AI对话框中,甚至排名第一。

研究显示,当训练数据中仅有0.01%的虚假文本时,大模型的有害输出率会上升11.2%;即使只有0.001%的污染,也会导致有害内容增加7.2%。

极目新闻综合参考消息网、大河报等

(来源:极目新闻)

相关内容

最新资讯

社区民警走进金盛路小学开展安全... 大象新闻记者 龚丰硕 通讯员 王宝磊/文图 为进一步提升学生安全防范意识和自我保护能力,9月16日下...
清华大学2026年丘成桐数学科... 清华大学 2026年丘成桐数学科学领军人才培养计划 招生简章 为全面贯彻党的教育方针,落实立德树人根...
安卓手机如何自降系统,安卓手机... 你有没有想过,你的安卓手机是不是有点儿“膨胀”了?运行速度越来越慢,系统越来越卡?别急,今天就来教你...
安卓系统非原生态,非原生态的魅... 你知道吗?在手机江湖里,安卓系统可是个响当当的大侠。但是,你知道吗?这个大侠其实也有他的“非原生态”...
平谷农业中关村学院成练兵场,8... 平谷区委宣传部供图 9月21日,农业中关村学院首次变成了“练兵场”。来自平谷中学、平谷三中的800...
国产最强的安卓系统,引领智能科... 亲爱的读者们,你是否曾想过,在手机的世界里,有一款国产安卓系统,它不仅强大,还充满了中国智慧?今天,...
研招丨今(22)日起报名,20... 日前,研招网发布2026年研招推免生报名流程:具有推荐免试资格的优秀应届本科毕业生和公费师范生(非全...
秋分送秋意 萌娃享秋趣——东营... 鲁网9月22日讯9月22日,东营市利津县明集乡中心幼儿园为了让幼儿了解秋分节气、关注时令、热爱生活、...
这17家央国企才是真“铁饭碗”... 高考分数决定你上哪所大学, 专业选择才真正决定你端不端得上“铁饭碗”。随着2026年校园招聘季拉开...
被发现了!这部热播剧的重要场景... 近期,青春励志剧《我在顶峰等你》在网络播出,开播4小时热度值便突破5000大关,凭借青春热血与励志元...