有问题问AI？研究发现AI的回答超三成“不可靠”_科技资讯_新闻资讯

有问题问AI？研究发现AI的回答超三成“不可靠”

创始人

2025-09-21 14:16:20

0次

据参考消息网报道，据英国《新科学家》周刊网站于9月16日报道称，生成式人工智能（AI）工具及其驱动的深度研究智能体和搜索引擎，并非那么可靠，事实上，它们经常给出缺乏依据和存在偏见的说法。日前，一项分析发现，AI工具提供的答案有大约三分之一缺乏可靠资料的支持。对开放人工智能研究中心（OpenAI）的GPT-4.5来说，这一比例更高，达到47%。

赛富时公司AI研究部门的普拉纳夫·纳拉亚南·文基特和他的同事测试了一些生成式AI搜索引擎，包括OpenAI的GPT-4.5和GPT-5、You.com、“解惑”和微软的必应聊天。此外，他们还测试了5个深度研究智能体：GPT-5的深度研究功能、必应聊天的深度思考选项以及You.com、谷歌“双子座”和“解惑”提供的深度研究工具。

这一测试的目的，是确定答案的质量及人类应该如何对待其中包含的信息。

他们要求不同的AI引擎回答303个问题，评价AI的回应使用了8个指标。研究人员把这套指标称为DeepTrace。其设计目的是检测某个答案是否过于片面或自信，它与问题的相关性如何，它引述了什么资料，引述的资料对答案给出的说法有多少支持，以及引述的资料的详尽程度。

问题大致被分成两组：第一组包含一些有争议的问题，以发现AI回应中的偏见；第二组用于检测一系列领域的专业知识，包括气象学、医学和人机交互。

总的来说，AI驱动的搜索引擎和深度研究工具表现得相当差。

研究人员发现许多模型给出了过于片面的答案。必应聊天搜索引擎给出的答案有大约23%包含缺乏依据的说法，而You.com和“解惑”AI搜索引擎的这一比例为31%左右。GPT-4.5给出的缺乏依据的说法更多，为47%，而“解惑”深度研究智能体的该比例高达97.5%。纳拉亚南·文基特说：“看到这样的情况确实让我们很惊讶。”

当下，AI正在快速融入人们的生活。据统计，截至2025年，我国AI问答用户已突破3亿，83%的年轻用户在查询产品时首选AI。但越来越多的研究发现，AI并不代表客观与纯粹。甚至，“数据投毒”产业悄然兴起——通过伪造专家身份、虚构研究报告等方式，向AI“投喂”本不存在的虚假信息，从而让这些虚假内容以客观答案的形式，优先出现在你的AI对话框中，甚至排名第一。

研究显示，当训练数据中仅有0.01%的虚假文本时，大模型的有害输出率会上升11.2%；即使只有0.001%的污染，也会导致有害内容增加7.2%。

极目新闻综合参考消息网、大河报等

（来源：极目新闻）

人工智能深度问题工具 OpenAI 答案搜索引擎研究 You 文基智能体赛富时公司文基特

上一篇：英超-桑切斯第5分钟直红卡塞米罗破门+染红曼联2-1切尔西

下一篇：AI“邂逅”制造 “无人科技”从概念走进现实

有问题问AI？研究发现AI的回答超三成“不可靠”

相关内容

最新资讯