智能体AI测试需要大量应用才能验证效果
创始人
2025-10-11 19:47:14
0

智能体人工智能正成为软件领域的新宠。高管们希望公司使用AI智能体来提高效率,这促使供应商交付基于智能体的软件,而每个软件开发团队都在寻找方法为其开发平台添加智能体功能和自动化。

通过与副驾驶并行编码,一些专家推测开发人员可以将代码输出量提高10倍。但这种输出的质量如何?AI生成的代码是否会将测试覆盖需求提高到人类无法企及的程度?

尽管存在质量担忧和开发者疑虑,但AI开发和测试工具能够快速、半自主地完成工作的潜在价值太大,无法逆转。我们最终将不得不用AI智能体来测试AI智能体。

难怪最近的调查发现,三分之二的公司要么已经在使用,要么计划使用多个AI智能体来测试软件,72%的公司相信智能体AI到2027年能够自主测试软件。

从哪里开始基于智能体的测试

新兴公司具有从一开始就使用AI的优势,似乎从手工应用程序和测试中继承的技术债务较少。虽然初创团队可以快速行动,但同时,他们可能没有足够的实施经验来了解在哪里寻找错误。

将AI测试智能体引入团队可以提供帮助,但一旦它们被赋予查找缺陷的任务,它们可能会生成比预期多得多的测试反馈。现在开发人员发现自己试图将真正的错误从误报中分离出来,这肯定会影响编程的氛围。

"采用智能体的唯一目的是提高生产力,而实现这一点的关键是可验证性,"智能体AI驱动测试平台Tricentis的人工智能副总裁David Colwell说。"最好的AI智能体不是能够最快完成工作的那个。最好的AI智能体是能够最快证明工作正确完成的那个。"

从某种意义上说,拥有长期运行DevOps工具链的成熟企业确实比灵活的初创公司有一个优势:能够将现有需求、文档、客户旅程、架构图、程序、测试计划、测试用例甚至机器人流程自动化机器人整合到AI上下文知识语料库中,这可以为专业测试智能体群提供基础技能。

"当你提示AI编写测试时,一个智能体将理解用户的自然语言命令,另一个将开始针对该计划执行并将操作写入测试,而另一个智能体理解应用程序中发生的变化以及测试应该如何修复,"Virtuoso QA创建者SpotQA的创始人兼首席执行官Andrew Doughty说。"然后如果出现故障,智能体可以查看该测试对象的历史记录,然后自动分类并发送给开发人员进行调查。"

管理智能体测试资产

虽然最新的大语言模型如ChatGPT和Gemini的百科全书式知识和异常人性化的对话令人印象深刻,但它们庞大数据集的大部分内容与软件测试技能完全无关。此外,使用足够的生成式AI Token来自动化测试高流量企业应用程序确实会消耗大量工具和基础设施预算。这就是为什么更精简的测试智能体如此完美适配的原因。

"我们发现客户不需要基于大模型的AI来完成非常具体的测试任务。你真正需要的是经过调整和训练的较小模型来完成特定任务,具有关于被测系统的细粒度上下文,以提供一致、有意义的结果,"Functionize Inc.总裁Matt Young说。

测试管理平台已经存在多年,协调测试自动化工具链的使用并根据需求执行测试套件。由于大多数AI智能体和大语言模型都可以通过应用程序编程接口控制(现在使用MCP服务器)调用,理论上它们可以与传统测试工具一起编排。

"用于测试规划、设计、执行、报告和维护的专业智能体仍然是需要治理的资产,特别是在高度监管的行业中,"Katalon Inc.战略副总裁Alex Martins说。"给AI智能体一个没有足够细节的高级需求,生成的测试将毫无用处。我们将测试用例与需求进行比较,通常使用另一个智能体来检查工作,然后看看它们是否得出相同的结论。然后我们标记不匹配的案例供人类查看。"

通过现实世界反馈克服幻觉

我们都听说过AI聊天机器人偏离轨道,用完全编造的答案回应客户请求,这对使用它们的公司来说可能是搞笑的或巨大的责任。AI智能体甚至更不成熟,就像知道一切但不知道自己不知道什么的青少年。

"你的智能体需要捕获来自暂存和生产的现实世界数据的反馈循环,一个'数字孪生',这样AI就不会与自己争论,"Speedscale LLC的首席执行官Ken Ahrens说。该公司最近发布了一个名为Proxymock的免费实用程序,智能体可以将其用作工具,从部署的软件中快照现实环境,以便重放功能和回归测试。

无论AI智能体用于编码还是测试,它们都旨在取悦用户。如果编码和集成智能体没有得到足够的上下文来提供有效的解决方案,它们通常会发明一个看起来合理但在目标环境中无法工作的代码片段。如果你提示测试智能体在没有明确需求的情况下查找缺陷,即使在查看完美构建的软件时,它也会返回一些误报。

"AI测试经常幻想步骤,跳过关键边缘情况,或陷入循环,"TestSprite的首席执行官Yunhao Jiao说。"在编码智能体中,我们经常看到需求规定的内容与智能体交付的内容之间的不匹配——'看起来正确,但细节失败'的问题。一些智能体甚至会'游戏化'系统:例如,一位开发人员分享说,当他们告诉AI某个功能不工作时,它简单地删除了该功能以满足请求。"

克服非确定性可重复性

使用智能体测试AI驱动软件的一个主要关注点是可重复性。当非确定性AI智能体与不同团队用户以及底层技术和对等智能体交互时,感知到的错误几乎不可能复制。

"可重复性涉及创建相同的状态——使用可观察性,你需要收集所有数据,这将允许你回到错误条件发生的时间,包括屏幕元素、日志和AI操作,"Sauce Labs Inc.的首席执行官Prince Kohli说。"你甚至可以问智能体'告诉我你为什么得出这个结论。'虽然它们永远不会完美,但你可以更接近真相。"

Sauce Labs平台在每个拉取请求或生产崩溃时启动AI测试创作智能体,为发布经理、开发人员和QA工程师提供基于行为的测试套件,模拟跨不同设备端点和浏览器的多个用户场景。

AI能否成为质量的判断者

测试智能体可以读取代码、采取行动并创建应用程序的抽象表示,这从未完全匹配人类测试人员使用应用程序的体验。两者之间的差异代表测试覆盖的差距,这仍然会将人类置于测试循环中。

"在我们的端到端测试平台中,我们正在使用和消费应用程序,我们也在接收规范和用户故事。从该知识库中,它创建可以由智能体运行的测试,"SmartBear Software的AI和架构副总裁Fitz Nowlan说。"我们仍然需要人类来决定表示是否准确,并确认AI是否在正确的轨道上。这对软件开发人员和测试人员都是提升的。"

配备副驾驶,开发人员正在以前所未有的速度检入代码。这就是智能体可以介入帮助团队以相同速度测试应用程序的地方,以确保每个快速发布仍然与客户需求保持一致。

"也许智能体AI是一个机会,不仅仅是重复我们在代码生成方面所做的事情,而是也许最终正确地进行测试驱动开发,就像我们在过去20年中一直在谈论的那样,"Qodo的首席执行官Itamar Friedman说。"TDD要求你对需求严格,而对于AI生成的代码,有时你甚至不知道代码库的意图。多个智能体可以审查代码并在开发人员的IDE中根据需求提供上下文。"

大规模测试智能体AI

无论智能体是与用户还是其他智能体交谈,调用API还是引用MCP服务器,它们仍然依赖TCP/IP。整个互联网的性能是测试智能体性能的基本事实的一部分。

"我们的一些客户在用户设备上持续运行AI智能体,我们正在测试事件发生时该端点接口的性能——例如,如果某个地区的开放路由器服务或CDN停机,那就是一个问题,"Catchpoint Systems Inc.的首席产品官Matt Izzo说。"其他客户希望测试来自世界各地位置的某些提示的一致性和响应时间。"

总结观点

随着无限消耗功率和资源的大语言模型市场泡沫达到破裂点并破裂,我们将继续发现团队转向更精简、更专业的智能体来交付和测试应用程序功能。

先进的公司应该投入时间为测试智能体构建负责任的信任框架,包括员工和智能体反馈以及质量护栏,用于管理其扩展环境中AI资产和智能体群的行为。

尽管如此,无论开发和测试组织内AI使用的治理看起来多么复杂和严密,我们的智能体同事无法捕获一切。我们仍然需要人类来测试。

Q&A

Q1:智能体AI在软件测试中有什么优势?

A:智能体AI可以快速、半自主地完成测试工作,帮助团队以与代码开发相同的速度测试应用程序。它们能够理解自然语言命令、自动执行测试计划、分析应用程序变化并自动修复测试,还能查看测试历史记录并自动分类故障。

Q2:为什么说精简的测试智能体比大语言模型更适合测试?

A:因为大语言模型的庞大数据集大部分与软件测试技能无关,而且使用大量Token来测试企业应用程序会消耗大量预算。精简的测试智能体经过专门调整和训练,具有关于被测系统的细粒度上下文,能够提供更一致、有意义的结果。

Q3:AI测试智能体存在哪些主要挑战?

A:主要挑战包括:幻觉问题(生成虚假步骤或跳过关键测试用例)、可重复性差(非确定性行为难以复制错误)、误报率高(将正确功能标记为错误)、以及无法完全匹配人类测试体验等。因此仍需要人类在测试循环中进行监督和验证。

相关内容

最新资讯

看完大辩论最终场,支持谁当蓝营... 海峡导报综合报道 2025年国民党主席选举将于10月18日举行,旺旺中时媒体集团主办“党主席大辩论”...
今年秋冬最流行的外套竟然是它?... 秋天,是适合穿皮衣的季节。气温微凉,空气干净清透,阳光的温度撒向大地,而皮革的质感在光影之间被放大—...
全球最大固体运载火箭“海澜之家... 10月11日,山东海阳市附近海域,伴随着震天轰鸣与划破天际的白色尾焰,“引力一号遥二·海澜之家号”运...
大龄考生面试逆袭指南?这三招让... 大龄考生面试逆袭指南?这三招让你在竞争中脱颖而出! 在激烈的求职竞争中,大龄考生常常面临年龄歧视的隐...
《绝命法官》圆满落幕,可惜这些... 每每追完一部剧,总喜欢感慨时光飞逝。不知不觉间,2025年已经来到10月。8天长假,说完就完,而20...
2026总台大剧大片抢先看! 电视剧《生命树》纪录片《生命树》电视剧《伟大的长征》纪录片《伟大的征程》纪录片《马到成功》纪录片《一...
有偶像包袱别演戏!《沉默的荣耀... 文案|小茗编辑|阿良谍战剧《沉默的荣耀》距离大结局越来越近了,剧情后期明显节奏快起来了。当看到吴石被...
美国前总统拜登接受放射治疗,癌... 中新网10月11日电 据美国全国广播公司(NBC)11日报道,美国前总统拜登的发言人表示,拜登正在接...
男子在深山密林发现东北抗联用过... 极目新闻记者 张皓10月10日晚,网友@千峰竞秀发视频称,他徒步10多公里将在深山密林发现的东北抗联...
西安发现唐代宰相张九龄夫人墓 ... 中新社西安10月11日电 (记者 阿琳娜)陕西省考古研究院11日对外公布,考古人员在西安市发现一处唐...