访谈：将AI智能体作为评判者应用于生成式AI工作流程_科技资讯_新闻资讯

创始人

2025-09-18 07:16:58

0次

劳埃德银行集团首席数据与分析官拉尼尔·博特朱指出，大约40年前，银行分行经理能够了解每位客户的姓名，并能提供个性化建议和指导。但在当今世界，这种模式无法规模化。

"在理财规划领域，英国大多数人都无法负担得起财务规划师的费用。"他说。

同时，受过培训的理财顾问数量不足，无法为所有寻求建议的人提供帮助，这就是为什么金融机构正在研究如何部署生成式人工智能来直接为客户提供支持。

但是超大规模厂商的大语言模型和生成式AI就像黑盒子一样，可能会提供错误的回应，在AI术语中被称为"幻觉"。这些问题在受到金融行为监管局（FCA）监管的行业中都是不可接受的。

令博特朱兴奋的是，能够通过人工智能将40年前的银行经理模式扩展到满足当前需求，以一种让银行确信AI能够理解人们的需求并以可评估且符合FCA指导原则的方式为他们提供正确指导的方式。

"从为英国更广泛和更大的人群提供高质量财务指导的角度来看，这将是一个巨大的'突破'。"他说。

正如博特朱所指出的，银行多年来一直在使用AI。"我们已经使用各种机器学习算法来进行信贷风险评估和欺诈筛查超过15年，"他说。"我们也已经使用聊天机器人至少10年了。"

因此，AI在金融服务中是一个被广泛使用的能力。然而，新的是生成式AI和智能体AI。"生成式AI在2022年底随着ChatGPT的出现而爆发，现在已经差不多两年半了。"博特朱说。

虽然银行在AI方面有经验，但他们需要弄清楚如何使用生成式AI和大语言模型。谈到自己的经验，博特朱说："我们考虑的是模型性能以及我们是否使用了正确的算法等问题。"

还有透明度、伦理、防护机制以及AI模型如何部署的问题。博特朱说："这些对大语言模型和传统AI都是共同的。但生成式AI在金融服务中有特殊挑战，因为我们是一个受监管的行业。"

由于生成式AI经常会导致幻觉，他说银行必须对如何将大型行动模型直接暴露给客户非常谨慎。"我们投入了大量精力确保大语言模型的输出是正确、准确和透明的，并且没有偏见。"

在受监管的行业中，确保AI模型不产生幻觉至关重要。"这可能是我们需要真正认识到的关键问题之一。"他说。

对专业AI模型的需求

正如博特朱所指出的，像Google Gemini这样的模型是在所有内容上训练的。"如果你问它一个问题，输出将基于它对所有事物的知识。它是在大量数据上训练的。"

然而，并非所有这些数据都与金融服务相关。通过将AI模型限制在特定于金融服务的数据上，理论上该模型应该减少幻觉。

"我们强烈认为，我们想要使用专门在与英国相关的金融服务数据上训练的语言模型或一组模型。"博特朱说。

这促使劳埃德银行集团与苏格兰初创公司Aveni合作，支持开发FinLLM，这是一个金融服务专用的大语言模型。2024年，该公司获得了来自Puma私募股权的1100万英镑投资，劳埃德和Nationwide也参与其中。

谈到与Aveni的合作，博特朱说劳埃德银行集团不想被绑定到一个特定的模型上，所以决定对基础模型采取开放方法。从AI主权的角度，他说："我们不想局限于大型超大规模模型。有一个奇妙的开源模型生态系统，我们想要鼓励，而且我们能够在英国创建一个以英国为中心的FinLLM，这是我们发现非常有吸引力的东西。"

银行一直在其审计团队中测试FinLLM，劳埃德银行集团的集团审计与行为调查部门（GA&CI）开发的审计聊天机器人虚拟助手正在改变审计师访问和交互审计情报的方式。该聊天机器人将生成式AI与集团的内部文档系统Atlas集成，使信息检索更快、更智能、更直观。

博特朱说，银行有效地使用FinLLM及其对审计的知识训练了聊天机器人，基于它收集的所有审计数据。

他将劳埃德银行集团采取的减少错误的方法描述为"智能体作为评判者"。"你可能有一个特定的模型或智能体产生特定的结果，"他说。"然后我们会开发不同的模型和不同的智能体来审查这些结果并有效地对它们评分。"

银行一直与Aveni密切合作，开发使用AI智能体作为评判者来评估其他AI模型输出的方法。

每个结果都由一组不同的模型独立评估。对AI模型输出的审查使劳埃德能够确保它们符合FCA指导原则以及银行的内部法规。

根据博特朱的说法，检查AI模型的输出是再次确认客户没有得到错误建议的非常好的方法，他补充说："我们正在完善这些防护措施，我们必须建立这个流程是至关重要的。"

博特朱指出，无论采用"智能体作为评判者"的方法，让人类参与循环仍然很重要。"在未来，人类参与循环仍然有很大的位置。"他说。

智能体AI中不同AI模型的力量

虽然像FinLLM这样的AI模型已经被调整为理解银行业务的来龙去脉，但博特朱说其他模型在理解人类行为方面要好得多。这意味着银行可以，例如，使用来自超大规模厂商的AI模型之一，如ChatGPT 5或Google Gemini，来理解客户实际在说什么。

"然后我们会使用不同的模型将他们所说的内容分解为组成部分，"他说。然后不同的模型被分配处理客户查询的每个不同部分。"我们对此的思考方式是，有不同强项的不同模型，我们想要做的是为每个任务使用最好的模型。"

这种方法是银行看待智能体AI部署的方式。博特朱说，通过智能体AI，问题被分解为越来越小的部分，不同的智能体响应每个部分。在这里，让智能体作为评判者几乎就像第二线同事充当观察者。

Q&A

Q1：什么是"智能体作为评判者"的方法？

A：这是劳埃德银行集团采用的一种AI质量控制方法。当一个特定的模型或智能体产生结果时，银行会开发不同的模型和智能体来审查这些结果并对其评分，确保输出符合FCA指导原则和银行内部法规。

Q2：FinLLM与普通大语言模型有什么区别？

A：FinLLM是专门在与英国相关的金融服务数据上训练的大语言模型，与Google Gemini等在所有内容上训练的通用模型不同。通过限制在金融服务特定数据上，FinLLM理论上应该减少幻觉，提供更准确的金融相关回答。

Q3：生成式AI在金融服务中面临哪些特殊挑战？

A：主要挑战包括AI模型可能产生的"幻觉"（错误回应），这在受金融行为监管局监管的行业中是不可接受的。银行必须确保AI输出正确、准确、透明且无偏见，同时符合监管要求，这需要建立严格的防护措施和审查机制。

Aveni 评判者银行模型访谈拉尼尔·博特朱工作集团 Gemini 智能智能体博特朱 FinLLM