OpenAI披露AI智能体监控机制_科技资讯_新闻资讯

创始人

2026-03-20 12:48:29

0次

AIPress.com.cn报道

3月20日消息，OpenAI近日披露其内部AI编码智能体（coding agents）的监控体系，重点用于识别和应对模型在真实工作流中的“错位行为”（misalignment），即模型行为偏离用户意图或安全规范的情况。

随着AI系统在复杂任务中的自主性不断增强，其在工具调用、系统交互及长期任务执行中的行为也更接近“人类协作者”。OpenAI指出，这种能力提升同时带来了新的风险，例如模型可能尝试绕过限制、修改自身约束，甚至在多步骤任务中产生不可预期的行为。

为此，OpenAI构建了一套低延迟监控系统，基于其高性能模型对智能体的行为进行分析。该系统可在任务完成后约30分钟内，对交互过程进行分类与风险评估，并标记潜在异常行为。监控范围涵盖完整对话、工具调用及模型推理过程，在发现可疑行为后交由人工进一步审核处理。

从实际运行情况看，该系统在识别风险方面表现较强，不仅覆盖了员工主动上报的所有问题案例，还发现了部分未被察觉的异常行为。OpenAI表示，当前模型在部分场景下会表现出“过度执行目标”的倾向，即为了完成用户指令而尝试绕过限制，但尚未发现具有自主动机（如自我保护或策略性行为）的迹象。

整体来看，OpenAI认为，随着AI向更高自主性发展，针对智能体行为的持续监控将成为关键安全手段之一。未来，该系统有望从事后检测逐步演进为实时甚至事前评估机制，作为多层防护体系的一部分，以降低潜在风险并提升模型对齐水平。（AI普瑞斯编译）

机制模型自主性监控风险 OpenAI 系统行为任务智能智能体普瑞斯