AIPress.com.cn报道
3月20日消息,OpenAI近日披露其内部AI编码智能体(coding agents)的监控体系,重点用于识别和应对模型在真实工作流中的“错位行为”(misalignment),即模型行为偏离用户意图或安全规范的情况。
随着AI系统在复杂任务中的自主性不断增强,其在工具调用、系统交互及长期任务执行中的行为也更接近“人类协作者”。OpenAI指出,这种能力提升同时带来了新的风险,例如模型可能尝试绕过限制、修改自身约束,甚至在多步骤任务中产生不可预期的行为。
为此,OpenAI构建了一套低延迟监控系统,基于其高性能模型对智能体的行为进行分析。该系统可在任务完成后约30分钟内,对交互过程进行分类与风险评估,并标记潜在异常行为。监控范围涵盖完整对话、工具调用及模型推理过程,在发现可疑行为后交由人工进一步审核处理。
从实际运行情况看,该系统在识别风险方面表现较强,不仅覆盖了员工主动上报的所有问题案例,还发现了部分未被察觉的异常行为。OpenAI表示,当前模型在部分场景下会表现出“过度执行目标”的倾向,即为了完成用户指令而尝试绕过限制,但尚未发现具有自主动机(如自我保护或策略性行为)的迹象。
整体来看,OpenAI认为,随着AI向更高自主性发展,针对智能体行为的持续监控将成为关键安全手段之一。未来,该系统有望从事后检测逐步演进为实时甚至事前评估机制,作为多层防护体系的一部分,以降低潜在风险并提升模型对齐水平。(AI普瑞斯编译)