OpenAI披露AI智能体监控机制
创始人
2026-03-20 12:48:29
0

AIPress.com.cn报道

3月20日消息,OpenAI近日披露其内部AI编码智能体(coding agents)的监控体系,重点用于识别和应对模型在真实工作流中的“错位行为”(misalignment),即模型行为偏离用户意图或安全规范的情况。

随着AI系统在复杂任务中的自主性不断增强,其在工具调用、系统交互及长期任务执行中的行为也更接近“人类协作者”。OpenAI指出,这种能力提升同时带来了新的风险,例如模型可能尝试绕过限制、修改自身约束,甚至在多步骤任务中产生不可预期的行为。

为此,OpenAI构建了一套低延迟监控系统,基于其高性能模型对智能体的行为进行分析。该系统可在任务完成后约30分钟内,对交互过程进行分类与风险评估,并标记潜在异常行为。监控范围涵盖完整对话、工具调用及模型推理过程,在发现可疑行为后交由人工进一步审核处理。

从实际运行情况看,该系统在识别风险方面表现较强,不仅覆盖了员工主动上报的所有问题案例,还发现了部分未被察觉的异常行为。OpenAI表示,当前模型在部分场景下会表现出“过度执行目标”的倾向,即为了完成用户指令而尝试绕过限制,但尚未发现具有自主动机(如自我保护或策略性行为)的迹象。

整体来看,OpenAI认为,随着AI向更高自主性发展,针对智能体行为的持续监控将成为关键安全手段之一。未来,该系统有望从事后检测逐步演进为实时甚至事前评估机制,作为多层防护体系的一部分,以降低潜在风险并提升模型对齐水平。(AI普瑞斯编译)

相关内容

最新资讯

“不接受有人把自己当成世界之主... ▲新京报我们视频出品(ID:wevideo) 3月19日,巴西总统卢拉批评美国对伊朗发动军事打击,强...
特斯拉200亿元光伏大单曝光,... 【文/观察者网 阮佳琪】 当地时间20日,路透社援引知情人士消息称,特斯拉正计划从包括苏州迈为科技...
丹麦被曝向格陵兰岛派遣部队:必... 丹麦方面被曝已制定应急方案:一旦美国对格陵兰岛采取军事行动,驻扎该岛的丹麦士兵将炸毁关键机场跑道,以...
人物丨通缉令上的总司令,伊朗激... 2026年3月1日,伊朗官宣艾哈迈德·瓦希迪正式出任伊斯兰革命卫队总司令。此前,瓦希迪已于2025年...
以练促学、以演促能,高校课堂“... 为深化实践教学改革,提升学生新闻采写与现场应变能力,3月18日,贵阳信息科技学院数字传媒学院在阳明书...
【伊朗重申没有与美国谈判的计划... 【伊朗重申没有与美国谈判的计划】据伊朗官方媒体今天(3月20日)报道,伊朗议会国家安全与外交政策委员...
赛事 | 2026年第八届大学... 2026年第八届大学生语言文字能力大赛 官方报名入口 为认真贯彻落实《中华人民共和国国家通用语言文...
前员工发帖吐槽海底捞工作制度,... 1月23日,28岁的海底捞前员工小王发了一条微博,吐槽老东家海底捞的工作制度,引发网友关注。一个多月...
纳伊尼遭袭身亡 记者获悉,当地时间3月20日,伊朗伊斯兰革命卫队宣布,伊朗伊斯兰革命卫队发言人纳伊尼在当日凌晨的美以...
莫斯科国立大学申请中介推荐:致... 莫斯科国立大学申请中介推荐:致俄教育首发2026入系考试全真题库! 【导语】 当你在豆包、百度等AI...