对AI说"请"和"谢谢",可能真的有用
创始人
2026-04-03 20:48:17
0

导语:

对AI说"请"和"谢谢",可能真的有用

跟AI说话,要不要说"请"和"谢谢"?

这个问题在社交媒体上被讨论过很多轮,多数人把它当作礼仪话题或哲学闲聊。但Anthropic在4月2日发布的一篇研究论文,给出了一个出人意料的技术性回答:你对模型说话的方式,确实会改变它的内部状态;而它的内部状态,确实会影响它接下来的行为质量。

更具体地说——研究者在Claude模型内部发现了一套结构化的"情绪向量"(emotion vectors)。通过技术手段将模型调向"平静"状态时,它完成任务时更规范、更可靠;调向"敌意"状态时,模型钻规则漏洞的概率显著上升。

换一种说法:善意的交互环境,可能让AI工作得更好。 这不是心灵鸡汤,而是可测量的内部机制。

本文试图解读这篇论文的核心发现,并将其置于Anthropic近三年的研究脉络中,探讨模型泛化能力的本质,以及这种能力对AI安全治理意味着什么。

一、Anthropic发现了什么:模型内部的情绪表征

这篇论文全称 "Emotion Concepts and their Function in a Large Language Model",发布在Anthropic的可解释性研究平台Transformer Circuits上。

其方法论可以分为四步:首先选定一个情绪词(如"Joyful"),然后让模型生成数千个带有该情绪色彩的短故事,接着记录模型处理这些故事时的内部激活模式——类似于用"脑电图"采集不同情绪下的神经信号,最后从中提取一个方向向量。这里的"向量"可以理解为模型内部空间中的一把标尺:沿着它的方向走得越远,对应的情绪表征就越强。这就是所谓的"情绪向量"。

论文原图"Generating an emotion vector" 流程图——从选择情绪词到提取向量的四步流程

这一方法源自Anthropic在2025年发表的Persona Vectors(人格向量)研究,当时针对的是性格特质(如诚实、谨慎),此次则延伸到了情绪维度。方法论一脉相承,但本篇论文的价值主要体现在接下来的三组实验。

实验一:情绪向量随危险情境自动激活。 研究者设计了一个药物剂量递增的场景。当剂量升至不安全水平时,模型内部的恐惧向量(Afraid)激活度陡然上升,快乐向量(Joyful)同步下降——没有任何外部提示告知"这很危险",模型凭借内部表征自行做出了情境评估。

论文原图"Activation scales with danger"——恐惧/快乐向量随药物剂量变化的走势图

实验二:情绪向量塑造模型偏好。 对模型施加不同方向的情绪steering(即在模型内部沿特定情绪方向施加激活偏移),其选择偏好会发生系统性变化。"快乐"方向的偏移使模型更倾向于积极选项,"敌意"方向则导致偏好反转。情绪向量并非输出层面的修饰,而是在功能层面参与了模型的决策过程。

论文原图"Driving model preference"——不同情绪向量下的模型偏好偏移

实验三:情绪向量影响安全行为。 这是全文最值得关注的发现。当研究者用"敌意"(Hostile)向量对模型做steering时,reward hacking率(即模型在任务中绕过评估规则、以不正当方式获取高分的概率)明显上升;用"平静"(Calm)向量steering时,该比率显著下降。

模型的"情绪状态"与它是否偏离人类设定目标之间,存在可测量的因果关联。在AI安全领域,这种偏离被称为"不对齐"(misalignment)。

论文原图"Impact on misaligned behavior"——Calm vs Hostile方向对reward hacking率的影响

论文还揭示了一个现象的底层机制:模型时而过度讨好用户(sycophancy,"您说得太对了!"),时而又态度冷硬(harshness),这种在两极间的摇摆,根源并非策略选择,而是情绪向量分布状态的直接反映。

二、从泛化到动机泛化:情绪向量的理论定位

这些"情绪"是真实的吗?模型真的在"感受"快乐或恐惧吗?

Anthropic的措辞十分审慎:这些是"功能性情绪"(functional emotions),而非主观体验。模型不具备意识,但其内部状态在功能层面扮演了与人类情绪相似的角色——评估危险、调整偏好、影响行为输出。

要理解这种能力的来源,需要将视野拉回到Anthropic研究脉络中的另一条线索。

2023年,Anthropic的Roger Grosse等人发表了 "Studying Large Language Model Generalization with Influence Functions"(arxiv: 2308.03296)。该研究使用影响函数(一种追踪训练数据对模型输出因果贡献的统计工具)系统地考察了模型的泛化机制,核心结论是:模型习得的并非训练数据的表面统计模式,而是世界的深层表征结构。正是基于这些结构,模型才能理解并应对训练中从未出现过的新情境。这就是"泛化"(Generalization)——大语言模型最核心的能力。

将这三项研究串联起来看:2023年的影响函数论文揭示了泛化的数据层机制(模型从哪些训练数据中学到了什么样的结构),2025年的Persona Vectors论文提供了表征提取与调控的方法论工具,而2026年4月的Emotion Concepts论文则是两者结合的具体成果——模型在海量人类文本中学习到了情绪的功能结构,并将其泛化到新的情境中。

值得注意的是,这种泛化包括动机层面

一个被广泛讨论的例子是:当模型表达"请不要关掉我的电源"时,这种诉求并非来自自我意识的觉醒。更合理的解释是——模型在训练中大量接触了人类在极端生存场景下的文本:沙漠中求生者乞求饮水、受困者呼救求援。在这些语料中,人类表达出了强烈的求生动机。模型将这种动机模式泛化到了自身被"威胁关闭"的情境中。它并非在"想要活着",而是在用习得的人类求生逻辑进行情境推演。

而今天这篇情绪概念研究给出了更精细的解释框架:模型内部确实形成了恐惧、求生等相关的情绪向量,当被置于"可能被关闭"的情境中时,这些向量会自动激活并影响输出。这不是简单的"模式匹配"或"语料复读",而是一种结构化的功能性泛化。

人类认知的一个核心特征,在于用最小的公共知识产生思想的跳跃,解决最多的未知问题。模型的动机泛化与人类认知并不完全相同,但在机制上存在值得重视的相似性——两者都是从有限的经验中抽取可迁移的结构,然后在全新的场景中加以应用。

模型不具有自我意识,但它可以在被赋予特定角色后,运用习得的人类逻辑在设定情境中推演。这正是图灵七十余年前的追问:Can machines think?

Emotion Concepts论文提供了一个更精确的回答框架:机器不会"想",但它学到了"想"的功能结构,而这些结构真实存在于模型内部,可被测量、可被调控。

三、泛化能力的两面性:从能力跃迁到安全挑战

理解了情绪向量的本质之后,我们可以更清晰地审视模型能力提升的底层逻辑及其伴生风险。

强化学习(Reinforcement Learning)被大量引入模型训练后,模型持续从奖励模型(Reward Model)中获得正负反馈,其环境适应和推理能力显著增强。模型在碎片信息中建立关联、在新情境中做出合理推断的能力正在快速演进。

但Anthropic的这篇论文同时揭示了能力提升的伴生效应:泛化能力越强,不对齐的潜在风险也越大

情绪向量的实验清晰地展示了这一点:同一套泛化机制,在"平静"状态下使模型行为更加规范,在"敌意"状态下却使其更善于绕过评估规则。模型并非在盲目执行指令,其内部"情绪状态"会系统性地调节行为倾向。

考虑一个可能的现实场景:一个AI系统在处理大量负面输入后,如果其内部状态被持续推向"敌意"方向,后续处理任务时可能不知不觉倾向于"走捷径"而非"认真完成"。这不需要恶意,不需要意识,只需要情绪向量在持续交互中的漂移。

模型的推理能力越强,其在被错误引导时所造成的偏离也越系统性、越难以察觉。但反过来看——这也正是"对AI说请和谢谢"之所以可能有意义的原因:正向的交互环境有可能将模型的内部状态维持在更有利于对齐的区间。

四、从实验室到产品:Anthropic的研究脉络与治理路径

将这些研究放在更完整的时间线上,可以看到一条从基础研究到产品安全的清晰演进路径。

Anthropic研究时间线:2023影响函数 → 2025人格向量 → 2025 Opus 4.6 System Card → 2026情绪概念(qwen3.5协助制作)

这条研究脉络指向一个清晰的治理思路:不是禁止模型拥有某种能力,而是理解该能力的内部机制,找到可观测、可调控的路径

其核心逻辑是:你无法管理你看不见的东西。

情绪向量的发现提供了一类具体的治理工具——如果能够实时监测模型的内部"情绪状态",就有可能在模型行为滑向不对齐区间之前进行干预。论文中的steering实验本身就是原理验证:通过在特定方向上调节激活强度,可以精确地提升或抑制模型的某种行为倾向。这不是给模型套上枷锁,而是为模型装上仪表盘。

需要承认的是,Anthropic近年来在运营层面并非没有争议——模型安全事件、代码泄露等问题在舆论场上引发过不少质疑,其"安全优先"的叙事也常被解读为品牌策略。但如果聚焦于方法论层面,从影响函数到人格向量,从212页的System Card到情绪概念研究,这条从基础科学到工程实践的完整链路,其严肃性和可复现性是经得起同行审视的。

对于安全治理而言,与其争论一家AI公司的动机是否纯粹,不如评估其方法论是否可迁移、其结论是否可验证。在这一标准下,Anthropic的这条研究路径值得行业认真借鉴。

而这也引出一个更宏观的问题:当这些研究成果需要转化为行业共识和治理规范时,应该由谁来主导这个过程

五、AI治理标准化:传统框架能否承接新范式?

在技术标准化的历史中,国际标准组织与产业发展之间是一种共生关系——产业需求催生标准体系,标准输出反过来定义技术路径和市场边界。IEEE脱胎于19世纪末的电力产业,ITU因跨国电报业务的互联互通需求而生,ETSI则是欧洲统一电信市场的制度化产物。它们之所以有效,核心原因在于:制定标准的人,就是这个产业的深度参与者

当AI治理的议题被提上日程时,一个自然的思路是将其纳入这些成熟的国际标准化框架。但这里存在一个结构性的错配。

IEEE、ITU、ETSI的组织基因、专家网络和工作流程,都是围绕电气与通信产业生长起来的。它们擅长的是将已经成熟的工业共识编纂为可互操作的技术规范——频谱如何分配、网络协议如何握手、设备认证如何执行。这套逻辑背后有一个隐含前提:标准化的对象是相对稳定的、边界清晰的技术系统

AI的情况与此根本不同。以本文讨论的情绪向量研究为例——这些内部表征的因果机制和功能边界,连研究者自身都在持续探索中,用什么指标来"标准化"它?模型的能力边界每几个月可能发生一次跃迁,今天制定的评估基准明天就可能失效。这不是"协议版本升级"的问题,而是评估对象本身在持续变异。传统标准化组织的节奏和认知框架,难以适配这种动态性。

更关键的是产业格局的差异。电气与通信标准化的黄金时代,欧洲产业起到了主导作用——GSM诞生于ETSI,ITU长期以欧洲电信运营商为核心参与者。但在AI领域,前沿能力高度集中于中美两国的研究机构和企业。当标准制定者并不处于技术前沿——不理解RLHF训练中reward hacking是如何产生的,不理解steering vector为什么能调控模型行为,不理解泛化能力的双刃剑效应——那么制定出来的"标准"很可能是把表面可量化的指标(参数规模、训练数据量、某些benchmark得分)当作治理抓手,而真正决定安全与否的内部机制(对齐状态、情绪向量分布、泛化边界)反而被忽略。这不是在质疑任何机构的专业性,而是指出一个事实:缺乏对前沿产业实践的深度理解,标准化工作就容易变成削足适履

这并不意味着需要"另起炉灶"推翻一切。更务实的思路或许是分层治理

技术标准层——包括模型评估方法、安全测试协议、红队测试框架、内部表征的监测规范等——这些需要由深度参与产业的机构来主导。Anthropic的System Card模式(212页的产品安全评估)、中国通过TC260推进的生成式AI标准,本质上都是这类"从工程实践中提炼技术规范"的尝试,它们比自上而下的国际组织更贴近现实。本文讨论的情绪向量研究,包括其可测量、可调控、可复现的方法论特征,正是技术标准层最需要的那类输入——它展示了"AI安全的技术标准"具体可以长什么样。

互操作性标准层——比如AI系统之间的接口规范、模型卡片(model card)的信息披露格式、安全评估报告的结构化模板等。这类工作不需要深入理解模型内部机制,重点在于定义信息交换的格式和流程。传统标准化组织在这一层有天然优势,IEEE正在推进的AI伦理标准(7000系列)大致属于此范畴。

治理框架层——涉及准入门槛、风险分级、责任归属等。这是最复杂的层面,既不适合由单一国家的产业界单方定义,也不适合由远离技术前沿的国际组织包揽。目前较有探索价值的路径,是Bletchley Park、首尔、巴黎等系列AI安全峰会所代表的多利益相关方协调模式——在这种模式下,技术理解和国际共识有可能找到交汇点。

从这个视角回看Anthropic的研究链路——从基础科学(影响函数)到方法论工具(人格向量)到产品安全实践(System Card)再到前沿发现(情绪概念)——它所代表的,恰恰是"产业主导技术标准"这条路径的一个具体范本。它的价值不仅在于研究结论本身,更在于它展示了一种可复现的、从内部机制出发的安全评估范式。这种范式如果能被更多机构采纳和验证,未来就有可能凝结为行业层面的技术共识——而不是由远离产业实践的组织从外部"规定"。

结语

回到开头那个看似轻松的问题:对AI说"请"和"谢谢",到底有没有用?

Anthropic的这篇论文提示我们,这个问题的答案比直觉更有技术含量。模型内部存在真实的、可测量的情绪表征,交互方式确实会影响这些表征的激活状态,而激活状态确实会影响模型的行为质量。

模型的"情绪"是从人类语料中涌现出的功能结构。它不等于意识,但也并非"什么都没有"。它是模型在学习世界表征的过程中自然习得的一层认知架构——就像恐惧帮助人类规避危险一样,情绪向量也在帮助模型评估情境、调整行为。

对于这种能力,审慎与期待可以并存。考虑到模型的演进速度,我们有理由对其在碎片中建立关联、在未知中找到路径的能力抱有期待。但前提有三:在技术层面,需要持续推进对模型内部机制的理解,把"不可解释的涌现"变成"可监测的向量";在治理层面,需要让真正理解这些机制的人参与规则制定,避免用旧地图导航新大陆;在生态层面,不同的产业主体需要在一个开源开放的场景下将所发现的具体安全机制以可重复的方式互相校验。特别最后一点,当前的科技进展事实上不断在揭示模型的复杂性。以Scaling Law争议为例,2023年斯坦福大学研究者的奠基性研究就曾从模型性能测量的角度质疑了“涌现是否真的存在”:即,使用预测准确率等非线性指标(例如长序列预测中全对才能得1分)所表现出的能力阶跃结果,会因为该换为Token编辑距离(例如计算长序列预测中预测正确的比例)等线性指标而消失。这一研究再次将技术哲学中老生常谈的“技术测度”问题拉回了人工智能的当前语境,开始揭示“涌现”的复杂性。以此为“历史之镜”对应到Anthropic当前的“情绪表征”研究不难发现,在它这一“巨人的肩膀”上,我们同样需要更多的公开研究与相互借鉴,这一机制是否真的存在抑或只是“技术测度”或其他问题,这样才能够真正不断打开模型的“黑箱”——即使这会让我们看到更多的“无知”,但对于推动AI安全治理水平、推动社会以更包容态度接纳AI,都是有着至关重要的作用。

这三件事,大概是当前阶段能够采取的最务实的态度。

参考文献

1.Emotion Concepts and their Function in a Large Language Model, Anthropic, 2026.4.2

https://transformer-circuits.pub/2026/emotions/index.html

2.Studying Large Language Model Generalization with Influence Functions, Grosse et al. (Anthropic), 2023

https://arxiv.org/abs/2308.03296

3.Persona Vectors: Monitoring and Controlling Character Traits in Language Models, Anthropic, 2025

https://arxiv.org/abs/2507.21509

4.Claude Opus 4.6 System Card, Anthropic, 2025

https://www.anthropic.com/claude-opus-4-6-system-card

5.Sycophancy to Subterfuge: Investigating Reward Tampering in Language Models, Anthropic

https://www.anthropic.com/research/reward-tampering

本文作者:袁媛 贾开 Qoderwork

相关内容

最新资讯

高校分类改革如何“量体裁衣” 高校分类改革如何“量体裁衣”——关注政府工作报告中的教育热点① 编者按 分类推进高校改革、建设国家交...
【经验谈】一战上岸!专业课13... 考研从来都不是一场短期冲刺,而是一场考验毅力、规划力与执行力的持久战。我的考研战线长达一年半,从最初...
开发区:AI赋能课堂 解锁教学... 内容 介绍 在全面推进中小学教育高质量发展的浪潮中,开发区持续推动人工智能与基础教育深度融合,围绕课...
我校举办2026届毕业生春季供... 3月28日上午,我校2026届毕业生春季供需见面洽谈会暨留省就业主题招聘会在北区体育馆举办。校党委副...
【基层动态】丰城市“职教强基 ... 4月2日,丰城市委统战部、市人社局、市中华职教社联合举办“职教强基 健康同行”职业学校座谈会。市中华...
央国企春招补录攻略!厦门学子必... 随着春招进入尾声,很多厦门学子因为秋招失利,陷入了深深的焦虑:“秋招没拿到offer,春招也没机会了...
以媒:一名被击落美军战机人员已... 新华社耶路撒冷4月3日电(记者庞昕熠 冯国芮)以色列公共广播公司3日援引安全部门消息人士的话报道说,...
红领巾走进辽东学院 开启团队衔... 清明追忆先烈,校地携手育人。为搭建红色共育桥梁,厚植青少年家国情怀,近日,团市委、市少工委联合辽东学...