清华教授杨斌丨AI本善的三重困境_教育文化

清华教授杨斌丨AI本善的三重困境

创始人

2026-04-25 04:53:55

0次

编者按：何为AI本善？简单说，就是让AI从根本上服务于人、不伤害人，确保技术始终以人为中心。这个目标在现实中并不容易实现。

华东师范大学“AI一作”社会实验结果的公布提供了一个参考：724篇有效投稿中，AI作为第一作者的学术论文，在评审中尚未完全达到传统学术的高度与成熟度。实验发起人袁振国教授指出，虽然结果或许会让我们松口气，但我们仍需注意：传统以论文为核心的知识生产与人才培养体系正面临动摇，关于人机写作的伦理讨论已明显滞后于技术演进。说明，在教育场景中如何界定人机边界，已经成为一个紧迫问题。

清华大学杨斌院长以DeepMind创始人哈萨比斯的思考为线索，剖开了“AI本善”的三重现实困境。希望这篇文章可以给更多教育工作者一些关于“如何引导学生用好AI、用对AI”的思考。

AI本善，不是理想宣言，而是重重困境下的现实博弈。

一个很好读、也很好思的案例，绝不仅仅只推给AI伦理课的同学——每一个正在参与技术、商业与公共决策的人，都值得一读。

在AI次方思维的考卷上，善的AI次方，从来不是附加题、选做题，而是决定AI次方思维价值底色的一道必答大题。作为底数的善，不仅会因取值＞1或＜1，引发社会分化的量级差异，也可能因为正负号的翻转，带来根本性的方向偏差，乃至关乎存续的生存挑战。前者常被关注的有失技乃至失业的冲击，或少数业界巨头垄断AI造成的权力失衡；后者则有AI与人类利益相悖的失控风险，或对社会信任基础造成破坏的虚假信息泛滥，等等。

根据“善”底数与放到指数位置上的AI之间的作用关系，AI与善的议题可以分为三类：正负号上的方向会导致善恶性质的分别，涉及以人为中心的AI的本质安全，我称之为本善议题。底数之间的差距因AI而加剧分化，这方面的挑战需要制度设计，需要相关各方参与到调节、矫正与管控中，是重要的向善议题。而以AI作为工具来赋能做好事儿，善因AI变得更多更大更有效率更可持续，AI让为善更善为，属于为善议题。

这个春天因为教《AI伦理》这门课，对AI与本善、向善和为善这些话题，多了一些现在进行时的观察与思考，总体感觉到挑战越来越急迫，特别是Agentic AI让AI的能动性大大增加，需要AI科学家、企业家、投资家，与政府、社会各界，持续推动AI治理框架的建立与完善，及时消除各类隐患风险，保证和促进AI健康发展。教课怕空洞，最需要案例，而日新月异的AI实践真是帮忙，天天都提供着新鲜出炉并亟待作答的真实案例。

说到本善挑战之巨、博弈之烈、治理之难，德米斯·哈萨比斯是个极其生动也极具说服力的例子。过去10年间，他和他的伙伴以及一些同行，在追求AI安全治理立场上的挣扎与变化，正折射出AI本善面临的三重困境。

哈萨比斯在创立DeepMind的时候，有过一个单纯的未来愿景，他希望能够通过全球统一为一体的科学攻坚来推动AI技术发展。那时候大多数奇点峰会所聚集的大部分AI信仰者也都是如此，大家认同单一实体方案（Singleton Scenario），想象着在一个僻静的“地堡”似的地方，一个研究中心召集全球顶尖科学家全身心投入并期待本质安全的超级智能（AGI）的诞生。一个国际科学机构组建一个由全球各地100位最智慧的人组成的委员会，多元化，“教皇也加入其中”，领导一支团结的顶尖团队，为全人类打造安全的AI而努力。

2015年8月，那次在历史上要记一笔的DeepMind伦理与安全小组会，给了这个理想一记猛击。马斯克被哈萨比斯请来做召集人——虽然哈萨比斯1年前拒绝了马斯克收购DeepMind的邀约。内外部高手聚集一堂，立场充满分歧，真的很难达成明确的共识或结论。各种争论：AI究竟是会带来资源极大丰富，还是加剧不平等；是创造更多新工作，还是会取代更大量的重复工作；是严格监管，还是无须政府限制；谁也说不服谁。如果说这次会议还有些什么成果的话，这种各执一词，就明了地证明着“单一实体”方案过于乐观。有个哈萨比斯很不愿意看到的成果是，会后不久，OpenAI——一家非营利实验室宣告成立，马斯克、山姆·奥特曼联手，他们的动因竟然是打破他们在伦理与安全小组会上深刻感受到的谷歌DeepMind在AI领域的领先与可能的垄断。就这样，哈萨比斯请来的专家，在他想谋求的团结与协商中，迅速地变成了竞争对手。这实际上已经引发了第二重困境，稍后我会展开。

伦理与安全委员会这种外部监督的尝试失败之后，穆斯塔法·苏莱曼和哈萨比斯转而尝试一种替代方案，一种他们设计的所谓“后资本主义治理形式”，在利润诉求、生存风险和社会正义之间建构一套制衡。他们秘密地跟谷歌总部进行了多轮的治理谈判，试图通过某种拆分以及3—3—3董事会的架构，让DeepMind得以在AI安全上超脱于商业庞然大物谷歌的利益与控制。谷歌总部一直在谈，也有过支持AI安全的各种保证，也出现过似乎就能做成的样子，但方案改了又改，始终在拉锯蹉跎中。

究其内心深处的目的，哈萨比斯们是想通过拆分来增强AI的安全性，从源头来维护公共利益。他们希望通过成立这一名为“全球利益公司”的实体，建立获得民主广泛认可的非营利监督机制，并以资本主义的高效率运营，却产生具有后资本主义性质的公共效益。无独有偶，但却是反向操作，OpenAI这家最初设定为非营利的组织，这时候因为意识到所需的资金远超非营利组织所能募集得到的规模，转而动议商业公司的加入，希望借助资本机制来筹资——马斯克因此大怒，“道不同”愤而割席。试来试去，非营利式微，商业抬头。

努力以失败告终，甚至不是妥协。DeepMind与谷歌围绕治理权的拉锯战持续了三年，困难重重，直到2019年，终于宣告作罢，苏莱曼也因故离开了DeepMind。哈萨比斯并不讳言此前遭遇的失败，但他却转而提出“安全不取决于治理结构，即使有治理董事会，关键时刻它也未必会做出正确的选择。安全章程也是如此。你可以尝试协商制定，但提前多年就确立细则并不现实，因为你可能把线画错了地儿。”反躬自省后的哈萨比斯，思想来了个180度大转弯——“当你协商无须信任背书的架构时，就意味着你不信任对方。然后我想，为什么不反其道而行之，把用于谈判的精力投入在建立真正有效的信任上——尝试融入谷歌，而不是与之疏远。”

哈萨比斯生性从不喜欢控制他人，但此刻却认真地考虑自己如何能获得更大的权力，原因是简单直白的——如果“跻身核心决策层，当安全问题出现时，你能参与决断。”他解释了过去这段的挣扎与挫折作用在自己身上而发生了什么，又意味着什么——“我们经历了那些谈判，逐渐成熟。事情不是非黑即白，尤其是当你面对一项后果未知的技术时。你必须学会适应，从理想主义者转变为现实主义者，但仍然希望保持理想主义的内核。”用我在课堂上讨论的小巴达拉克的界定时刻（defining moments）理论来看，哈萨比斯的价值观因这一熔炉而被重塑。

说到博弈，取舍难在哪里？谷歌给予DeepMind的资金支持让它能够吸引到顶尖科学家，训练高成本模型——有时DeepMind一个研究团队几周消耗的算力就比全球拥有9亿用户的Gmail网络还要多；同时也给予DeepMind相当的自由度，获得了技术不会应用于武器或监控的承诺，不用搬到硅谷去，还有很多蓝天计划（自由探索研究）的难得空间。对一家商业公司，这些条件很优厚，而也必须承认，这些资源如果仅仅靠非营利机制，是很难做到的。

这就是实实在在的第一重困境，来自于非营利目的与商业组织的博弈。前者可以与具体的、直接的商业利益有一定的隔离，更能确保AI本质安全所青睐的公益性，但缺乏了后者所拥有的资金与效率，AI很难很快地发展起来。像是AGI这种超级规模的研发工程，纯科学团队或非营利机制支持的实验室，注定不会在与商业组织的博弈中占上风。哈萨比斯从期待“单一实体”到追求有公益性制衡的治理结构，退让到只能期待由像自己这样“心怀善意”的人，靠着拥有商业机构中更大的权力，以便在关键时刻做出本善的关键决策，也就是所谓的“让良心手握权力”的妥协方案。

第二重困境，则来自于一旦大型商业组织成为 AI 研发的竞争者，那么就会自然陷入多家公司为争夺领先地位而竞相拉低安全防线的囚徒困境。

只说一个例子就够了，这个例子堪称造就历史。在2020年，谷歌就已研发出足以与后来2022年底推出的ChatGPT抗衡的对话式AI模型LaMDA，其核心技术则源自谷歌2017年首创的Transformer架构——这一架构后来成为现在所有大语言模型的基石，OpenAI的GPT系列完全建立在这一基础之上。LaMDA当时的对话流畅度、逻辑连贯性甚至超过了后来初期版本的ChatGPT，但谷歌却因内部的顾虑与分歧而没有先一步把它推向市场。先机在手，却没有先发而胜，是因为什么呢？

复盘谷歌在当时的担心，复杂而多元。其中最大的顾虑，便是AI安全与声誉风险。LaMDA虽表现出色，但仍存在生成虚假信息、偏见言论的可能，而谷歌市值超万亿美元，一旦推出存在漏洞的AI产品，引发的舆论风暴与品牌损失难以估量。只一次失误，就可能失去数十亿用户一直以来的信任。

2022年6月，谷歌工程师布莱克·勒莫因在与LaMDA持续对话半年后，竟坚定认定其拥有自我意识和“感知能力”。后来将自己与LaMDA的聊天记录公之于众，最终被解雇。此事让谷歌高层更加警惕，想想，连内部工程师都能被LaMDA“误导”，一旦推向市场，普通用户又会受到怎样的影响？他们真怕任何伦理争议都可能让谷歌多年积累的品牌声誉毁于一旦。

当然，安全与声誉考量之外，还有部分顾虑来自于AI是否会颠覆核心搜索业务，这个不（用）展开。再有，作为一家成熟大公司，谷歌任何一款核心产品的推出，都需经过多个部门的层层审核——从安全团队、伦理团队，到市场团队、法务团队，每个环节都可能提出反对意见，每一次审核都拖延许久。

谷歌对“开放与封闭”的纠结成为了另一个隐性顾虑。谷歌曾是AI开放科学的坚定推动者，期待带动整个行业共同进步、携手发展。但随着AI商业化进程加速，谷歌发现自己的开放成果只是被其他企业“单向利用”却没有得到对等开放的回馈。心怀大同理想的哈萨比斯对此颇感不平。

故事的另一边，OpenAI正以新创企业、轻装上阵的搏的姿态，加速推进ChatGPT的研发与上线，这背后是山姆·奥特曼在主导。素来对奥特曼和OpenAI的风格、路线都不大看得上的哈萨比斯，本能地抗拒效仿OpenAI的做法。他并不认同奥特曼这种能言善辩、有操纵性的社交达人和投资者，认为他是一个极具野心的机会主义者，这对AI的健康发展可不是好事儿。自认服膺守善、忠于科学的哈萨比斯怎么会跟着这样一群人、步其后尘呢？他的第一反应是，绝不。这甚至影响到哈萨比斯对大语言模型这条技术路线的科学判断。

2022年11月底，ChatGPT发布，雄鸡一唱。从后来披露的真相可以看到，OpenAI当时并非做好充分准备，发布可以说是仓促上马。发布之前的一段时间里，OpenAI基于安全的考虑，对何时推出相对谨慎，但他们听闻小道消息说OpenAI原来的AI安全研究组负责人达里奥·阿莫迪的公司Anthropic——这家公司当初就是OpenAI一些核心员工因为在安全主张上与奥德曼有分歧而出走成立的——即将要推出一款聊天机器人！后来证明这是个谣传，但也并非空穴来风：Anthropic确已研发成功，但却并不会马上发布它，因为内部担心引发不稳定的AI军备竞赛——他们自己还搞了个“宪章”来约束自己。事实上，Anthropic成立的故事也代表着一个趋势：在AI推进中不断出现的公司分家、高手离职的情况，相当主要的一个原因就是在安全和治理问题上出现了无法弥合的的分歧。

这个小道消息就像是个发令枪，奥特曼和OpenAI决定不可贻误战机让Anthropic领跑，必须要先发制人。奥特曼不顾尚存的不确定性，也来不及评估潜在风险，下令团队立刻发布。出乎所有人意料，ChatGPT一经发布便迅速引爆全球，一举成为现象级产品，仅5天就吸引了100万用户，2个月内用户数量就达到惊人的1个亿，成为有史以来增长最快的消费类应用。更重要的是，这次仓促的抢跑，是由此重构了AI行业的竞争格局。

这一举动无异于一颗重磅原子弹，打破了谷歌长期占据的领先优势，其一直秉持的渐进主义安全至上的立场瞬间土崩瓦解。谷歌内部顿时陷入一片慌乱与质疑，员工们纷纷向管理层发问：“我们明明拥有更先进的技术，为什么会被OpenAI抢了先？”媒体、投资者也在反复追问“谷歌为什么在AI领域落后了”。谷歌CEO皮查伊紧急召开全员会议，会上没有了之前的犹豫与争论，只有一个坚定的声音——必须尽快推出类似产品，否则谷歌将彻底失去AI领域的主导权。

此时的哈萨比斯不仅愤怒，还激发了他一定要从不太地道的对手手里赢回来的强烈的竞争欲，“OpenAI和微软已经把坦克开到了我们的草坪上挑衅”，谷歌、谷歌DeepMind“对此别无选择，只能奋勇前进。”

ChatGPT的冲击令谷歌各方面的束缚突然被打破，要么加入要么被淘汰，后者根本不是选项。创始人佩奇尤其坚持，谷歌必须想尽一切办法迎头赶上，否则前途尽毁。与此同时，哈萨比斯立刻转变了思维方式，“公司将不再发布可能被竞争对手复制的关键研究成果，将重点放在工程上，而不仅仅在科学研究上。研究人员必须从和平时期的思维模式转变为战争时期的思维模式”。

谷歌合并了谷歌Brain和DeepMind，把研究、算力和营销力量都集中在一款聊天机器人身上，并暂停了鼓励员工自由探索的蓝天研究计划。谷歌在2022年12月紧急启动“红色警报”计划，快速推出了对话式AI产品Bard，甚至存在不少明显漏洞。哈萨比斯反思说，这与之前的计划完全不同，原本想推出一款完美的、符合AI安全原则的产品，最终却只能推出一款应战的产品。

就是这样，AI大模型开启了全面竞争时代，Anthropic在两周后发布了Claude；转过年来的2月Meta发布了Llama开源模型，允许用户免费下载和修改该模型。巨头之间陷入了一场失控的狂飙。

哈萨比斯后来说道：“我们本应推进安全工作，可这样做能达到目的吗？到时，竞赛环境将会失控！实际上，现在已经很失控了，但也许我们还有一线希望，因为只有少数几个主要推动者，我们还能控制。一旦暂停，我们将受制于任意一个人。”

回顾这段跌宕起伏的历史，哈萨比斯表达了复杂的情绪：既欣慰，又困惑。欣慰在于AGI到来时间印证了他的预言，近乎一致，而困惑的是，到来的方式充满混乱和无序。尽管哈萨比斯一直在努力缩小与对手的差距，但是AI加速发展已经逐渐失控，AI人才进入竞价战争，数据中心建设进入疯狂竞赛，哈萨比斯早年设想由DeepMind“单一实体”来掌控AI的路径，最终被证明不过是个幻想。

当生存受到威胁，伦理成了奢侈品。“危机往往是很好的课堂，所以，我一直在不停地思考这件事的意义。”也许对于哈萨比斯来说，令他最深感遗憾且无法再回头的，是就这么被一家“背离科学初心、过度商业化”的公司仓促地倒逼入局。这就是囚徒困境的可怕之处，不在于你做错了选择，而在于你根本就没得选择——当对手率先打破平衡，用违背原则的方式抢占先机，你只能马上被动跟进，哪怕这违背了你最初的坚守与原则。当然，就算没有外部的竞争压力，也不能过高地估计了个体本身对安全原则的坚守。这就说到了下一重困境。

第三重困境，是科学家在技术可能性的诱惑与技术潜在的未知风险之间，展开的很少明言却现实存在的博弈。

杰弗瑞·辛顿与哈萨比斯，两人都是在2024年获得了诺贝尔奖。那之前的2023年，正处于AI高歌猛进的时候，辛顿却决然辞去了谷歌的职位，说了是为了自己能够不受约束地公开谈论AI可能存在和带来的巨大风险。这个风险并非此刻才被觉察，但立场上的这个转变却从未如此坚定。

因为当初有过“立此存照”，让我们有机会重回2015年的牛津大学讲堂。当被公认为是这一波AI大发展重要奠基人的辛顿，在牛津大学被大家问到AI技术可能的未来图景时，他很确定地判断道，现在离AI的成熟还比较远，但：这种技术一旦成熟，就再也无法阻止人们滥用它。

啊哈，如果对人类是这么危险，“那你为什么（当初、现在）还要继续这项研究？”牛津大学哲学家尼克·博斯特罗姆立刻就这样去追问辛顿。

辛顿当时的回答是——因为“探索的诱惑实在太大了。”他后来几次坦言自己很后悔这么说过，因为“这话很真切”，是心里话。

这话从辛顿嘴里冒出来时，他的心里，应该是在重复着原子弹之父奥本海默的那句话：

当你看到某个技术上极具吸引力的事物时，你会忍不住去做；只有你在技术上取得成功之后，你才会去探讨该如何应对它带来的问题。

就总是这样，改天换地的科技，风险难测的科技，先干出来才是要紧的，是第一位的，然后再去看怎么解决它带来的麻烦。怕不怕麻烦实在太大收拾不了？或者此刻还想不清楚，能不能等先想清楚了再干？这可能是普通人的想法，但科学家们从不普通。实际情况是——很难暂停，很难收手，因为这种探索的快感，是浸入在科学家、探索家身心深处的一种伊卡洛斯式的本能。难以抗拒。难以抵御。欲罢不能。后果就算是再严重，也会忍不住要去捅破这个天。

后来，当塞巴斯蒂安·马拉比为撰写传记专程采访他时，哈萨比斯方才坦陈，“你能理解我为什么要研发AI了吧？”因为“有一个巨大的谜题等待着被解开，而它涵盖了世间万物。”“我希望能在生命终结前理解这一切。只要能理解，我就可以坦然面对死亡了。”他洞悉AI的危险之大，但他能做些什么来控制它吗？奥本海默创造了原子弹，但却无法控制它的使用。或许这也就是所有伟大科学家的殊荣，也是宿命。

如果说第一重困境，还把希望寄托在有力量能挽狂澜的科学企业家个体最心底的善，能在最要紧关头扼住安全滑坡的缰绳的话，第二重困境则让你真切地看到不管是个体善还是组织善在竞争求胜也即求生面前的被动与脆弱，第三重困境却通过解开藏在科学家心头最深处的诱惑，更是迎面就把你的这种寄托痛击个粉碎。

就是这三重困境，三种并不势均力敌的博弈，纠缠在一起，让AI本善——以AI安全至上、让AI以人为中心的底数目标——面临难以估量的挑战，持续累积着不确定性。

谢谢塞巴斯蒂安·马拉比的思想与妙笔，跨越数年采访、研究，贡献出来如此翔实且恰逢其时的传记，也感谢湛庐文化不仅提供预印本让我先睹为快，并有机会跟马拉比先生餐叙交流，趁着这些因缘际会，蒸馏出这么一个立体、写实而不得不忍痛浓缩了的案例，把人类探究“善的AI次方”的这段“记忆”，作为“上下文”提供给“AI伦理”课的同学们讨论。

作者：杨斌，清华大学可持续社会价值研究院院长

来源：清华大学可持续社会价值研究院

声明：推文基于更好更多传递信息之目的，不代表一读EDU观点和立场，如有疏漏及不足之处，请随时指正。若有来源标注错误或侵犯了您的合法权益，请后台留言，我们将及时更正、删除！

好消息

上一篇：搞权钱交易、“靠校吃校”，东莞一学校原副校长被“双开”

下一篇：2026年高考作文预测及佳作赏析：心有丘壑，亦惜微光

清华教授杨斌丨AI本善的三重困境

相关内容

最新资讯