当DeepSeek在今年1月发布其R1模型时,这不仅仅是又一个AI产品发布。这是一个分水岭时刻,在整个科技行业引发震动,迫使行业领导者重新思考AI开发的基本方法。
DeepSeek成就的非凡之处并非在于开发了全新能力,而是以极低成本实现了与科技巨头相当的结果。实际上,DeepSeek并未做任何前所未有的事情;其创新源于追求不同的优先级。因此,我们现在正经历着沿着两个平行轨道的快速发展:效率和算力。
随着DeepSeek准备发布R2模型,同时面临美国可能实施更严格芯片限制的威胁,回顾其如何获得如此关注变得重要。
在约束中创新
DeepSeek的崛起如此突然且戏剧化,令我们着迷,因为它展示了创新在重大约束下仍能蓬勃发展的能力。面对美国出口管制限制获取尖端AI芯片,DeepSeek被迫寻找AI发展的替代路径。
当美国公司通过更强大的硬件、更大的模型和更好的数据追求性能提升时,DeepSeek专注于优化现有资源。它以卓越的执行力实施已知理念——而在执行已知概念并做好这一点上确实存在新颖性。
这种效率优先的思维产生了令人印象深刻的结果。据报道,DeepSeek的R1模型以仅5-10%的运营成本就能匹敌OpenAI的能力。根据报告,DeepSeek V3前身的最终训练仅花费600万美元——前特斯拉AI科学家Andrej Karpathy称之为相比美国竞争对手数千万或数亿美元投入的"玩笑预算"。更令人震惊的是,据报OpenAI在训练最新"Orion"模型上花费5亿美元,而DeepSeek仅用560万美元就实现了更优的基准测试结果——不到OpenAI投资的1.2%。
如果你因为相信这些令人难以置信的结果是在DeepSeek无法获得先进AI芯片的严重劣势下实现的而兴奋不已,我很遗憾地告诉你,这种叙述并不完全准确(尽管这是个好故事)。最初的美国出口管制主要针对计算能力,而非内存和网络——这是AI开发的两个关键组件。
这意味着DeepSeek获得的芯片质量并不差;其网络和内存能力使DeepSeek能够在多个单元间并行化操作,这是高效运行大型模型的关键策略。
这一点,结合中国对控制整个AI基础设施垂直堆栈的国家推动,产生了许多西方观察者未曾预料的加速创新。DeepSeek的进步是AI发展的必然部分,但它们将已知进步提前了几年,这相当了不起。
实用主义胜过流程
除了硬件优化,DeepSeek的训练数据方法代表了对传统西方实践的另一次偏离。据报道,DeepSeek没有仅依赖网络抓取内容,而是大量利用合成数据和其他专有模型的输出。这是模型蒸馏的经典例子,即从真正强大的模型中学习的能力。然而,这种方法引发了可能令西方企业客户担忧的数据隐私和治理问题。尽管如此,它强调了DeepSeek对结果而非流程的整体实用主义关注。
合成数据的有效使用是关键差异化因素。合成数据在训练大型模型方面可能非常有效,但必须谨慎;某些模型架构处理合成数据比其他架构更好。例如,像DeepSeek使用的基于变换器的专家混合(MoE)架构在整合合成数据时往往更稳健,而像早期Llama模型中使用的更传统密集架构在合成内容训练过多时可能会经历性能下降甚至"模型崩溃"。
这种架构敏感性很重要,因为合成数据相比真实世界数据引入了不同的模式和分布。当模型架构不能很好地处理合成数据时,它可能学习合成数据生成过程中存在的捷径或偏见,而非可泛化的知识。这可能导致在真实世界任务上的性能降低、幻觉增加或面对新情况时的脆弱性。
尽管如此,据报DeepSeek的工程团队从最早的规划阶段就专门设计了考虑合成数据集成的模型架构。这使公司能够利用合成数据的成本优势而不牺牲性能。
市场反响
为什么这一切都很重要?除了股市反应,DeepSeek的出现已在行业领导者中引发实质性战略转变。
以OpenAI为例:Sam Altman最近宣布计划发布公司自2019年以来首个"开放权重"语言模型。对于一家建立在专有系统基础上的公司来说,这是相当显著的转向。看起来DeepSeek的崛起,加上Llama的成功,给OpenAI领导者带来了沉重打击。在DeepSeek出现仅一个月后,Altman承认OpenAI在开源AI方面"站在了历史的错误一边"。
据报OpenAI年运营支出70-80亿美元,来自DeepSeek等高效替代方案的经济压力已变得无法忽视。正如AI学者李开复直言不讳地说:"你每年花费70或80亿美元,造成巨大亏损,而这里有一个竞争对手推出免费的开源模型。"这必然要求改变。
这一经济现实促使OpenAI寻求400亿美元的大规模融资轮次,公司估值达到前所未有的3000亿美元。但即使拥有充足资金,根本挑战依然存在:OpenAI的方法比DeepSeek的资源密集度要高得多。
超越模型训练
DeepSeek加速的另一个重要趋势是向"测试时计算"(TTC)的转变。由于主要AI实验室现在已在互联网上大部分可用公共数据上训练了它们的模型,数据稀缺正在减缓预训练的进一步改进。
为了解决这个问题,DeepSeek宣布与清华大学合作,实现"自主原则批评调优"(SPCT)。这种方法训练AI开发自己判断内容的规则,然后使用这些规则提供详细批评。系统包含一个内置"判断器",实时评估AI的答案,将响应与核心规则和质量标准进行比较。
这一发展是AI系统自主自我评估和改进运动的一部分,其中模型使用推理时间来改进结果,而不是简单地在训练期间使模型更大。DeepSeek称其系统为"DeepSeek-GRM"(通用奖励建模)。但是,与其模型蒸馏方法一样,这可能被认为是希望与风险的混合。
例如,如果AI开发自己的判断标准,存在这些原则偏离人类价值观、伦理或背景的风险。规则可能最终过于严格或有偏见,优化风格而非实质,和/或强化错误假设或幻觉。此外,没有人在环路中,如果"判断器"有缺陷或不对齐,可能会出现问题。这是一种AI自说自话,没有强有力的外部基础。除此之外,用户和开发者可能不理解AI为什么得出某个结论——这涉及更大的担忧:是否应该允许AI仅基于自己的逻辑来决定什么是"好"或"正确"?这些风险不应被忽视。
同时,这种方法正在获得关注,因为DeepSeek再次建立在他人工作基础上(想想OpenAI的"批评和修订"方法、Anthropic的宪法AI或自奖励代理研究),创造了可能是商业努力中SPCT的首个全栈应用。
这可能标志着AI自主性的强大转变,但仍需要严格的审计、透明度和保障措施。这不仅仅是模型变得更聪明,而是它们在开始没有人类护栏的自我批评时保持对齐、可解释和可信。
展望未来
考虑到所有这些,DeepSeek的崛起标志着AI行业向并行创新轨道的更广泛转变。虽然公司继续为下一代能力构建更强大的计算集群,但也将通过软件工程和模型架构改进来寻找效率提升,以抵消AI能耗挑战,这远超发电能力。
公司正在关注。例如,微软已暂停全球多个地区的数据中心开发,重新校准向更分布式、高效的基础设施方法。虽然仍计划在本财年在AI基础设施上投资约800亿美元,但公司正在重新分配资源以响应DeepSeek向市场引入的效率提升。
Meta也做出了回应,发布了最新的Llama 4模型系列,标志着其首次使用MoE架构。Meta在推出Llama 4时特别将DeepSeek模型纳入其基准比较,尽管比较两者的详细性能结果未公开详细披露。这种直接竞争定位标志着格局的转变,中国AI模型(阿里巴巴也在参与)现在被硅谷公司认为值得作为基准。
在如此短时间内有如此多变化,具有讽刺意味的是,旨在维持美国AI主导地位的美国制裁可能反而加速了它们试图遏制的创新。通过限制材料获取,DeepSeek被迫开辟新路径。