DeepSeek定义AI发展路径:低成本高效率挑战传统范式
创始人
2025-06-16 17:39:43
0

当DeepSeek在今年1月发布其R1模型时,这不仅仅是又一个AI产品发布。这是一个分水岭时刻,在整个科技行业引发震动,迫使行业领导者重新思考AI开发的基本方法。

DeepSeek成就的非凡之处并非在于开发了全新能力,而是以极低成本实现了与科技巨头相当的结果。实际上,DeepSeek并未做任何前所未有的事情;其创新源于追求不同的优先级。因此,我们现在正经历着沿着两个平行轨道的快速发展:效率和算力。

随着DeepSeek准备发布R2模型,同时面临美国可能实施更严格芯片限制的威胁,回顾其如何获得如此关注变得重要。

在约束中创新

DeepSeek的崛起如此突然且戏剧化,令我们着迷,因为它展示了创新在重大约束下仍能蓬勃发展的能力。面对美国出口管制限制获取尖端AI芯片,DeepSeek被迫寻找AI发展的替代路径。

当美国公司通过更强大的硬件、更大的模型和更好的数据追求性能提升时,DeepSeek专注于优化现有资源。它以卓越的执行力实施已知理念——而在执行已知概念并做好这一点上确实存在新颖性。

这种效率优先的思维产生了令人印象深刻的结果。据报道,DeepSeek的R1模型以仅5-10%的运营成本就能匹敌OpenAI的能力。根据报告,DeepSeek V3前身的最终训练仅花费600万美元——前特斯拉AI科学家Andrej Karpathy称之为相比美国竞争对手数千万或数亿美元投入的"玩笑预算"。更令人震惊的是,据报OpenAI在训练最新"Orion"模型上花费5亿美元,而DeepSeek仅用560万美元就实现了更优的基准测试结果——不到OpenAI投资的1.2%。

如果你因为相信这些令人难以置信的结果是在DeepSeek无法获得先进AI芯片的严重劣势下实现的而兴奋不已,我很遗憾地告诉你,这种叙述并不完全准确(尽管这是个好故事)。最初的美国出口管制主要针对计算能力,而非内存和网络——这是AI开发的两个关键组件。

这意味着DeepSeek获得的芯片质量并不差;其网络和内存能力使DeepSeek能够在多个单元间并行化操作,这是高效运行大型模型的关键策略。

这一点,结合中国对控制整个AI基础设施垂直堆栈的国家推动,产生了许多西方观察者未曾预料的加速创新。DeepSeek的进步是AI发展的必然部分,但它们将已知进步提前了几年,这相当了不起。

实用主义胜过流程

除了硬件优化,DeepSeek的训练数据方法代表了对传统西方实践的另一次偏离。据报道,DeepSeek没有仅依赖网络抓取内容,而是大量利用合成数据和其他专有模型的输出。这是模型蒸馏的经典例子,即从真正强大的模型中学习的能力。然而,这种方法引发了可能令西方企业客户担忧的数据隐私和治理问题。尽管如此,它强调了DeepSeek对结果而非流程的整体实用主义关注。

合成数据的有效使用是关键差异化因素。合成数据在训练大型模型方面可能非常有效,但必须谨慎;某些模型架构处理合成数据比其他架构更好。例如,像DeepSeek使用的基于变换器的专家混合(MoE)架构在整合合成数据时往往更稳健,而像早期Llama模型中使用的更传统密集架构在合成内容训练过多时可能会经历性能下降甚至"模型崩溃"。

这种架构敏感性很重要,因为合成数据相比真实世界数据引入了不同的模式和分布。当模型架构不能很好地处理合成数据时,它可能学习合成数据生成过程中存在的捷径或偏见,而非可泛化的知识。这可能导致在真实世界任务上的性能降低、幻觉增加或面对新情况时的脆弱性。

尽管如此,据报DeepSeek的工程团队从最早的规划阶段就专门设计了考虑合成数据集成的模型架构。这使公司能够利用合成数据的成本优势而不牺牲性能。

市场反响

为什么这一切都很重要?除了股市反应,DeepSeek的出现已在行业领导者中引发实质性战略转变。

以OpenAI为例:Sam Altman最近宣布计划发布公司自2019年以来首个"开放权重"语言模型。对于一家建立在专有系统基础上的公司来说,这是相当显著的转向。看起来DeepSeek的崛起,加上Llama的成功,给OpenAI领导者带来了沉重打击。在DeepSeek出现仅一个月后,Altman承认OpenAI在开源AI方面"站在了历史的错误一边"。

据报OpenAI年运营支出70-80亿美元,来自DeepSeek等高效替代方案的经济压力已变得无法忽视。正如AI学者李开复直言不讳地说:"你每年花费70或80亿美元,造成巨大亏损,而这里有一个竞争对手推出免费的开源模型。"这必然要求改变。

这一经济现实促使OpenAI寻求400亿美元的大规模融资轮次,公司估值达到前所未有的3000亿美元。但即使拥有充足资金,根本挑战依然存在:OpenAI的方法比DeepSeek的资源密集度要高得多。

超越模型训练

DeepSeek加速的另一个重要趋势是向"测试时计算"(TTC)的转变。由于主要AI实验室现在已在互联网上大部分可用公共数据上训练了它们的模型,数据稀缺正在减缓预训练的进一步改进。

为了解决这个问题,DeepSeek宣布与清华大学合作,实现"自主原则批评调优"(SPCT)。这种方法训练AI开发自己判断内容的规则,然后使用这些规则提供详细批评。系统包含一个内置"判断器",实时评估AI的答案,将响应与核心规则和质量标准进行比较。

这一发展是AI系统自主自我评估和改进运动的一部分,其中模型使用推理时间来改进结果,而不是简单地在训练期间使模型更大。DeepSeek称其系统为"DeepSeek-GRM"(通用奖励建模)。但是,与其模型蒸馏方法一样,这可能被认为是希望与风险的混合。

例如,如果AI开发自己的判断标准,存在这些原则偏离人类价值观、伦理或背景的风险。规则可能最终过于严格或有偏见,优化风格而非实质,和/或强化错误假设或幻觉。此外,没有人在环路中,如果"判断器"有缺陷或不对齐,可能会出现问题。这是一种AI自说自话,没有强有力的外部基础。除此之外,用户和开发者可能不理解AI为什么得出某个结论——这涉及更大的担忧:是否应该允许AI仅基于自己的逻辑来决定什么是"好"或"正确"?这些风险不应被忽视。

同时,这种方法正在获得关注,因为DeepSeek再次建立在他人工作基础上(想想OpenAI的"批评和修订"方法、Anthropic的宪法AI或自奖励代理研究),创造了可能是商业努力中SPCT的首个全栈应用。

这可能标志着AI自主性的强大转变,但仍需要严格的审计、透明度和保障措施。这不仅仅是模型变得更聪明,而是它们在开始没有人类护栏的自我批评时保持对齐、可解释和可信。

展望未来

考虑到所有这些,DeepSeek的崛起标志着AI行业向并行创新轨道的更广泛转变。虽然公司继续为下一代能力构建更强大的计算集群,但也将通过软件工程和模型架构改进来寻找效率提升,以抵消AI能耗挑战,这远超发电能力。

公司正在关注。例如,微软已暂停全球多个地区的数据中心开发,重新校准向更分布式、高效的基础设施方法。虽然仍计划在本财年在AI基础设施上投资约800亿美元,但公司正在重新分配资源以响应DeepSeek向市场引入的效率提升。

Meta也做出了回应,发布了最新的Llama 4模型系列,标志着其首次使用MoE架构。Meta在推出Llama 4时特别将DeepSeek模型纳入其基准比较,尽管比较两者的详细性能结果未公开详细披露。这种直接竞争定位标志着格局的转变,中国AI模型(阿里巴巴也在参与)现在被硅谷公司认为值得作为基准。

在如此短时间内有如此多变化,具有讽刺意味的是,旨在维持美国AI主导地位的美国制裁可能反而加速了它们试图遏制的创新。通过限制材料获取,DeepSeek被迫开辟新路径。

相关内容

最新资讯

吉利发布雷神AI电混2.0 相... 吉利汽车日前发布雷神AI电混2.0,包含EM-i、EM-P、雷神醇氢三大部分。6月16日,吉利汽车有...
奔驰超长续航混动车计划遭否认,... 近日,有关奔驰计划为中国市场量身定制一款高性能插电混动车型的消息引起了广泛关注。据内部消息透露,该项...
日产计划减持雷诺股份 近日,据媒体报道,日产汽车首席执行官伊万・埃斯皮诺萨(Ivan Espinosa)日前透露,该公司计...
原创 陈... 【车言道讯】上海车展已经结束将近两个月的时间,一场“代言地震”的言论还在被持续关注。知名演员陈道明以...
只聊“插混车”的缺点!开了6个... 要说插混车最近有多火,可能不少人还真没意识到。 就拿比亚迪来说,光是插混车型,2024年一年就卖出了...
喜报丨“重庆市智能汽车与车联网... 近日,经重庆市科学技术局审定,由中国汽研信息智能事业部融合安全中心组建的“重庆市智能汽车与车联网信息...
邀请函丨中国汽研华东能力发布会... 为积极响应国家汽车强国战略,助力产业健康发展,深化区域服务能力,中国汽车工程研究院股份有限公司(简称...
试驾圈流传的“真香定律”!领克... 消费者的购车偏好与市场需求紧密相连,而每一款新车型的推出,都是车企对市场需求的一次解读与回应。领克9...
上汽荣威M7 DMH官图发布,... 6月16日,上汽荣威M7 DMH外观官图发布。作为明珠概念车的量产车型,荣威M7 DMH定位中大型车...
三分天下有其一!零跑汽车是爱吹... “三分天下有其一!” 初听这豪言壮语,车评社以为又是哪个不知名的新势力在吹大牛。仔细一看,原来这是零...
中国一汽飞行汽车总部项目正式落... 6月13日,中国一汽飞行汽车产业创新发展合作框架协议签约仪式在深圳举行,中国一汽飞行汽车总部项目正式...
10万出头,比亚迪海豹06EV... 6月16日,比亚迪海豹06EV区域上市发布会成都站试驾活动顺利举行,经过一天的深度体验,不得不感慨,...
中国汽研举行60周年“感动汽研... 6月15日,中国汽研举行“感动汽研人物”颁奖仪式。六十载风雨兼程,一甲子春华秋实。中国汽研六十年的发...
先把牛吹在这里!余承东称智驾是... 快科技6月16日消息,近日,华为终端账号发布了鸿蒙智行5月智能辅助驾驶报告,智能辅助驾驶系统正以高用...
两度抢先试|超级电混皮卡驾临,... 如今的新能源市场竞争早已进入白热化阶段,然而在新能源皮卡车领域,似乎还是一片蓝海,正是由于这样的市场...