Meta将AI基础设施提升为顶级战略优先级,推出Meta Compute新部门,将数据中心和网络的建设运营职责整合到统一的领导架构下。
"Meta计划在这十年内建设数十吉瓦的设施,长期来看将达到数百吉瓦甚至更多,"首席执行官马克·扎克伯格在社交媒体上表示。"我们如何设计、投资和合作建设这些基础设施将成为战略优势。"
该公司表示,这项举措将由Santosh Janardhan和Daniel Gross共同领导。Janardhan将继续监督公司的数据中心和网络基础设施,而Gross将负责AI基础设施的长期容量规划、供应商策略和商业建模。
扎克伯格补充道:"他们将与刚刚加入Meta担任总裁兼副董事长的Dina Powell McCormick密切合作,负责与政府和主权机构的伙伴关系,共同建设、部署、投资和融资Meta的基础设施。"
Powell McCormick此前曾担任特朗普总统的美国副国家安全顾问。她的丈夫Dave McCormick是宾夕法尼亚州的美国参议员,同时担任参议院能源小组委员会主席。
这一举措正值超大规模云服务商竞相部署更大规模AI集群之际,这些集群对网络性能和电力供应提出了极高要求,需要在基础设施规划方面更紧密的协调。
在如此规模下,基础设施限制正成为AI扩张的约束因素,影响着新数据中心的选址和互连方式等决策。
这一宣布紧随Meta最近与Vistra、TerraPower和Oklo达成的里程碑协议,旨在为其俄亥俄州和宾夕法尼亚州数据中心集群获得高达6.6吉瓦核能支持。
分析师表示,Meta的做法表明超大规模云服务商越来越将网络和互连策略视为AI竞赛中的首要考虑因素。Kadence International高级副总裁Tulika Sheel表示,Meta的举措表明超大规模网络需要快速演进,以处理大规模内部数据流,实现高带宽和超低延迟。
Sheel补充道:"随着数据中心规模和GPU密度的增长,网络和光学供应链面临的压力将加剧,推动对更先进互连和更快光纤的需求。"
其他人指出了由此带来的潜在架构变化。Forrester首席分析师Biswajeet Mahapatra表示:"Meta正在使用分解式调度结构和非调度结构,配合新的51 Tbps交换机和以太网扩展网络,这加剧了对交换芯片、光学模块和开放机架标准的压力。这种转变迫使生态系统提供更快的光学互连和更大的光纤容量,因为Meta瞄准显著的骨干网增长和更专业的短距离及相干光学技术来支持集群扩展。"
网络不再是次要管道,而是主要约束。Sheel表示,下一代连接正变得与计算访问本身一样重要,因为超大规模云服务商希望在大规模AI部署中避免网络瓶颈。
规划数十吉瓦AI容量将要求数据中心设计师和网络架构师比以往任何一代设施都更紧密地整合电力和网络考量。
Sheel表示:"架构师需要平衡能耗、散热和工作负载配置,同时通过冗余和智能路由确保弹性。在这种规模下,AI基础设施需要电源感知设计和延迟优化网络来维持性能和可靠性。"
Mahapatra补充说,像Prometheus和Hyperion这样的大型AI超级集群需要弹性区域互连、灵活布局和临时部署结构,支持持续扩展,同时在为不确定的未来AI需求而设计的设施间分配工作负载。
Q&A
Q1:Meta Compute是什么?它的主要职能是什么?
A:Meta Compute是Meta新成立的部门,专门负责AI基础设施建设。该部门将数据中心和网络的建设运营职责整合到统一的领导架构下,由Santosh Janardhan和Daniel Gross共同领导,负责长期容量规划、供应商策略和商业建模。
Q2:Meta计划建设多大规模的AI基础设施?
A:根据CEO扎克伯格的说法,Meta计划在这十年内建设数十吉瓦的设施,长期来看将达到数百吉瓦甚至更多。公司最近还与多家公司达成协议,为其俄亥俄州和宾夕法尼亚州数据中心集群获得高达6.6吉瓦核能支持。
Q3:为什么Meta要专门成立部门负责AI基础设施?
A:随着AI集群规模不断扩大,对网络性能和电力供应提出了极高要求,基础设施限制正成为AI扩张的约束因素。网络不再是次要管道,而是主要约束,下一代连接变得与计算访问本身一样重要,需要更紧密的协调来避免网络瓶颈。