🤔 为什么 xAI 要把一个 220,000 GPU 的集群交给 Anthropic?
🔍 xAI 决定将 Colossus 1 整体移交给 Anthropic,其技术背景比表面看起来更有意思。
📍 xAI 在孟菲斯的 Colossus 1 数据中心部署了超过 220,000 颗 NVIDIA GPU。
🔢 其中,据估计大约有150,000 颗 H100、50,000 颗 H200 和 20,000 颗 GB200。
💻 换句话说,三代不同制程的芯片混在同一个集群里 —— 这是一种 “异构架构”。
⚠️ 然而,据熟悉该配置的工程师称,对于分布式训练来说,这种配置近乎一场灾难。
⚙️ 在分布式训练中,100,000 颗 GPU 必须同时完成一个步骤,集群才能推进到下一步。
⏱️ 即使 GB200 率先完成计算,剩下相关的 99,999 颗 GPU 也必须赶上等待。
📉 这就是所谓的 H100—— 或者任何一颗遇到 Infini 相关故障的最近报道的 xAI 11% 的 GPU 利用率(MFU:实际实现的理论 FLOPs 占比),可以理解为这一问题的数字化后果。
📊 这与 Meta 和 Google 实现的40% 以上的 MFU 数据形成鲜明对比。
🔗 问题还不止于此。如前所述,NVIDIA 的 NCCL 传统上针对环形拓扑进行了优化。
🔁 它在 1,000 到 10,000 GPU 的规模上运行得很好,但一旦推进到 100,000 颗级别,数据绕环一周的延迟就会变得极其漫长。
🖥️ GPU 需要快速完成计算以保持高 MFU,但当它们无休止地等待数据通过网络结构到达时,过高的芯片利用率就陷入了空闲。
🌐 Google 通过其自有的网络拓扑(Google 的 OCS 芯片:Apollo/Palomar)绕过了这一瓶颈,但据我判断,xAI 尚未达到那个阶段。
🔧 再叠加上 Blackwell(GB200)的 “功率平滑” 问题,情况就清晰了。
⚡ 据曾负责多模态预训练的 Zeeshan Patel 称,Blackwell 硬件 GPU 的功耗如此之大,以至于预训练芯片本身包含了一个用于平滑供电的功能。
💻 然而,xAI 现有的软件栈是为 Hopper 优化的,并不理解新硬件的特性。
⚠️ 当它对芯片施加不规则的负载时,芯片会在物理上损毁 —— 字面意义上的熔化。
🔄 这意味着建模栈必须从头重写,这反过来又意味着扩展远比我们大多数人想象的要困难得多。
💡 综合所有这些,指向一个单一的结论:xAI 判断,在 Colossus 1 上训练前沿模型效率太低,不值得。
📦 因此,它将自己的训练工作负载整体迁移到了 Colossus 2,后者是作为 100% 同构集群构建的。
🧠 另一方面,Colossus 1—— 其混合架构对于 Blackwell 的推理来说远没有那么致命 —— 被整体租给了急需推理能力的 Anthropic。
👀 许多观察者指出一个看似矛盾的地方:Elon Musk 投入了巨额资金建设 Colossus,却将核心资产交给了直接竞争对手 Anthropic。
💭 另一些人则将其解读为 xAI 的投降,因为它是一个 “中游前沿实验室”。
🔍 但这些都只是表面解读。看看数字,就会浮现出不同的图景。
📊 xAI 目前总共持有约 550,000+ GPU(按 H100 等效性能计算),而 Colossus 1(220,000 颗)仅占总可用容量的约 40%。
🏗️ 完全基于 Blackwell 构建的 Colossus 2 已经投入运营并持续扩展。
💡 Elon 将 Blackwell 同构集群(Colossus 2)留给了自己,并将较旧的、混合全代际的 Colossus 1 租了出去。
💸 换句话说,他把重写软件栈的痛苦 ——MFU 11% 的困境 —— 交给了 Anthropic,同时让自己专注于训练下一代模型。
🎯 那么,真正的要点在于此:Elon 的目标似乎是为 SpaceXAI 以 1.75 万亿美元的估值进行 IPO。
📅 提前布局,目前传闻最早可能在 6 月。
💼 SpaceXAI 现在需要的叙事是,xAI—— 长期以来那个 “格格不入的存在”—— 不仅仅是一个烧钱的研究实验室,而是一个拥有类似 AWS 的 “新云” 模式的业务,能够以高收益出租剩余资产。
💰 从资金成本的角度来看,“AGI 现金焚化炉” 对投资者的吸引力远不如 “产生现金的数据中心房东”。
📝 如上所述,Colossus 1 租赁协议最重要的细节是,它是用于推理,而非训练。
🔄 与训练不同,推理所需的 GPU 间通信同步要宽松得多。
⚖️ 即使芯片是异构的,不同负载也能在它们之间清晰地分配。掉队效应 —— 混合集群的主要弱点 —— 对于推理工作负载来说基本上被中和了。
👥 此外,由于 Anthropic 作为单一租户占用了全部 220,000 颗 GPU,多租户情况下出现的网络交换机抖动(非预期延迟)也消失了。
🤝 双方的技术弱点最终几乎完美地互补。
💡 由此可以得出一个洞见:作为一个混合了 H100/H200/GB200 的训练集群,Colossus 1 是一项只能提供 11% MFU 的资产。
💸 然而,当它被移交给单一推理客户的那一刻,这项资产就转变为一项以大约每 GPU 小时 2.60 美元(各 GPU 类型租赁费率的加权平均值)出租的现金流资产。
💎 对 xAI 来说,曾经是训练 “地狱集群” 的东西,在重新部署用于推理时,变成了一只每年创造 50 到 60 亿美元收入的 “下金蛋的鹅”。
✨ 我认为,Elon 的天才之处不在于模型,而在于这种资产轮换的结构。
