🤔 为什么 xAI 要把一个 220,000 GPU 的集群交给 Anthropic？

🔍 xAI 决定将 Colossus 1 整体移交给 Anthropic，其技术背景比表面看起来更有意思。
📍 xAI 在孟菲斯的 Colossus 1 数据中心部署了超过 220,000 颗 NVIDIA GPU。
🔢 其中，据估计大约有150,000 颗 H100、50,000 颗 H200 和 20,000 颗 GB200。
💻 换句话说，三代不同制程的芯片混在同一个集群里 —— 这是一种 “异构架构”。
⚠️ 然而，据熟悉该配置的工程师称，对于分布式训练来说，这种配置近乎一场灾难。
⚙️ 在分布式训练中，100,000 颗 GPU 必须同时完成一个步骤，集群才能推进到下一步。
⏱️ 即使 GB200 率先完成计算，剩下相关的 99,999 颗 GPU 也必须赶上等待。
📉 这就是所谓的 H100—— 或者任何一颗遇到 Infini 相关故障的最近报道的 xAI 11% 的 GPU 利用率（MFU：实际实现的理论 FLOPs 占比），可以理解为这一问题的数字化后果。
📊 这与 Meta 和 Google 实现的40% 以上的 MFU 数据形成鲜明对比。
🔗 问题还不止于此。如前所述，NVIDIA 的 NCCL 传统上针对环形拓扑进行了优化。
🔁 它在 1,000 到 10,000 GPU 的规模上运行得很好，但一旦推进到 100,000 颗级别，数据绕环一周的延迟就会变得极其漫长。
🖥️ GPU 需要快速完成计算以保持高 MFU，但当它们无休止地等待数据通过网络结构到达时，过高的芯片利用率就陷入了空闲。
🌐 Google 通过其自有的网络拓扑（Google 的 OCS 芯片：Apollo/Palomar）绕过了这一瓶颈，但据我判断，xAI 尚未达到那个阶段。
🔧 再叠加上 Blackwell（GB200）的 “功率平滑” 问题，情况就清晰了。
⚡ 据曾负责多模态预训练的 Zeeshan Patel 称，Blackwell 硬件 GPU 的功耗如此之大，以至于预训练芯片本身包含了一个用于平滑供电的功能。
💻 然而，xAI 现有的软件栈是为 Hopper 优化的，并不理解新硬件的特性。
⚠️ 当它对芯片施加不规则的负载时，芯片会在物理上损毁 —— 字面意义上的熔化。
🔄 这意味着建模栈必须从头重写，这反过来又意味着扩展远比我们大多数人想象的要困难得多。
💡 综合所有这些，指向一个单一的结论：xAI 判断，在 Colossus 1 上训练前沿模型效率太低，不值得。
📦 因此，它将自己的训练工作负载整体迁移到了 Colossus 2，后者是作为 100% 同构集群构建的。
🧠 另一方面，Colossus 1—— 其混合架构对于 Blackwell 的推理来说远没有那么致命 —— 被整体租给了急需推理能力的 Anthropic。
👀 许多观察者指出一个看似矛盾的地方：Elon Musk 投入了巨额资金建设 Colossus，却将核心资产交给了直接竞争对手 Anthropic。
💭 另一些人则将其解读为 xAI 的投降，因为它是一个 “中游前沿实验室”。
🔍 但这些都只是表面解读。看看数字，就会浮现出不同的图景。
📊 xAI 目前总共持有约 550,000+ GPU（按 H100 等效性能计算），而 Colossus 1（220,000 颗）仅占总可用容量的约 40%。
🏗️ 完全基于 Blackwell 构建的 Colossus 2 已经投入运营并持续扩展。
💡 Elon 将 Blackwell 同构集群（Colossus 2）留给了自己，并将较旧的、混合全代际的 Colossus 1 租了出去。
💸 换句话说，他把重写软件栈的痛苦 ——MFU 11% 的困境 —— 交给了 Anthropic，同时让自己专注于训练下一代模型。
🎯 那么，真正的要点在于此：Elon 的目标似乎是为 SpaceXAI 以 1.75 万亿美元的估值进行 IPO。
📅 提前布局，目前传闻最早可能在 6 月。
💼 SpaceXAI 现在需要的叙事是，xAI—— 长期以来那个 “格格不入的存在”—— 不仅仅是一个烧钱的研究实验室，而是一个拥有类似 AWS 的 “新云” 模式的业务，能够以高收益出租剩余资产。
💰 从资金成本的角度来看，“AGI 现金焚化炉” 对投资者的吸引力远不如 “产生现金的数据中心房东”。
📝 如上所述，Colossus 1 租赁协议最重要的细节是，它是用于推理，而非训练。
🔄 与训练不同，推理所需的 GPU 间通信同步要宽松得多。
⚖️ 即使芯片是异构的，不同负载也能在它们之间清晰地分配。掉队效应 —— 混合集群的主要弱点 —— 对于推理工作负载来说基本上被中和了。
👥 此外，由于 Anthropic 作为单一租户占用了全部 220,000 颗 GPU，多租户情况下出现的网络交换机抖动（非预期延迟）也消失了。
🤝 双方的技术弱点最终几乎完美地互补。
💡 由此可以得出一个洞见：作为一个混合了 H100/H200/GB200 的训练集群，Colossus 1 是一项只能提供 11% MFU 的资产。
💸 然而，当它被移交给单一推理客户的那一刻，这项资产就转变为一项以大约每 GPU 小时 2.60 美元（各 GPU 类型租赁费率的加权平均值）出租的现金流资产。
💎 对 xAI 来说，曾经是训练 “地狱集群” 的东西，在重新部署用于推理时，变成了一只每年创造 50 到 60 亿美元收入的 “下金蛋的鹅”。
✨ 我认为，Elon 的天才之处不在于模型，而在于这种资产轮换的结构。

🤔 为什么 xAI 要把一个 220,000 GPU 的集群交给 Anthropic？

作者AI财经

作者 AI财经