谷歌发布TPU V8,网络变化显著
Google 在 Cloud Next 26 大会上正式发布了其第八代TPU,包括TPU 8t 和 TPU 8i。8t将主要用于大模型训练,8i将用于推理、采样与推理服务。
TPU 8t具备极致扩展性: 单个超级集群(Superpod)可扩展至9600个芯片,提供高达 2 PB 的共享高带宽内存。配合新的 Virgo 网络,理论上可以支持多达 100 万个芯片 组成的逻辑集群,实现近乎线性的性能增长。
8i拥有 384 MB 的巨大片上 SRAM,可以将复杂的模型(如 MoE 架构)的 KV 缓存完全保留在芯片上,从而极大减少数据传输延迟。网络拓扑采用Boardfly 架构,这种新拓扑结构减少了网络直径,使1152个 TPU 能像一个低延迟单元一样协同工作。在处理混合专家模型(MoE)时,其单位美元性能比前代(Ironwood/TPU v7)提升了 80%。
两者均采用了 Google 自研的 Arm 架构 Axion CPU 作为宿主处理器,相比传统 x86 实例,性价比提升了 100%。两款芯片均原生支持 Google 最新的液冷技术,以维持高性能运作。两者在单位瓦特性能上均比前代提升了 2 倍,这对于降低 AI 运营的TCO至关重要。
另外我们注意到,谷歌网络实现了明显进步。8t将支持Virgo Network ,传统的网络架构在面对数万个 GPU 或 TPU 同时通信时,经常会出现拥堵或延迟。Virgo Network 引入了一种专门的Scale-out accelerator fabric,专门处理加速器(如 TPU)之间的相互通信,确保大规模集群能像一台整体计算机一样工作。可以将多达 134,000 个芯片(如 TPU 8t) 连接在同一个网络架构中。提供高达 47 Petabits/sec 的非阻塞双向带宽。相比上一代,每个加速器的带宽提升了 4 倍。采用扁平化的二层网络拓扑,减少了网络层级,使空载延迟降低了 40%。这对于需要频繁同步权重的 AI 训练至关重要。
