⏰一个常见的误解是,TPU v8i 因为有两块计算芯片,所以一定是训练芯片。
💡芯片数量并不是关键指标,真正重要的是计算吞吐量与内存容量 / 带宽之间的平衡。
📌理由一:内存容量与带宽
TPU v8i 搭载 8 堆栈 HBM3E 12-Hi,而 TPU v8t 只有 6 堆栈,因此前者拥有 288 GB HBM 和 8.6 TB/s 内存带宽,后者则为 216 GB 和 6.5 TB/s。
这一点很关键,因为推理解码受限于内存带宽,而非计算能力。
此外,8i 还配备了 384 MB 片上 SRAM,而 8t 为 128 MB,为 KV 缓存和注意力运算提供了更大的缓冲空间。
📌理由二:训练芯片用单芯片实现更高的 FP4 FLOPs
尽管有两块计算芯片,TPU v8i 在 FP4 下仅达到 10.1 PFLOPs,而单芯片的 TPU v8t 则达到 12.6 PFLOPs。
Google 将 8t 的芯片设计得计算密度极高,最大化 MXU 吞吐量,以应对训练中持续的高算术强度。
这似乎也凸显了 Google 更宏观的方向,即 Google 正尝试用 FP4 进行训练,而 8t 的高密度单芯片正是在这种场景下表现出色。
