⏰一个常见的误解是,TPU v8i 因为有两块计算芯片,所以一定是训练芯片。
💡芯片数量并不是关键指标,真正重要的是计算吞吐量与内存容量 / 带宽之间的平衡。
📌理由一:内存容量与带宽
TPU v8i 搭载 8 堆栈 HBM3E 12-Hi,而 TPU v8t 只有 6 堆栈,因此前者拥有 288 GB HBM 和 8.6 TB/s 内存带宽,后者则为 216 GB 和 6.5 TB/s。
这一点很关键,因为推理解码受限于内存带宽,而非计算能力。
此外,8i 还配备了 384 MB 片上 SRAM,而 8t 为 128 MB,为 KV 缓存和注意力运算提供了更大的缓冲空间。
📌理由二:训练芯片用单芯片实现更高的 FP4 FLOPs
尽管有两块计算芯片,TPU v8i 在 FP4 下仅达到 10.1 PFLOPs,而单芯片的 TPU v8t 则达到 12.6 PFLOPs。
Google 将 8t 的芯片设计得计算密度极高,最大化 MXU 吞吐量,以应对训练中持续的高算术强度。
这似乎也凸显了 Google 更宏观的方向,即 Google 正尝试用 FP4 进行训练,而 8t 的高密度单芯片正是在这种场景下表现出色。

作者 AI财经

AI财经提供的财经数据以及其他资料均来自互联网其他第三方,仅作为用户获取信息之目的,并不构成投资建议。
AI财经以及其他第三方不为本页面提供信息的错误、残缺、延迟或因依靠此信息所采取的任何行动负责。市场有风险,投资需谨慎。