FFN: 谷歌正在加速推进专门的FFN芯片项目,为TPU架构提供更有成本竞争力的推理方案。亚马逊内部也在探讨构建专用FFN集群的可能性。
下面是科普:
FFN芯片概念的兴起,源于业界对AI推理(特别是大模型推理)成本与效率的深度优化需求。根据2026年的行业动态,其驱动因素主要包括:
计算任务解耦与成本优化:在Transformer模型的推理过程中,“Prefill”(上下文预填充)和“Decode”(令牌解码)是两个计算特征不同的阶段。谷歌等公司发现,将FFN计算从通用计算单元(如TPU v8)中分离出来,用专用芯片处理,可以大幅降低整体系统的成本。
摆脱对昂贵HBM的依赖:传统的高性能AI芯片(如GPU)依赖昂贵的高带宽内存(HBM)来存储模型权重并满足计算带宽需求。FFN芯片的设计思路是,利用对内存容量要求极高,但对带宽和延迟相对不敏感的特点,通过CXL(Compute Express Link)技术连接一个巨大的、由廉价内存(如DDR内存条)构成的内存池,从而直接加载模型权重。这种“无HBM”系统能显著降低成本。
提升计算密度与系统弹性:FFN计算任务之间是完全解耦的,各个芯片独立处理模型的一部分参数,彼此之间不需要高速互联通信。这使得FFN芯片可以像“矿机算力板”一样高密度部署,一个托盘可放置多达16颗芯片,实现极致的ASIC密度。同时,一套FFN集群能够灵活适配多种不同的推理场景。
