FFN: 谷歌正在加速推进专门的FFN芯片项目,为TPU架构提供更有成本竞争力的推理方案。亚马逊内部也在探讨构建专用FFN集群的可能性。

下面是科普:

FFN芯片概念的兴起,源于业界对AI推理(特别是大模型推理)成本与效率的深度优化需求。根据2026年的行业动态,其驱动因素主要包括:

计算任务解耦与成本优化:在Transformer模型的推理过程中,“Prefill”(上下文预填充)和“Decode”(令牌解码)是两个计算特征不同的阶段。谷歌等公司发现,将FFN计算从通用计算单元(如TPU v8)中分离出来,用专用芯片处理,可以大幅降低整体系统的成本。

摆脱对昂贵HBM的依赖:传统的高性能AI芯片(如GPU)依赖昂贵的高带宽内存(HBM)来存储模型权重并满足计算带宽需求。FFN芯片的设计思路是,利用对内存容量要求极高,但对带宽和延迟相对不敏感的特点,通过CXL(Compute Express Link)技术连接一个巨大的、由廉价内存(如DDR内存条)构成的内存池,从而直接加载模型权重。这种“无HBM”系统能显著降低成本。

提升计算密度与系统弹性:FFN计算任务之间是完全解耦的,各个芯片独立处理模型的一部分参数,彼此之间不需要高速互联通信。这使得FFN芯片可以像“矿机算力板”一样高密度部署,一个托盘可放置多达16颗芯片,实现极致的ASIC密度。同时,一套FFN集群能够灵活适配多种不同的推理场景。

作者 AI财经

AI财经提供的财经数据以及其他资料均来自互联网其他第三方,仅作为用户获取信息之目的,并不构成投资建议。
AI财经以及其他第三方不为本页面提供信息的错误、残缺、延迟或因依靠此信息所采取的任何行动负责。市场有风险,投资需谨慎。