📢 瑞银说了一件事:AI 推理系统以后会越来越分化,不会是一套架构打天下
💡 美国半导体公司
🤖 瑞银芯片聊天:超高速且模块化推理技术
📝 总结
🗣️ 在过去的这一周,我们与一位前 META / INTC 的硬件工程师进行了专家电话会议,讨论了用于人工智能推理的新兴系统架构。
🔍 我们探讨了超快速推理以及 SRAM 架构、内存层次结构以及不同系统中的延迟限制等方面的权衡问题。
🏗️ 我们还研究了像 NVDA 和 AWS 这样的公司所采用的分散式推理方法,以及这种新的异构模型所面临的挑战。
⚠️ 推理的解码阶段具有独特性,因为它不同于训练或预填充,其结构上是内存受限而非计算受限的,这为非 HBM 架构解决内存限制问题创造了机会。
💾 基于静态随机存储器的架构:为低延迟推理进行优化
⚡ 基于静态随机存储器(SRAM)的架构将计算与存储紧密耦合,并为推理解码工作负载提供了结构上的优势,在这类工作负载中,性能主要取决于内存带宽和延迟,而非计算/浮点运算次数。
🔗 通过将高速 SRAM 直接与计算单元紧密集成,这些系统消除了对关键路径外部高带宽内存(HBM)的依赖,从而显著减少了数据移动和控制延迟。
🚀 其结果是更长的不间断执行序列以及用户交互性显著提高。
📉 然而,SRAM 的密度明显低于 HBM/DDR,这限制了每个芯片的内存容量。
🐘 因此,运行大型模型变得尤为困难,因为这些模型本身就需要更大的键值(KV)缓存。
📏 专家估计,CS 系统的最佳应用范围是参数量不超过 1T 的模型和 10 万个以下的上下文长度。
🌐 对于更大的模型,CS 系统通常需要分布式执行(例如,流水线或张量并行),将不同的模型层分布在多个 CS 系统上,这会引入通信开销并增加架构的复杂性。
📦 同时,采用大量静态随机存取存储器(SRAM)的设计会将更多的芯片面积分配给内存,从而减少了可用于计算的”可用空间”,最终导致相对于基于 GPU 的系统,其吞吐量和多租户能力受到限制。
🎯 从系统角度来看,因此我们认为 CS 系统更适合于具有更严格内存要求的特定且对延迟敏感的工作负载,而非通用的大规模部署。
🧩 分解式推理与异构系统:优势与权衡
🚧 单体架构的局限性促使人们转向分布式推理模式,即将工作负载分散到不同的硬件平台上。
🤝 在这种模式下,GPU 通常用于预填充和注意力工作负载(这类工作负载对计算能力和容量要求较高),而基于 SRAM 的加速器则处理解码或专家混合(MoE)组件,这类组件对延迟更为敏感。
📈 这种方法通过将每个工作负载与最适合执行它的硬件相匹配,提高了整个系统的效率。
💰 因此,系统能够实现更高的吞吐量、更好的 GPU 硬件利用率,并在成本性能曲线方面具有更大的灵活性。
🛑 与此同时,这种架构也带来了有意义的挑战——尤其是在协调方面。
📡 分布式系统需要异构组件之间频繁、低延迟的通信,而当前的实现方式在协调、协议转换和软件栈复杂性方面遇到了困难。
🔒 这些瓶颈正成为扩展异构推理系统的主要限制因素。
🔄 在 NVDA / Groq 系统集成的情况下,NVDA 通过将解码阶段细分为注意力机制和全连接神经网络(FFN)来增加更多的灵活性,并在这些阶段之间进行协调。
🔀 这使得较小的键值缓存模型和工作负载能够在基于 SRAM 的硬件上运行,而高带宽内存(HBM)则用于处理更依赖键值缓存的工作负载。
🏢 不过,一个单个 LPX 机架包含 128GB 的 SRAM 内存,这意味着在分布式架构上的扩展性仍然是一个需要解决的工程难题。
