📢 瑞银说了一件事…

📢 瑞银说了一件事：AI 推理系统以后会越来越分化，不会是一套架构打天下

💡 美国半导体公司
🤖 瑞银芯片聊天：超高速且模块化推理技术
📝 总结
🗣️ 在过去的这一周，我们与一位前 META / INTC 的硬件工程师进行了专家电话会议，讨论了用于人工智能推理的新兴系统架构。
🔍 我们探讨了超快速推理以及 SRAM 架构、内存层次结构以及不同系统中的延迟限制等方面的权衡问题。
🏗️ 我们还研究了像 NVDA 和 AWS 这样的公司所采用的分散式推理方法，以及这种新的异构模型所面临的挑战。
⚠️ 推理的解码阶段具有独特性，因为它不同于训练或预填充，其结构上是内存受限而非计算受限的，这为非 HBM 架构解决内存限制问题创造了机会。
💾 基于静态随机存储器的架构：为低延迟推理进行优化
⚡ 基于静态随机存储器（SRAM）的架构将计算与存储紧密耦合，并为推理解码工作负载提供了结构上的优势，在这类工作负载中，性能主要取决于内存带宽和延迟，而非计算/浮点运算次数。
🔗 通过将高速 SRAM 直接与计算单元紧密集成，这些系统消除了对关键路径外部高带宽内存（HBM）的依赖，从而显著减少了数据移动和控制延迟。
🚀 其结果是更长的不间断执行序列以及用户交互性显著提高。
📉 然而，SRAM 的密度明显低于 HBM/DDR，这限制了每个芯片的内存容量。
🐘 因此，运行大型模型变得尤为困难，因为这些模型本身就需要更大的键值（KV）缓存。
📏 专家估计，CS 系统的最佳应用范围是参数量不超过 1T 的模型和 10 万个以下的上下文长度。
🌐 对于更大的模型，CS 系统通常需要分布式执行（例如，流水线或张量并行），将不同的模型层分布在多个 CS 系统上，这会引入通信开销并增加架构的复杂性。
📦 同时，采用大量静态随机存取存储器（SRAM）的设计会将更多的芯片面积分配给内存，从而减少了可用于计算的”可用空间”，最终导致相对于基于 GPU 的系统，其吞吐量和多租户能力受到限制。
🎯 从系统角度来看，因此我们认为 CS 系统更适合于具有更严格内存要求的特定且对延迟敏感的工作负载，而非通用的大规模部署。
🧩 分解式推理与异构系统：优势与权衡
🚧 单体架构的局限性促使人们转向分布式推理模式，即将工作负载分散到不同的硬件平台上。
🤝 在这种模式下，GPU 通常用于预填充和注意力工作负载（这类工作负载对计算能力和容量要求较高），而基于 SRAM 的加速器则处理解码或专家混合（MoE）组件，这类组件对延迟更为敏感。
📈 这种方法通过将每个工作负载与最适合执行它的硬件相匹配，提高了整个系统的效率。
💰 因此，系统能够实现更高的吞吐量、更好的 GPU 硬件利用率，并在成本性能曲线方面具有更大的灵活性。
🛑 与此同时，这种架构也带来了有意义的挑战——尤其是在协调方面。
📡 分布式系统需要异构组件之间频繁、低延迟的通信，而当前的实现方式在协调、协议转换和软件栈复杂性方面遇到了困难。
🔒 这些瓶颈正成为扩展异构推理系统的主要限制因素。
🔄 在 NVDA / Groq 系统集成的情况下，NVDA 通过将解码阶段细分为注意力机制和全连接神经网络（FFN）来增加更多的灵活性，并在这些阶段之间进行协调。
🔀 这使得较小的键值缓存模型和工作负载能够在基于 SRAM 的硬件上运行，而高带宽内存（HBM）则用于处理更依赖键值缓存的工作负载。
🏢 不过，一个单个 LPX 机架包含 128GB 的 SRAM 内存，这意味着在分布式架构上的扩展性仍然是一个需要解决的工程难题。

📢 瑞银说了一件事…

作者AI财经

作者 AI财经