記憶體瓶頸，不只是記憶體

4月13日 03:56
郭明錤：記憶體瓶頸，不只是記憶體
當 AI伺服器的 HBM 頻寬升級仍被視為關鍵解法時，記憶體瓶頸已在不同層面開始被緩解。
Memory-bound（記憶體瓶頸，也常被概括稱為「記憶體之牆」（Memory wall））已成為 AI 推理與算力成長的關鍵瓶頸。
其成因來自 transformer + attention 架構：每個 token 產生前均需讀取 KV cache。在長文本（context）趨勢下，KV cache 持續膨脹，記憶體讀取壓力隨之放大。
在大規模部署與推理品質前提下，目前還沒有其他架構可取代 transformer + attention。但這並不代表，記憶體瓶頸只是記憶體（HBM）規格問題。近期三個看似獨立的事件，正從不同層級降低記憶體瓶頸影響。
這些事件背後的公司，並非把解決「記憶體瓶頸」當目標，而是在解決記憶體瓶頸對其商業目標的干擾。因此，不同解法的差異，本質上來自不同商業目標： • Nvidia：穩定低延遲輸出以推升 token 價值 • Google：最大化基礎建設利用率 • Anthropic：支撐可長時間運作、具備持續記憶能力的 agent 架構
────────────────────
1️⃣ Nvidia 推出 Groq 3 LPX → 系統 / 實體層（Physical / System layer）
本質：降低（decouple）運算與記憶體的資源競爭
機制： • 不同 KV cache 請求讀取 → HBM 存取不穩定 • HBM 存取不穩定 → FFN 的 GPU 排程受擾，並加劇與其他任務的記憶體（HBM）頻寬資源競爭 • 把 FFN 的運算從 GPU 移到 LPX（SRAM），而 attention 和 KV cache 還是由 GPU（HBM）負責
好處： • 穩定 FFN 運算與其存取 • 改善「忽快忽慢」（jitter）與「有時很慢」（tail latency）的輸出 • 穩定低延遲輸出 → token ASP 提升
核心思維： LPX 並未解決記憶體瓶頸，而是改善 token 輸出不穩定
產業驗證：即便新機櫃方案 Vera Rubin NVL72 的記憶體頻寬為 GB300 NVL72 的 2.75倍，Nvidia 仍同步推出 LPX（與 Vera Rubin NVL72 協同運作），顯示記憶體瓶頸並非單純頻寬問題
────────────────────
2️⃣ Google 的 TurboQuant（KV 壓縮）→ 演算法層（Algorithm layer）
本質：壓縮 KV cache 容量，降低記憶體讀取負擔
機制： • KV cache 壓縮 → 每次讀取資料量下降 → 緩解長文本（context）下的記憶體讀取壓力 • 無需校準（calibration），並採固定量化方案（quantization scheme） → 有利大規模部署 • 維持 attention 精度 → 不犧牲品質前提下提升記憶體讀取效率
好處： • 降低單次推理成本 → token 成本下降 • 相同時間產出更多 token → 營收增加 • KV cache 讀取是 token 產出的必經路徑（critical path） → 其他方法效益透過 KV cache 壓縮而放大（乘數效果）
核心思維：記憶體瓶頸依舊存在，但可改善固定記憶體頻寬下的 token 生產力 / 成本
產業驗證：即便研究 KV cache 壓縮，Google 仍顯著提升未來新款 TPU 的 HBM 容量（既有v7 192GB → 2H27 聯發科的 384GB & 2028 Broadcom 的512GB），顯示壓縮算法與記憶體規格升級為互補
────────────────────
3️⃣ Anthropic 的記憶體管理（代碼外洩事件） → 應用層（Application layer）
本質：透過 selection、compression 與 refinement，控管記憶的保留與使用方式
機制： • 決定讀什麼（selection）：系統先透過記憶索引（MEMORY.md）判斷相關內容，再依需要載入對應資料（topic / project memory files），避免讀入過多無關記憶 • 減少讀多少（compression）：已載入的內容會持續被壓縮整理（context collapse），降低記憶體負擔 • 留下重要的（refinement）：歷史對話轉為可查詢紀錄，並經整理與刪減（session transcripts / autoDream），提升資訊密度
好處： • 降低 KV cache 膨脹速度 • 減少記憶體讀取需求 → 延遲改善 • 提升有效資訊密度 → 推理效率提升
核心思維：如何保留與使用記憶，是 AI agent 在記憶體瓶頸下的關鍵能力
產業驗證：即便硬體算力與記憶體規格持續升級，Anthropic 仍需從應用層重構記憶的控管機制，顯示記憶體瓶頸並非單純硬體問題
────────────────────
結論： • 記憶體瓶頸是技術問題，但解法是由商業目標驅動，故從來不只一條路徑 • 不同廠商從不同角度提出方案，反映出記憶體瓶頸並非單一零組件問題，而是跨硬體與軟體的系統性挑戰 • 各類解法彼此互補，而非替代。因此不存在「壓縮 KV cache → 記憶體需求消失」這類簡化邏輯，而是需要在不同層級中同時、持續被緩解

記憶體瓶頸，不只是記憶體

作者AI财经

作者 AI财经