4月13日 03:56
郭明錤:記憶體瓶頸,不只是記憶體
當 AI伺服器的 HBM 頻寬升級仍被視為關鍵解法時,記憶體瓶頸已在不同層面開始被緩解。
Memory-bound(記憶體瓶頸,也常被概括稱為「記憶體之牆」(Memory wall))已成為 AI 推理與算力成長的關鍵瓶頸。
其成因來自 transformer + attention 架構:每個 token 產生前均需讀取 KV cache。在長文本(context)趨勢下,KV cache 持續膨脹,記憶體讀取壓力隨之放大。
在大規模部署與推理品質前提下,目前還沒有其他架構可取代 transformer + attention。但這並不代表,記憶體瓶頸只是記憶體(HBM)規格問題。近期三個看似獨立的事件,正從不同層級降低記憶體瓶頸影響。
這些事件背後的公司,並非把解決「記憶體瓶頸」當目標,而是在解決記憶體瓶頸對其商業目標的干擾。因此,不同解法的差異,本質上來自不同商業目標: • Nvidia:穩定低延遲輸出以推升 token 價值 • Google:最大化基礎建設利用率 • Anthropic:支撐可長時間運作、具備持續記憶能力的 agent 架構
────────────────────
1️⃣ Nvidia 推出 Groq 3 LPX → 系統 / 實體層(Physical / System layer)
本質: 降低(decouple)運算與記憶體的資源競爭
機制: • 不同 KV cache 請求讀取 → HBM 存取不穩定 • HBM 存取不穩定 → FFN 的 GPU 排程受擾,並加劇與其他任務的記憶體(HBM)頻寬資源競爭 • 把 FFN 的運算從 GPU 移到 LPX(SRAM),而 attention 和 KV cache 還是由 GPU(HBM)負責
好處: • 穩定 FFN 運算與其存取 • 改善「忽快忽慢」(jitter)與「有時很慢」(tail latency)的輸出 • 穩定低延遲輸出 → token ASP 提升
核心思維: LPX 並未解決記憶體瓶頸,而是改善 token 輸出不穩定
產業驗證: 即便新機櫃方案 Vera Rubin NVL72 的記憶體頻寬為 GB300 NVL72 的 2.75倍,Nvidia 仍同步推出 LPX(與 Vera Rubin NVL72 協同運作),顯示記憶體瓶頸並非單純頻寬問題
────────────────────
2️⃣ Google 的 TurboQuant(KV 壓縮)→ 演算法層(Algorithm layer)
本質: 壓縮 KV cache 容量,降低記憶體讀取負擔
機制: • KV cache 壓縮 → 每次讀取資料量下降 → 緩解長文本(context)下的記憶體讀取壓力 • 無需校準(calibration),並採固定量化方案(quantization scheme) → 有利大規模部署 • 維持 attention 精度 → 不犧牲品質前提下提升記憶體讀取效率
好處: • 降低單次推理成本 → token 成本下降 • 相同時間產出更多 token → 營收增加 • KV cache 讀取是 token 產出的必經路徑(critical path) → 其他方法效益透過 KV cache 壓縮而放大(乘數效果)
核心思維: 記憶體瓶頸依舊存在,但可改善固定記憶體頻寬下的 token 生產力 / 成本
產業驗證: 即便研究 KV cache 壓縮,Google 仍顯著提升未來新款 TPU 的 HBM 容量(既有v7 192GB → 2H27 聯發科的 384GB & 2028 Broadcom 的512GB),顯示壓縮算法與記憶體規格升級為互補
────────────────────
3️⃣ Anthropic 的記憶體管理(代碼外洩事件) → 應用層(Application layer)
本質: 透過 selection、compression 與 refinement,控管記憶的保留與使用方式
機制: • 決定讀什麼(selection):系統先透過記憶索引(MEMORY.md)判斷相關內容,再依需要載入對應資料(topic / project memory files),避免讀入過多無關記憶 • 減少讀多少(compression):已載入的內容會持續被壓縮整理(context collapse),降低記憶體負擔 • 留下重要的(refinement):歷史對話轉為可查詢紀錄,並經整理與刪減(session transcripts / autoDream),提升資訊密度
好處: • 降低 KV cache 膨脹速度 • 減少記憶體讀取需求 → 延遲改善 • 提升有效資訊密度 → 推理效率提升
核心思維: 如何保留與使用記憶,是 AI agent 在記憶體瓶頸下的關鍵能力
產業驗證: 即便硬體算力與記憶體規格持續升級,Anthropic 仍需從應用層重構記憶的控管機制,顯示記憶體瓶頸並非單純硬體問題
────────────────────
結論: • 記憶體瓶頸是技術問題,但解法是由商業目標驅動,故從來不只一條路徑 • 不同廠商從不同角度提出方案,反映出記憶體瓶頸並非單一零組件問題,而是跨硬體與軟體的系統性挑戰 • 各類解法彼此互補,而非替代。因此不存在「壓縮 KV cache → 記憶體需求消失」這類簡化邏輯,而是需要在不同層級中同時、持續被緩解
