💡DeepSeek 在英伟达造出机器之前就写好了说明书。SK 海力士和长鑫存储开始印收据了。英伟达刚刚发布了 GIDS,这项功能能把 GPU 变成了自己的内存管理器。DeepSeek 包括基于这种架构的 HBF。这只有在运行其上的软件知道如何在 HBM 和 NAND 之间拆分 KV cache、权重和长上下文状态,且不出现延迟断崖时才能工作。软件必须容忍这种几何错误。它必须容忍压缩后的 KV。DeepSeek 从内存层级路由起就在交付这样的软件:MLA(2024 年):将 KV cache 削减 90%;DSA(2025 年底):在上下文增长时保持计算量不变;CSA + HSA(2026 年初):在 MLA 基础上再将 KV cache 削减 90%;Engram:用 LPDDR 表中的哈希查找来置换注意力计算;Dual Path:让从 SSD 加载 KV cache 和读 / 写 NAND。DeepSeek 在英伟达的 GIDS 硬件内的 NAND 上,NAND 生态就会赶上同一波浪潮,英伟达是受益者之一。HBM 寡头(SK 海力士、三星、美光科技)和 NAND 生态(铠侠、西部数据、长江存储、美光科技的 NAND 业务)是其他受益者。最干净的测试将在 2026 年下半年出货。拥有压缩注意力和分层内存原语的实验室在新平台上原生运行。那些假设全 HBM 机架来构建模型架构的实验室将不得不改造。整个 DeepSeek 故事中最被低估的一句话,是 V4 论文告诉 ASIC 设计师不要在哪些地方浪费硅面积的那一段。如果 DeepSeek 是一个为学术界写作的 AI 实验室,那读起来很奇怪。但如果 DeepSeek 是一家为硬件供应商编写需求规格的软件公司,那就说得通了。他们是提出规格的客户。英伟达的护城河本应是芯片。有了 Vera Rubin,护城河正在变成围绕芯片的内存层级编排。每个想用好这种编排的实验室,现在都必须像 DeepSeek 那样思考。下一代 AI 硬件本应教会实验室如何使用它,但也许是实验室教会了硬件它必须变成什么样子。
