💾AMD、苹果发力闪存方案，以此降低 AI 内存成本压力

📢AMD 与苹果以不同技术路径对外公布，将闪存作为缓解AI 内存税的核心解决方案，相关逻辑我们已在上周行业主题报告中进行阐述。
📌闪存突围：规避 DRAM 高额成本的五大技术路径
🔍机构 26 项交易研究梳理了边缘端落地场景中，避开内存瓶颈的各类可行方案，配套图示拆解了五大内存优化机制，以此降低内存容量约束。
⚙️五大优化机制分别为量化压缩、分页压缩、预取调度、推测译码、存内计算，分别从容量、带宽维度缓解内存压力。
💻模型运行需要向高速内存持续输送参数，高速内存硬件成本高昂，当前高端 DRAM 产能持续紧缺，行业正面临严重的 DRAM 供给周期紧张问题。
📈伴随 DRAM 价格持续上行，行业创新企业纷纷寻找各类技术方案，规避高额 AI 内存成本带来的压力。
📊AI 内存税持续攀升，KV 缓存是内存消耗核心来源
📉配套统计图表展示 2020 至 2026 年 AI 推理各环节内存占用占比，内存相关开销占比逐年走高，2026 年内存开销占比预计达到 25%。
🔑KV 缓存是 AI 推理流程中消耗内存最多的模块，该模块会记录每一轮对话历史上下文，模型在每一次生成步骤中都需要重复读取缓存内容。
📦长对话场景下 KV 缓存容量可达到数百 GB；在计算解码流程中，单一词元需要逐层读取权重数据，带宽需求极高，带宽缺口带来的负面影响远大于缓存容量不足。
⚡面向 AI 加速器的高带宽内存（HBM）消耗了全球近四分之一的 DRAM 晶圆产能。
☁️超大规模云服务商已提前锁定远期晶圆产能，多年度 DRAM 长协订单中，单季度带宽相关采购占比接近 90%。
📱与此同时，面向手机、个人电脑的标准芯片市场，新增 DRAM 产能扩产需要依托极紫外光刻设备完成精细版图印刷。
🏭新增产线需要单台价值 2 亿美元以上的 EUV 扫描设备，单座晶圆厂洁净厂房建设成本达数十亿美元，产能扩建周期漫长，这也是 DRAM 供给长期紧张的核心原因。
💡将闪存与高带宽搭配，是规避高额内存税的又一条可行技术路线；闪存通过垂直堆叠多层存储单元实现容量扩容，该方案依托沉积刻蚀工艺升级，无需推进全新光刻节点，不依赖 EUV 设备。
💰闪存单位容量成本仅为 DRAM 的 1/55，成本优势巨大
📊测算数据显示，单位比特闪存的成本约为 DRAM 的 1/55，配套成本对比图表直观展示三类存储介质单价：闪存每 GB 仅 0.05 美元，DRAM 每 GB2.75 美元，HBM 每 GB 高达 15 美元。
🔧闪存配套控制器已实现成熟量产，落地在 6nm、7nm 成熟制程，无需争抢先进紧缺工艺，55 倍的成本价差形成显著产业优势。
🛠️闪存落地三大技术实现路径
🎛️控制器架构优化
逻辑层精准管控数据读取时机、读取顺序；推理任务具备强可预测性，逻辑电路可定向抓取每一轮运算真正需要的参数，苹果基于闪存优化的大语言模型正是依托该逻辑落地，也是当前落地可能性最高的方案。
🧱NAND 堆叠与封装升级
垂直堆叠技术扩充原生存储容量，封装阵列改造提升带宽；堆叠搭配 HBM 级重布线阵列，能够让闪存介质具备和高端内存抗衡的吞吐性能。
📐存储单元架构调整
从四电平单元（QLC）切换至单电平单元（SLC）；QLC 能够最大化存储密度、压低单位成本，SLC 则可以降低延迟、提升读写速度，研发人员可根据业务需求灵活调整闪存性能。
🚀HBM 闪存混合方案 2026 年实现商用落地
📅2026 年 2 月，闪迪、铠侠、SK 海力士推出 HBM 闪存混合产品，在 HBM 与 SSD 之间搭建 NAND 高速介质层，物理层面兼容 HBM4，单颗容量最高 16TB，具备成本竞争力。
🏗️该方案复用 HBM 同款垂直堆叠架构，最终落地成本会低于标准 HBM 产品。
✅闪存混合方案落地后，行业拥有全新路径缓解内存税压力，为系统架构提供次级大容量存储介质，足以支撑边缘大模型推理、权重存储需求，能够缓解 DRAM 供给紧缺问题。
🔍短期来看 NOR 闪存也存在落地可能，但 NOR 存内计算方案不具备规模化商用潜力，仅能满足小范围测试场景。
📱3D NAND 适配边缘大模型推理，降低终端功耗发热
📲边缘端设备传统方案需要将全部模型权重载入 DRAM，处理器运行时 60%-69% 的系统功耗都会消耗在 DRAM 数据读写上，持续高负载会带来设备发烫、续航缩短问题。
💡3D NAND 闪存提供全新解决思路，无需频繁跨总线搬运全连接层权重，权重数据直接存储在闪存阵列内部，注意力运算可直接在闪存内完成计算，大幅削减 DRAM 读写开销。

💾AMD、苹果发力闪存方案，以此降低 AI 内存成本压力

作者AI财经

作者 AI财经