📋 要点 1. RAG成为NAND需求主线:用户数据被AI索引化后,原始文件会被放大为多倍SSD需求,推动企业级SSD持续扩容。 2. 需求不是一次性建库:每年新增的PDF、代码库、企业知识库和多模态内容都会继续被RAG化,形成持续数据流需求。 3. 推理架构带来额外弹性:KV Cache、Rubin


要点

1. RAG成为NAND需求主线:用户数据被AI索引化后,原始文件会被放大为多倍SSD需求,推动企业级SSD持续扩容。

2. 需求不是一次性建库:每年新增的PDF、代码库、企业知识库和多模态内容都会继续被RAG化,形成持续数据流需求。

3. 推理架构带来额外弹性:KV Cache、Rubin SSD/CMX、User Memory和Agent Trace共同补充需求,但RAG仍是最核心驱动。

近期针对AI SSD存储需求进行了多轮调研。相比传统服务器周期,本轮NAND需求上修并不是简单来自服务器数量增长,而是AI应用改变了数据的使用方式:用户上传的数据不再只是被保存,而是需要被切块、向量化、建索引、热备份,并在推理过程中被反复检索和调用。

换句话说,AI不是让平台“多存一点数据”,而是把同一份数据加工成多层数据资产。一份PDF、一段代码库、一套企业知识库,过去可能只需要存在对象存储里;现在如果要被AI总结、问答、引用和长期记忆,就需要额外生成embedding、vector index、metadata、检索日志和热备份。正是这层“AI索引化”,使NAND需求增速显著高于大部分CSP原先的预期。

本轮NAND需求的核心主线是RAG/Embedding Index。除此之外,用户原始内容、User Memory、Agent Trace、Inference Logs、Training Data Lake、Checkpoint、KV Cache、Rubin SSD/CMX等都会共同拉动SSD需求。但主次要分清:RAG是主引擎,用户原始内容是底座,其他需求是侧翼和架构弹性。

一、AI为什么会重构NAND需求?

传统互联网时代,用户上传一份文件,平台主要做的是保存、分发和推荐。比如用户上传一张图片、一段视频、一份PDF,平台把它存下来,未来用户需要时再读出来。

AI时代不一样。用户上传一份文件后,平台不仅要保存原文,还要让模型能够理解和调用这份文件。这个过程会产生一整套新的存储需求:

· 原始文件要保存;

· 文件要切成小块;

· 每个小块要生成embedding;

· embedding要形成向量索引;

· 索引要热备;

· 检索过程会产生日志;

· 用户长期使用后会形成personal memory;

· Agent执行任务时还会生成trace、工具调用结果、截图和安全审计数据。

所以,AI对NAND的拉动不是单一来源,而是多层叠加。过去一份数据可能只存一份;现在一份数据会衍生出索引、日志、记忆、评测和训练回流数据。

这可以写成一个简单公式:

NAND需求 = 用户新增数据量 × AI索引化比例 × 数据膨胀系数 × 热存储比例 × 保留周期

如果只看服务器数量或GPU数量,就容易低估NAND需求。因为同样一台服务器背后,数据形态已经变复杂了:它不只是服务模型推理,还要服务检索、记忆、日志、评估、安全和训练回流。

二、RAG/Embedding Index是本轮NAND需求的主引擎

本轮AI NAND需求最核心的主线是RAG和Embedding Index。

RAG的作用很简单:让模型能够从用户文件、企业知识库、代码库、内部文档、多模态内容里检索信息。没有RAG,模型只能依赖训练时学到的知识回答;有了RAG,模型可以先去用户数据里找答案,再基于检索结果生成回答。这意味着,用户上传的数据不再只是静态保存,而是要变成AI可以实时调用的索引。

可以把它理解成一道小学数学题:

假设用户上传了一个100MB文本文件。以前,平台主要存这100MB。

现在,如果这100MB文件要做RAG,系统会把它切成很多小块,然后给每个小块生成embedding。假设单份RAG热索引大约是原始文本的4倍,那么需要:

$100 \text{MB} \times 4 = 400 \text{MB} \text{SSD}$

如果这份数据非常重要,需要在SSD里做双主热备,那么需要:

$400 \text{MB} \times 2 = 800 \text{MB} \text{SSD}$

所以:

100MB原始文件 → 400MB单份RAG热索引 → 800MB双主热备SSD需求

这就是RAG对SSD的4-8倍放大。

因此,需求测算可以用三档:

· 保守情景:4x,只算单份RAG热索引。

· 中性情景:6x,部分数据双热备,部分数据单热备。

· 乐观情景:8x,核心热数据全部SSD双主热备。

这已经足够解释为什么RAG会明显拉动企业级SSD。用户上传的数据本身可能只增长30%,但如果这些数据被RAG化后要放大4-8倍,最后落到SSD采购上的增量会大得多。

更重要的是,RAG不是一次性建库需求,而是持续的数据流需求。只要用户每年继续上传新文件,企业每年继续接入新知识库,代码库继续更新,多模态内容继续增长,每年都会有新的数据需要被RAG化。

继续举个简单的例子:

简单看,若2025年行业SSD需求为100,2026年RAG带来30的新增需求,则总需求升至130。若2027年新增被RAG化的数据量翻倍,RAG新增需求也将从30升至60,总需求进一步升至190。

这说明,RAG不是一次性建库需求,而是随新增用户数据持续增长的数据流需求。只要用户上传文件、企业知识库、代码库和多模态内容继续增加,且AI索引化比例继续提升,RAG对SSD的拉动就不会自然衰减,反而可能继续放大。

三、除RAG外,AI还带来哪些NAND需求?

虽然RAG是主线,但NAND需求不能只写RAG。完整的AI存储需求至少还包括四类:用户原始内容、User Memory、Agent Trace/Inference Logs、Training Data Lake/Checkpoint。

第一,用户原始内容是RAG的底座。

RAG需求不是凭空出现的,它的前提是用户和企业不断上传新数据。对于Meta这类UGC平台,用户每天都在上传图片、视频、短视频、聊天内容和创作者内容。对于OpenAI、Anthropic、Google、Microsoft这类AI平台,用户和企业会上传PDF、PPT、Excel、代码库、会议记录、合同、客服文档和内部知识库。

这些数据本来就需要存储。AI的变化在于,它会在原始存储之上再叠加一层索引层。

以前:

上传100MB = 存100MB

现在:

上传100MB = 存100MB原始文件 + 生成400-800MB RAG热索引

所以,AI不是替代传统对象存储,而是在传统对象存储上增加了“AI可调用层”。原始内容是底座,RAG是放大器。原始数据越多,被AI索引化的比例越高,SSD需求弹性越大。

第二,User Memory会让AI存储从“文件”变成“长期记忆”。

AI助手早期像一次性聊天工具。用户问一句,模型答一句,任务结束后上下文就可以丢掉。但如果AI助手未来变成personal agent,它就需要记住用户的长期偏好、历史任务、常用文件、工具调用习惯、工作流和个性化设置。

这会形成一套用户级持久记忆系统。

比如,一个投资人经常让AI分析AI产业链,系统就需要记住他关注的公司、指标、报告格式和风险偏好。一个程序员经常让AI改代码,系统就需要记住他的代码库结构、风格偏好、历史bug和常用工具。一个企业用户经常让AI处理内部流程,系统就需要记住组织架构、权限、业务文档和历史任务。

这些长期memory不适合全部放在HBM或DRAM里。高频、实时部分可能在内存里,但长期、低频、可检索的记忆更可能落在SSD和分层存储里。

第三,Agent Trace和Inference Logs会让NAND需求更厚。

Agent不是简单问答。Agent会调用工具、打开网页、读取文件、执行代码、截图、报错、回滚、重试,最后再生成结果。每一步都可能形成trace。

一个Agent任务可能包括LLM文本交互、工具调用结果、网页截图、代码执行结果、错误日志、回滚记录、安全审计、模型评估、用户反馈和replay数据。这些数据不一定全部长期保留,但平台会保留其中一部分,用于调试系统、评估模型、安全审计、回放失败案例和提取高质量训练数据。

这类需求不能写成最大驱动,因为Agent Trace会被采样、压缩、摘要和分层存储。但它的意义在于,AI系统越复杂,需要保存的过程数据越多。NAND不只是在保存用户文件,也在保存AI系统运行过程中的“黑匣子”。这些数据让NAND需求更厚,也让存储需求更难完全按传统互联网模型预测。

第四,Training Data Lake、Checkpoint和模型版本管理提供工程侧底座。

训练一个大模型,不是只保存最终模型。厂商还要保存原始训练数据、清洗后数据集、训练数据湖、checkpoint、中间版本、fine-tune版本、安全版本、benchmark数据集、replay数据和评测结果。

模型迭代越快,这部分需求越稳定。一个模型公司可能同时维护基础模型、推理模型、代码模型、多模态模型、安全增强版本、企业定制版本、A/B测试版本,以及不同尺寸和不同延迟版本。每个版本背后都有权重、checkpoint、评测数据、日志和回放数据。

训练侧存储需求不像RAG那样直接跟用户日活和上传数据绑定,但它提供了稳定的工程侧底座。模型越多、版本越多、迭代越快,工程侧NAND需求越稳定。

四、KV Cache、Rubin SSD与Cerebras:推理架构如何影响NAND?

除了RAG之外,推理架构变化也会影响NAND需求。但这里要分清主次:KV Cache和Rubin SSD是NAND的架构弹性,不是比RAG更确定的主线;Cerebras/LPU可以提升decoding效率,但不能简单推导为NAND空头。

先看KV Cache。

KV Cache可以理解成模型处理上下文时产生的中间状态。用户输入长prompt后,模型会为这些tokens生成KV Cache。如果未来还要继续使用这些上下文,存下KV Cache可以省掉一部分重新计算成本。

所以KV Cache offload的逻辑是“以存代算”:把一部分KV Cache放到SSD里,未来就不用每次重新计算。

但这个需求不是绝对刚性的,因为它取决于一个简单的成本比较:

如果存SSD更便宜,就存下来;

如果重新计算更便宜,就重新计算。

假设存一段KV Cache到SSD要花10元。

如果重新计算只要5元,厂商就会选择重新计算。

如果重新计算要20元,厂商才会选择存SSD。

所以KV Cache对SSD的需求,取决于SSD价格、算力价格、prefill集群效率和用户体验要求。随着SSD价格上涨,部分厂商会重新建设prefill集群,用重新计算替代长期存储KV Cache。这意味着KV Cache曾经是SSD需求的重要增量,但它不是最稳定的长期主线。

不过,这不代表KV Cache可以完全忽略。长上下文、多并发、多Agent任务下,KV Cache仍然会膨胀。

在PD分离架构下,Prefill节点负责处理输入tokens,Decoding节点负责逐token生成输出。Prefill节点会生成KV Cache,Decoding节点需要读取这些KV Cache。问题是,Prefill和Decoding不在同一台服务器,是跨机柜的,因此中间需要一个池化层来传输和读取KV Cache。

这个池化层可以有两条路线:

一条是CXL DRAM;

另一条是SSD池化,比如Rubin SSD/CMX。

如果SSD池化方案成为主流,SSD就不只是普通存储设备,而会进入推理架构的中间层,承担KV Cache池化和高性能数据传输功能。这会提高AI集群里高性能企业级SSD的配置比例。

但这部分需求属于“上行弹性”,目前还不是确定性主线。因为它仍然面临几个变量:CXL DRAM路线是否胜出,Rubin SSD是否大规模落地,Decoding节点是否通过LPU、TPU等方案加速,以及如果Decoding速度提升,中间态需要保存的时间是否变短。

再看Cerebras/LPU路线。

笔者调研的专家普遍看好Cerebras/LPU,核心逻辑是通过片上SRAM常驻模型权重,减少Decoding阶段的数据搬运。这个逻辑在短上下文、低并发、极致低延迟场景下有价值。它确实可能提高Decoding速度,缓解GPU+HBM架构下的显存带宽瓶颈。

但笔者认为不能因此推出“KV Cache都能放SRAM,所以不需要offload”。原因是KV Cache不是固定大小,而是随着context长度和并发请求数线性增长。单个200k context请求可能产生约4GB KV Cache;100个并发就是约400GB。如果再叠加多Agent、多轮任务和工具调用,KV Cache会继续放大。

所以,Cerebras/LPU更像Decoding加速方案,而不是对NAND需求的根本否定。它可能降低部分Decoding场景对HBM带宽的依赖,也可能缩短部分中间态停留时间,但在长上下文、多并发、多Agent任务下,KV Cache仍然需要外部存储层承接。更重要的是,Cerebras/LPU主要影响KV Cache和Decoding链路,并不影响RAG、Embedding Index、用户原始内容、User Memory、Agent Trace和Checkpoint这些NAND需求主线。

因此,本章结论是:

推理架构对NAND有两面影响。KV Cache可以recompute,使部分SSD需求有弹性;但长上下文、多并发和Agent任务又会让KV Cache继续膨胀。Rubin SSD/CMX可能让SSD进入推理中间层,是NAND的上行弹性;Cerebras/LPU可以加速Decoding,但不能完全消除KV Cache分层需求,更不能推翻RAG带来的NAND需求主线。

五、为什么短期SSD价格强势来自真实需求?

短期SSD价格强势,不能简单理解成CSP囤货。更准确的说法是:

真实AI需求是基础,供给周期错配是原因,大厂保供采购进一步放大了紧缺。

第一层是真实需求。

如果2026年NAND需求增长主要由RAG、Embedding、推理存储、User Memory、checkpoint和AI workloads拉动,那么这不是虚假需求。CSP不是为了囤货而囤货,而是因为AI应用真实吃掉了更多企业级SSD。

尤其是RAG,一份原始数据被AI索引化后,可能放大成4-8倍热SSD需求。只要用户上传文件、企业知识库、代码库和多模态内容继续增长,RAG就会持续消耗SSD。

第二层是供给周期。

企业级SSD扩产、高层数NAND放量、QLC导入、良率爬坡都需要时间。需求突然上来,供给无法立刻跟上,价格自然强势。

第三层是大厂保供。

对于CSP来说,AI用户和AI产品体验优先级很高。如果因为SSD不够导致新功能上线延迟、RAG检索能力不足、用户memory不可用,损失的不只是当期成本,而是用户心智和产品竞争力。因此大厂会提前锁货,把真实需求进一步放大成更强的采购周期。

所以,短期SSD价格强势首先来自真实AI需求,其次来自供给周期错配,大厂保供采购只是进一步放大了紧缺。

这也是NAND多头逻辑最重要的部分:如果RAG已经能解释2026年相当部分新增需求,那么2027-2028年不应简单假设需求自然回落。关键要看新增用户数据、RAG渗透率和热存储比例是否继续提升。

六、风险与跟踪指标

虽然AI NAND需求有真实支撑,但中长期仍然有几个风险需要跟踪

第一个风险是RAG膨胀系数下降:如果GREP、倒排索引或混合检索方案替代部分向量检索,那么RAG对SSD的膨胀系数可能下降。比如原来按6x-8x算,未来可能降到4x或更低。但这不意味着需求消失,而是弹性下降。只要用户数据继续增长,AI索引层仍然会消耗SSD。

第二个风险是采样率和保留周期优化:对于Agent Trace、Inference Logs、Telemetry这类数据,平台可以降低采样率、缩短保留周期、压缩摘要或转冷存。这样会压低日志类NAND需求。但对RAG热索引来说,优化空间较小,因为它直接影响AI产品能不能检索用户数据。

第三个风险是KV Cache更多转向recompute:如果算力继续变便宜,prefill集群效率继续提升,厂商可能减少长期KV Cache存储,把这部分需求转向重新计算。这会影响KV offload相关SSD需求。

第四个风险是CXL DRAM替代SSD池化:如果推理中间态最终由CXL DRAM解决,而不是Rubin SSD/CMX,SSD在推理架构中的新增弹性会下降。

第五个风险是Cerebras/LPU等Decoding加速降低中间态停留时间:如果Decoding速度大幅提升,KV Cache中间态需要存放的时间会缩短,对SSD容量需求有压制。但这主要影响KV Cache和推理池化,不影响RAG、Embedding、User Memory和对象存储主线。

第六个风险是供给在2027-2028年追上需求:NAND仍然是周期行业。若高层数NAND放量、企业级QLC供给增加,而需求增速边际放缓,价格可能松动。

结论

本轮AI NAND需求的核心,不是“AI数据变多”这么简单,而是用户数据被AI索引化后,变成了可检索、可调用、可记忆、可回流训练的热数据资产。

其中,RAG/Embedding Index是最核心的主线。用户上传100MB原始文本,单份RAG热索引可能变成400MB;如果核心数据做SSD双主热备,可能变成800MB。冷备通常放HDD,因此不应把所有灾备都计入SSD,但4-8倍的热索引膨胀已经足够解释企业级SSD需求为什么被显著放大。

更重要的是,RAG不是一次性建库,而是持续的数据流需求。只要用户每年继续上传新文件,企业知识库继续接入,代码库、多模态内容和个人memory持续增长,每年新增数据都会继续被AI索引层放大。因此,如果2026年RAG已经贡献了显著NAND新增需求,那么2027-2028年随着新增数据量和RAG渗透率继续提升,RAG对SSD的拉动可能不是衰减,而是继续放大。

因此,短期SSD价格强势不是单纯备货,而是“真实AI需求 + 供给周期 + 大厂保供”的结果。中长期需要跟踪RAG膨胀系数、热存储比例、KV Cache recompute、Rubin SSD落地、CXL DRAM竞争和NAND供给释放节奏。但从当前调研看,本轮AI NAND需求的本质,是AI把用户数据从静态文件变成了可调用的存储资产,而企业级SSD正是这套资产体系的核心承载层。

作者 AI财经

AI财经提供的财经数据以及其他资料均来自互联网其他第三方,仅作为用户获取信息之目的,并不构成投资建议。
AI财经以及其他第三方不为本页面提供信息的错误、残缺、延迟或因依靠此信息所采取的任何行动负责。市场有风险,投资需谨慎。