📋 总结 主要围绕“国产超节点”这一核心主题,深入探讨了AI算力从训练时代向推理时代转型的趋势、推理算力的关键特征,以及国产芯片在其中迎来的历史性机遇。主要内容可总结为以下几个层面: 1. 行业趋势:从训练到推理的范式转变 文章开篇以DeepSeek推出“专家/普通”双模式为例,指出这不仅是节省用户时间
- 文章开篇以DeepSeek推出“专家/普通”双模式为例,指出这不仅是节省用户时间和厂商算力的通行做法,更可能是在为参数量巨大的DeepSeek V4发布及未来商业模式做铺垫。
- 核心观点明确指出,2026年整个AI产业的重心正从“训练”转向“推理”。训练追求大规模、高稳定的万卡/十万卡集群,以处理海量数据;而推理的需求是井喷式的,其核心诉求完全不同。
- 核心需求:低延迟。这是推理与训练最根本的区别。文章以用户交互体验为例,指出首个token的生成速度(首字延迟)是关键瓶颈。
- 技术实现:为降低延迟,产业在硬件和架构上进行了创新:
- 芯片级:英伟达提出PD分离(Prefill与Decode阶段分离)理念,而华为950系列率先实现;Groq的LPU通过集成大容量SRAM专门优化首token生成速度。
- 集群架构级:推理不需要训练式的大集群,而是需要算力池化,以实现跨服务器计算单元与存储单元的高速直接访问(如RDMA技术),这尤其适合MoE(混合专家)模型。
- 落地形式:超节点。文章将“超节点”定义为推理时代算力落地的核心特征和主要形式。它是由几十到几百张卡组成的小集群,内部通过CPO(共封装光学)、OCS(光学电路交换)等先进光互联技术,并集成LPU、PD分离芯片等,共同构建一个以实现极低延迟为目标的算力单元。英伟达、华为、阿里云、谷歌等巨头都在积极部署各自的超节点解决方案。
- 为何是“今年”(2026年)成为元年? 过去国产卡(如华为910B/C、寒武纪590)因不支持FP8数据格式和超节点架构,在大模型深度推理上性能不足。而2026年推出的新一代国产芯片(华为950PR/DT、寒武纪690、海光深算四号)实现了关键突破:全面支持超节点架构,并支持FP8/FP4新一代数据格式。这使得国产算力能够真正满足推理时代的性能要求。
- 市场前景:随着AI应用爆发,token消耗量指数级增长,推理需求持续井喷。国产芯片在完成性能补课后,将迎来巨大的市场空间。文章预测2026年国产AI芯片出货量将达百万张以上,并可能在明年实现更急剧的放大。
- 投资标的:文章基于产业链逻辑,明确推荐了四个核心标的:
- 寒武纪:新一代690芯片支持超节点与新数据格式。
- 海光信息:深算四号芯片备货增长,需求旺盛。
- 盛科通信:交换机芯片已在主流云厂商落地。
- 华丰科技:作为华为AI芯片产业链中的关键连接器供应商,具备高弹性。
