DeepSeek V4：百万上下文普及，开启国产算力及应用新需求

[玫瑰]DeepSeek V4正式发布，全系原生支持1M超长上下文，长序列处理已成为普惠模型标配。模型分为双版本：DeepSeek-V4-Pro（总参数量1.6万亿，激活参数490亿）与DeepSeek-V4-Flash（总参数量2840亿，激活参数130亿）。V4通过引入CSA与HCA混合注意力机制，结合DSA稀疏注意力，大幅降低了推理时的计算与KV Cache显存开销。成本端，V4-Pro输入成本低至1元（缓存命中）/12元（未命中），V4-Flash则低至0.2元/1元，价格曲线的大幅下移有望进一步加速国内Token消耗指数级爆发。

[玫瑰]在权威基准测试中，V4-Pro展现了极强的综合推理能力。在Apex Shortlist测试中取得90.2%的准确率，Codeforces测试中达到3206的高分，综合实力比肩世界顶级闭源模型。在Agentic Coding评测中，其交付质量已逼近Opus 4.6非思考模式，在世界知识测评中大幅领先其他开源模型，仅次于Gemini-Pro-3.1。在数学、STEM及竞赛级代码任务中，V4-Pro 超越了当前所有已公开评测的开源模型，稳居开源模型梯队顶端。

[玫瑰]DeepSeek V4支持昇腾950的全栈适配，不仅算法兼容，还通过FP4/MXFP4原生精度支持、TileLang编程范式及融合Kernel技术实现软硬深度协同。在昇腾950节点下，DeepSeek-V4-Pro在8K输入场景下TPOT（首字延迟）低至20ms，单卡Decode吞吐达4700TPS；V4-Flash模型在同场景下TPOT仅约10ms，单卡Decode吞吐高达1600TPS。V4对国产算力的全栈适配，标志国产算力底座已足以支撑超大规模长序列模型训练与推理。

投资建议：推理成本的持续下降将驱动Token需求爆发，进而带动AI应用与国产算力生态正反馈循环。
1）昇腾、寒武、海光及相关产业链生态，受益于大模型对算力效能与自主可控需求，海光信息、中科曙光、＃禾盛新材
2） Token消耗的爆发直接利好国内云计算公司（云租、算租），以及承接底层推理的AIDC公司，深信服；
3）随着Agent协作能力接近Opus 4.6水平，B端复杂工作流与C端Agent交互将成为Token消耗新引擎，国能日新。

DeepSeek V4：百万上下文普及，开启国产算力及应用新需求

作者AI财经

作者 AI财经