DeepSeek V4:百万上下文普及,开启国产算力及应用新需求
[玫瑰]DeepSeek V4正式发布,全系原生支持1M超长上下文,长序列处理已成为普惠模型标配。模型分为双版本:DeepSeek-V4-Pro(总参数量1.6万亿,激活参数490亿)与DeepSeek-V4-Flash(总参数量2840亿,激活参数130亿)。V4通过引入CSA与HCA混合注意力机制,结合DSA稀疏注意力,大幅降低了推理时的计算与KV Cache显存开销。成本端,V4-Pro输入成本低至1元(缓存命中)/12元(未命中),V4-Flash则低至0.2元/1元,价格曲线的大幅下移有望进一步加速国内Token消耗指数级爆发。
[玫瑰]在权威基准测试中,V4-Pro展现了极强的综合推理能力。在Apex Shortlist测试中取得90.2%的准确率,Codeforces测试中达到3206的高分,综合实力比肩世界顶级闭源模型。在Agentic Coding评测中,其交付质量已逼近Opus 4.6非思考模式,在世界知识测评中大幅领先其他开源模型,仅次于Gemini-Pro-3.1。在数学、STEM及竞赛级代码任务中,V4-Pro超越了当前所有已公开评测的开源模型,稳居开源模型梯队顶端。
[玫瑰]DeepSeek V4支持昇腾950的全栈适配,不仅算法兼容,还通过FP4/MXFP4原生精度支持、TileLang编程范式及融合Kernel技术实现软硬深度协同。在昇腾950节点下,DeepSeek-V4-Pro在8K输入场景下TPOT(首字延迟)低至20ms,单卡Decode吞吐达4700TPS;V4-Flash模型在同场景下TPOT仅约10ms,单卡Decode吞吐高达1600TPS。V4对国产算力的全栈适配,标志国产算力底座已足以支撑超大规模长序列模型训练与推理。
投资建议:推理成本的持续下降将驱动Token需求爆发,进而带动AI应用与国产算力生态正反馈循环。
1) 昇腾、寒武、海光及相关产业链生态,受益于大模型对算力效能与自主可控需求,海光信息、中科曙光、#禾盛新材
2) Token消耗的爆发直接利好国内云计算公司(云租、算租),以及承接底层推理的AIDC公司,深信服;
3) 随着Agent协作能力接近Opus 4.6水平,B端复杂工作流与C端Agent交互将成为Token消耗新引擎,国能日新。
