先用AI读一遍,后面我们再细化
结论:整体来说还是在Attention和KVcache上下功夫,提升性价比

1.这篇论文要解决什么问题?
DeepSeek-V4想解决的是超长上下文的效率瓶颈。
过去LLM做长上下文、长推理、复杂Agent任务时,最大的问题不是“能不能塞进去”,而是注意力机制太贵。普通Transformerattention随序列变长,计算和KVcache都会急剧膨胀。到了百万token场景,模型不是不能理解,而是推理成本、显存、延迟都很难承受。
所以这篇论文的目标可以概括成一句话:让百万token上下文变得足够便宜,便宜到可以真正日常使用,而不是只在benchmark里展示一下。
论文提出两个MoE模型:DeepSeek-V4-Pro和DeepSeek-V4-Flash。Pro是更强版本,1.6T总参数、49B激活参数;Flash是更轻版本,284B总参数、13B激活参数。两者都支持1Mtoken上下文。
2.主要贡献与创新
这篇论文的创新主要分成三层。
第一层是模型结构创新:提出混合注意力架构,把A和HCA结合起来。A是CompressedSparseAttention,先把KV压缩,再只挑一部分重要块看;HCA是HeavilyCompressedAttention,把KV压得更狠,但仍然做denseattention。它们共同服务于一个目标:长上下文时少存、少算,但尽量不丢关键信息。
第二层是连接方式创新:提出或采用mHC,Manifold-ConstrainedHyper-Connections。它可以理解为对普通residualconnection的增强版。普通残差连接像“每层都把原信号接回来”,mHC则更像给信息流加了一个可学习的“调度器”,但又用约束保证它不要把信号放大到训练不稳定。
第三层是训练与系统工程创新:使用Muonoptimizer提升收敛和稳定性;同时做了大量底层工程,比如MoE通信计算重叠、TileLangkernel、FP4量化感知训练、KVcache管理和磁盘KVcache等。也就是说,这篇论文不只是“模型设计论文”,更像是架构+训练+推理系统的一整套方案。

作者 AI财经

AI财经提供的财经数据以及其他资料均来自互联网其他第三方,仅作为用户获取信息之目的,并不构成投资建议。
AI财经以及其他第三方不为本页面提供信息的错误、残缺、延迟或因依靠此信息所采取的任何行动负责。市场有风险,投资需谨慎。