先用AI读一遍，后面我们再细化

先用AI读一遍，后面我们再细化
结论：整体来说还是在Attention和KVcache上下功夫，提升性价比
–
1.这篇论文要解决什么问题？
DeepSeek-V4想解决的是超长上下文的效率瓶颈。
过去LLM做长上下文、长推理、复杂Agent任务时，最大的问题不是“能不能塞进去”，而是注意力机制太贵。普通Transformerattention随序列变长，计算和KVcache都会急剧膨胀。到了百万token场景，模型不是不能理解，而是推理成本、显存、延迟都很难承受。
所以这篇论文的目标可以概括成一句话：让百万token上下文变得足够便宜，便宜到可以真正日常使用，而不是只在benchmark里展示一下。
论文提出两个MoE模型：DeepSeek-V4-Pro和DeepSeek-V4-Flash。Pro是更强版本，1.6T总参数、49B激活参数；Flash是更轻版本，284B总参数、13B激活参数。两者都支持1Mtoken上下文。
2.主要贡献与创新
这篇论文的创新主要分成三层。
第一层是模型结构创新：提出混合注意力架构，把A和HCA结合起来。A是CompressedSparseAttention，先把KV压缩，再只挑一部分重要块看；HCA是HeavilyCompressedAttention，把KV压得更狠，但仍然做denseattention。它们共同服务于一个目标：长上下文时少存、少算，但尽量不丢关键信息。
第二层是连接方式创新：提出或采用mHC，Manifold-ConstrainedHyper-Connections。它可以理解为对普通residualconnection的增强版。普通残差连接像“每层都把原信号接回来”，mHC则更像给信息流加了一个可学习的“调度器”，但又用约束保证它不要把信号放大到训练不稳定。
第三层是训练与系统工程创新：使用Muonopti mizer提升收敛和稳定性；同时做了大量底层工程，比如MoE通信计算重叠、TileLangkernel、FP4量化感知训练、KVcache管理和磁盘KVcache等。也就是说，这篇论文不只是“模型设计论文”，更像是架构+训练+推理系统的一整套方案。

先用AI读一遍，后面我们再细化

作者AI财经

作者 AI财经