Minimax M3…

Minimax M3：注意力侧的方向转弯带来的长上下文+推理成本大幅优化

昨晚Minimax工程总在X上透露minimax 稀疏注意力架构图，或为下一代模型M3的全新注意力机制，我们分析判断如下：

1、新架构GQA如何实现：
先用Index Branch做粗检索，再用Sparse Branch对选中的 block 做真实 attention。可类比为，看书时候不是把整本书每一页都重读，而是先快速查目录/索引，定位几个相关章节，再精读。
我们认为， V4所应用的DSA / CSA不谋而合，均为序列稀疏选择方法，是保全推理精度+下降成本的一核心技术趋势。

2、GQA实现效果与&提升方向：
，且二者均有较大提升。官方图示可看到，1 M上下文情况，M3 VS M2，prefill比之前快9.7倍，。

3、Minimax的注意力机制两轮变迁，现在与deepseek交汇：
Minimax从M1的线性注意力（Lightning），到M2的全注意力，再到序列稀疏选择，经历两轮注意力机制的较大变化。我们认为，延续minimax一以贯之的风格（m2发布时对m1的颠覆，《Why Did M2 End Up as a Full Attention Model?》在行业内收获赞誉），m3又一轮的机制变化亦是研发团队工程+创造能力体现。

整体看，非常期待m3的发布。作为参考，上一次m2发布，榜单上”开源第一、全球前五”。

欢迎交流～
天风计算机李璞玉

作者AI财经

作者 AI财经