Minimax M3:注意力侧的方向转弯带来的长上下文+推理成本大幅优化
昨晚Minimax工程总在X上透露minimax 稀疏注意力架构图,或为下一代模型M3的全新注意力机制,我们分析判断如下:
1、新架构GQA如何实现:
先用Index Branch做粗检索,再用Sparse Branch对选中的 block 做真实 attention。可类比为,看书时候不是把整本书每一页都重读,而是先快速查目录/索引,定位几个相关章节,再精读。
我们认为, V4所应用的DSA / CSA不谋而合,均为序列稀疏选择方法,是保全推理精度+下降成本的一核心技术趋势。
2、GQA实现效果与&提升方向:
,且二者均有较大提升。官方图示可看到,1 M上下文情况,M3 VS M2,prefill比之前快9.7倍,。
3、Minimax的注意力机制两轮变迁,现在与deepseek交汇:
Minimax从M1的线性注意力(Lightning),到M2的全注意力,再到序列稀疏选择,经历两轮注意力机制的较大变化。我们认为,延续minimax一以贯之的风格(m2发布时对m1的颠覆,《Why Did M2 End Up as a Full Attention Model?》在行业内收获赞誉),m3又一轮的机制变化亦是研发团队工程+创造能力体现。
整体看,非常期待m3的发布。作为参考,上一次m2发布,榜单上”开源第一、全球前五”。
欢迎交流~
天风计算机 李璞玉
