Minimax M3…

作者AI财经

2026年5月27日 09:30

Minimax M3:注意力侧的方向转弯带来的长上下文+推理成本大幅优化

昨晚Minimax工程总在X上透露minimax 稀疏注意力架构图,或为下一代模型M3的全新注意力机制,我们分析判断如下:

1、新架构GQA如何实现:
先用Index Branch做粗检索,再用Sparse Branch对选中的 block 做真实 attention。可类比为,看书时候不是把整本书每一页都重读,而是先快速查目录/索引,定位几个相关章节,再精读。
我们认为, V4所应用的DSA / CSA不谋而合,均为序列稀疏选择方法,是保全推理精度+下降成本的一核心技术趋势。

2、GQA实现效果与&提升方向:
,且二者均有较大提升。官方图示可看到,1 M上下文情况,M3 VS M2,prefill比之前快9.7倍,。

3、Minimax的注意力机制两轮变迁,现在与deepseek交汇:
Minimax从M1的线性注意力(Lightning),到M2的全注意力,再到序列稀疏选择,经历两轮注意力机制的较大变化。我们认为,延续minimax一以贯之的风格(m2发布时对m1的颠覆,《Why Did M2 End Up as a Full Attention Model?》在行业内收获赞誉),m3又一轮的机制变化亦是研发团队工程+创造能力体现。

整体看,非常期待m3的发布。作为参考,上一次m2发布,榜单上”开源第一、全球前五”。

欢迎交流~
天风计算机 李璞玉

作者 AI财经

AI财经提供的财经数据以及其他资料均来自互联网其他第三方,仅作为用户获取信息之目的,并不构成投资建议。
AI财经以及其他第三方不为本页面提供信息的错误、残缺、延迟或因依靠此信息所采取的任何行动负责。市场有风险,投资需谨慎。