[庆祝]【MiniMax】M3将至,注意力机制升级,性能大幅提升
[礼物]MiniMax工程负责人 Skyler Miao 在社交平台发文 “Something BIG is coming!”根据Skyler释放的信息,M3的突破或包括:
[礼物]注意力机制升级:
自研基于GQA的MiniMax 稀疏注意力(MSA)架构,采用Index Branch 快速索引 + Sparse Branch 精准计算双分支设计,即首先使用索引分支进行粗略检索,然后稀疏分支对选定的块进行真正的注意力处理,实现百万token上下文处理。
[礼物]性能大幅提速:
相较M2,Prefill阶段提速9.7倍,Decoding阶段提速15.6倍。
[礼物]6月主要大模型厂商将密集推出新一代大模型,MiniMax与Kimi将首先推出大版本模型更新,有望加深其ARR增长斜率,结合公司近期纳入恒生科技,股价存在反弹潜质。从当前MiniMax释放的信息来看,其一定程度上或参考了DeepSeek的DSA(闪电索引器)、CSA(块级选择)的思路,后续还可重点关注其多模态融合、自我持续学习能力是否有突破。
