🔥#MiniMax M3即将发布…

🔥 M3即将发布，看好模型性能逆转（0527）@华泰计算机

🌟 ，模型催化会比较密集。

M3这次的重要变化：
🌟1M context。DeepSeek V4已经把100万token上下文推成SOTA模型标配，MiniMax M3这次也跟上了。

🌟国产模型优化主战场还是 Attention / KV Cache。M3这次是 GQA-based sparse attention。简单理解：传统MHA是每个Q head都有自己的K/V；GQA则是几个Q head共享一组K/V，在模型效果和KV Cache成本之间做折中。

🌟Attention筛选。M3的思路和DeepSeek此前的DSA有相似性：先做一轮轻量attention，对历史KV block打分，筛出Top-k重要KV block，再进入正式attention计算。，。

🌟模型提速明显。1M token下，prefill attention延迟提升9.7倍，decode attention延迟提升15.6倍。decode侧更关键，因为长文档、代码仓库、Agent多轮任务，每生成一个token都要访问历史KV。

🌟基于前期调研，M3应该会有小参数和大参数两个版本。当下M2.7由于参数较小，性能上相对吃亏；M3如果补上大参数版本，同时叠加长上下文attention优化，模型能力和商业化想象空间都有望重新打开。

🌟商业化上，DeepSeek V4永久降价后，小米今天也跟进模型降价。还是周末电话会的观点：只要ARR能稳住，降价就可以理解成扩大使用量和提高渗透率；如果ARR跟不上，降价才会变成利润压力。，。

☎️From 华泰计算机郭雅丽/范昳蕊/袁泽世/岳铂雄/王浩天/徐诚伟