🔥 M3即将发布,看好模型性能逆转(0527)@华泰计算机
🌟 ,模型催化会比较密集。
M3这次的重要变化:
🌟1M context。DeepSeek V4已经把100万token上下文推成SOTA模型标配,MiniMax M3这次也跟上了。
🌟国产模型优化主战场还是 Attention / KV Cache。M3这次是 GQA-based sparse attention。简单理解:传统MHA是每个Q head都有自己的K/V;GQA则是几个Q head共享一组K/V,在模型效果和KV Cache成本之间做折中。
🌟Attention筛选。M3的思路和DeepSeek此前的DSA有相似性:先做一轮轻量attention,对历史KV block打分,筛出Top-k重要KV block,再进入正式attention计算。 ,。
🌟模型提速明显。1M token下,prefill attention延迟提升9.7倍,decode attention延迟提升15.6倍。decode侧更关键,因为长文档、代码仓库、Agent多轮任务,每生成一个token都要访问历史KV。
🌟基于前期调研,M3应该会有小参数和大参数两个版本。当下M2.7由于参数较小,性能上相对吃亏;M3如果补上大参数版本,同时叠加长上下文attention优化,模型能力和商业化想象空间都有望重新打开。
🌟商业化上,DeepSeek V4永久降价后,小米今天也跟进模型降价。还是周末电话会的观点:只要ARR能稳住,降价就可以理解成扩大使用量和提高渗透率;如果ARR跟不上,降价才会变成利润压力。 ,。
☎️From 华泰计算机 郭雅丽/范昳蕊/袁泽世/岳铂雄/王浩天/徐诚伟
