🔥 M3即将发布,看好模型性能逆转(0527)@华泰计算机

🌟 ,模型催化会比较密集。

M3这次的重要变化:
🌟1M context。DeepSeek V4已经把100万token上下文推成SOTA模型标配,MiniMax M3这次也跟上了。

🌟国产模型优化主战场还是 Attention / KV Cache。M3这次是 GQA-based sparse attention。简单理解:传统MHA是每个Q head都有自己的K/V;GQA则是几个Q head共享一组K/V,在模型效果和KV Cache成本之间做折中。

🌟Attention筛选。M3的思路和DeepSeek此前的DSA有相似性:先做一轮轻量attention,对历史KV block打分,筛出Top-k重要KV block,再进入正式attention计算。 ,。

🌟模型提速明显。1M token下,prefill attention延迟提升9.7倍,decode attention延迟提升15.6倍。decode侧更关键,因为长文档、代码仓库、Agent多轮任务,每生成一个token都要访问历史KV。

🌟基于前期调研,M3应该会有小参数和大参数两个版本。当下M2.7由于参数较小,性能上相对吃亏;M3如果补上大参数版本,同时叠加长上下文attention优化,模型能力和商业化想象空间都有望重新打开。

🌟商业化上,DeepSeek V4永久降价后,小米今天也跟进模型降价。还是周末电话会的观点:只要ARR能稳住,降价就可以理解成扩大使用量和提高渗透率;如果ARR跟不上,降价才会变成利润压力。 ,。

☎️From 华泰计算机 郭雅丽/范昳蕊/袁泽世/岳铂雄/王浩天/徐诚伟

作者 AI财经

AI财经提供的财经数据以及其他资料均来自互联网其他第三方,仅作为用户获取信息之目的,并不构成投资建议。
AI财经以及其他第三方不为本页面提供信息的错误、残缺、延迟或因依靠此信息所采取的任何行动负责。市场有风险,投资需谨慎。