[庆祝]【美团LongCat-2.0】全国芯训练万亿参数量模型,同步实现架构创新
☀️事件:6月30日,美团发布并宣布开源 LongCat-2.0。模型采用LSA+MoE架构,总参数1.6T,平均激活参数48B,预训练数据超过35万亿tokens;支持百万上下文,未披露多模态输入能力。
☀️模型能力
【提升:coding能力比肩国产主流大模型】
LongCat-2.0在Terminal-Bench 2.1、SWE-bench Pro分别得70.8、59.5。GLM-5.2为81.0、62.1;Qwen3.7-Max为69.7(Terminal-Bench 2.0)、60.6;Kimi K2.6为66.7(Terminal-Bench 2.0)、58.6;M3为66.0、59.0。, 2.0的Coding能力达到了比肩其他主流国产模型的水平,(注:到各厂商使用的Benchmark版本有差异,且仅看测试集评价体系较为单一)。
【提升2:LSA+Embedding模型架构创新】
-LSA:,LongCat稀疏注意力LSA在DSA基础上引入流感知索引,优化了索引器打分的执行方式,采用跨层索引,推理时单次索引计算可由多个连续的注意力层复用,并扩展至三步MTP投机解码采用。
-Embedding:引入N=5的N-gram Embedding条件记忆模块,将embedding空间扩展超过100倍,以更充分地建模局部上下文信息,LongCat报告认为,在高稀疏MoE已经超过”甜点区间”后,增加同等参数量的 N-gram Embedding 所带来的收益远超标准MoE。。
☀️模型具备高性价比
标准价为输入/缓存命中/输出分别0.75/0.015/2.95美元/百万tokens,限时优惠价0.30/0.006/1.20美元。
☀️验证全国产芯片能训练万亿参数量大模型
。美团自2023年开始探索国产卡应用在大模型训练端,从3千卡逐步拓展到本次的5万卡,LongCat-2.0训练运行在物理超节点上,每个超节点最多48台机器,节点内全互联高带宽、节点间走 RoCE 网络。超节点把高带宽通信域扩展到数百张卡,相比同规模下超节点额外带来约30%的预训练吞吐提升。
========================
🌹欢迎联系中信计算机&社服团队
