【dcjsj wyx】Code Arena 编程盲测放榜:Qwen3.7-Max跻身coding能力全球 Top 4——国产模型位列第一梯队前列
事件:LMArena 旗下前端 Web 开发编程盲测榜单 CodeArena(5月24日,32.8万票,81个模型)最新放榜:Qwen3.7-Max 以 1541 分排名全球第四,与第三名 Claude Opus 4.6-thinking(1542)处于同一分数段,高于 Claude Opus 4.6(1538)、GLM-5.1(1533)、Kimi-K2.6(1518)、Gemini-3.5-Flash(1506)、GPT-5.5-xhigh(1505)等模型,为当前国产阵营排名最高的编程大模型。前三名均为 Claude 系列。
1️⃣ 长周期工具执行仍是最大能力边际
Qwen Team 官方披露,Qwen3.7-Max 曾在训练时未见过的平头哥 M890 芯片平台上连续自主执行约 35 小时,完成 1,158 次工具调用,从任务描述和参考实现出发自主编写并优化内核,最终相对 Triton 参考实现实现 10 倍加速。CodeArena 的 Web 开发盲测与长任务能力方向一致,验证的是模型在多轮代码生成、失败诊断和交互迭代中的稳定性,千问跻身 Top 4 与此前的长任务案例形成呼应。
2️⃣ Coding和Agent指标进入国产第一梯队
按 Qwen 官方 benchmark,Qwen3.7-Max 在 Terminal-Bench、SWE-Pro、MCP-Mark 上领先 DeepSeek V4-Pro Max、Kimi K2.6,SWE-Verified 略低于 Claude Opus 4.6。与 GLM-5.1 的对比更值得关注:LMArena 通用盲测中两者基本持平,但官方披露的 Agent 工具调用指标已有明显差距(MCP-Mark 60.8 vs 57.5)。综合看,千问在当前公开盲测与官方 Agent 指标中进入国产第一梯队前列头部。
3️⃣ 后训练方法支撑跨框架泛化
Qwen 官方博客披露了两个训练设计:一是把 Task、Harness、Verifier 三个组件解耦,通过跨框架 RL 训练让模型学习通用策略,而不是只适配某一个固定执行环境;二是在超过 80 小时的 RL 训练中引入 self-monitoring,自主识别奖励作弊行为。前者支撑跨框架泛化,后者支撑长任务稳定。
4️⃣ 投资端看国产排序、Agent入口和云资源消耗
投资端短期看千问在国产模型中的排序提升,中期看 Agent 入口和阿里云调用量。国内有百炼、千问/Qwen App、Qoder,海外新增 Qwen Cloud、MuleRun、QoderWork;后续核心不是榜单分数本身,而是 Agent 带动 API token、工具调用和云资源消耗增长。
CodeArena 排名是千问编程能力的第三方验证,国产模型在开发者工作流入口的竞争力正在快速逼近 Claude 系列。
