dcjsj wyxCode Arena 编程盲测放榜…

【dcjsj wyx】Code Arena 编程盲测放榜：Qwen3.7-Max跻身coding能力全球 Top 4——国产模型位列第一梯队前列

事件：LMArena 旗下前端 Web 开发编程盲测榜单 CodeArena（5月24日，32.8万票，81个模型）最新放榜：Qwen3.7-Max 以 1541 分排名全球第四，与第三名 Claude Opus 4.6-thinking（1542）处于同一分数段，高于 Claude Opus 4.6（1538）、GLM-5.1（1533）、Kimi-K2.6（1518）、Gemini-3.5-Flash（1506）、GPT-5.5-xhigh（1505）等模型，为当前国产阵营排名最高的编程大模型。前三名均为 Claude 系列。

1️⃣ 长周期工具执行仍是最大能力边际
Qwen Team 官方披露，Qwen3.7-Max 曾在训练时未见过的平头哥 M890 芯片平台上连续自主执行约 35 小时，完成 1,158 次工具调用，从任务描述和参考实现出发自主编写并优化内核，最终相对 Triton 参考实现实现 10 倍加速。CodeArena 的 Web 开发盲测与长任务能力方向一致，验证的是模型在多轮代码生成、失败诊断和交互迭代中的稳定性，千问跻身 Top 4 与此前的长任务案例形成呼应。

2️⃣ Coding和Agent指标进入国产第一梯队
按 Qwen 官方 benchmark，Qwen3.7-Max 在 Terminal-Bench、SWE-Pro、MCP-Mark 上领先 DeepSeek V4-Pro Max、Kimi K2.6，SWE-Verified 略低于 Claude Opus 4.6。与 GLM-5.1 的对比更值得关注：LMArena 通用盲测中两者基本持平，但官方披露的 Agent 工具调用指标已有明显差距（MCP-Mark 60.8 vs 57.5）。综合看，千问在当前公开盲测与官方 Agent 指标中进入国产第一梯队前列头部。

3️⃣ 后训练方法支撑跨框架泛化
Qwen 官方博客披露了两个训练设计：一是把 Task、Harness、Verifier 三个组件解耦，通过跨框架 RL 训练让模型学习通用策略，而不是只适配某一个固定执行环境；二是在超过 80 小时的 RL 训练中引入 self-monitoring，自主识别奖励作弊行为。前者支撑跨框架泛化，后者支撑长任务稳定。

4️⃣ 投资端看国产排序、Agent入口和云资源消耗
投资端短期看千问在国产模型中的排序提升，中期看 Agent 入口和阿里云调用量。国内有百炼、千问/Qwen App、Qoder，海外新增 Qwen Cloud、MuleRun、QoderWork；后续核心不是榜单分数本身，而是 Agent 带动 API token、工具调用和云资源消耗增长。

CodeArena 排名是千问编程能力的第三方验证，国产模型在开发者工作流入口的竞争力正在快速逼近 Claude 系列。

dcjsj wyxCode Arena 编程盲测放榜…

作者AI财经

作者 AI财经