[庆祝]【千问】Qwen-3.7、【谷歌I/O大会】模型更新

☀️【Qwen-3.7:继续聚焦Coding、Agent能力】
– 基本信息:1M 上下文,百炼即将上线;

– 聚焦编程、Agent能力提升:编程方面,SWE bench-Pro 得分60.6%,超过DS v4-Pro 59.0%,GLM-5.1 58.8%,Kimi K2.6 59.5%;Terminal-Bench 2.0得分61.6,超越Claude Opus 4.5 59.3%、GLM-5 56.2%、Kimi-K2.5 50.8%。长周期自主执行方面,在一项长达 35 小时、超过 1000 次工具调用的全自主内核优化实验中保持了连贯推理,适配Claude Code、OpenClaw、Qwen Code。

– 推理能力同步提升,Qwen3.7-Max 在 GPQA Diamond(92.4 vs. Opus-4.6 的 91.3)、HLE(41.4 vs. Opus-4.6 的 40.0)、

☀️【Gemini-3.5 Flash:多模态能力领先,走高性价比路线】
– 多模态和工具调用能力突出:Gemini 3.5 Flash 在 MCP Atlas 工具调用测试中得分 83.6%,在 CharXiv Reasoning多模态复杂图表理解测试中得分84.2%,领先Opus 4.7和GPT-5.5;

– 编码能力表现弱于海外大厂:SWE-Bench Pro 55.1%,低于GPT-5.5(58.6%)和Claude Opus 4.7(64.3%);作为Flash级小参数模型,推理能力层面亦不是重点提升方向。

– 高效tokens输出+合理定价:输出 token速率比同档前沿模型快约 4 倍;百万tokens输入/输出定价$1.5/$9.0,相比Gemini 3 Flash贵3倍,但比3.1 Pro便宜40%;约为 GPT-5.5 ($5.00/$22.50)Claude Opus 4.7($5.0/$22.5)价格优势明显。

☀️【Omni:继续聚焦Coding、Agent能力】
接受任意模态的输入,生成任意模态的输出。首发版本以视频输出为主,后续会支持图像和文字,可以在Gemini app、Google Flow和YouTube Shorts上体验。

作者 AI财经

AI财经提供的财经数据以及其他资料均来自互联网其他第三方,仅作为用户获取信息之目的,并不构成投资建议。
AI财经以及其他第三方不为本页面提供信息的错误、残缺、延迟或因依靠此信息所采取的任何行动负责。市场有风险,投资需谨慎。