性能测试大幅超越前代Opus4.6，重申看好国产大模型与算力需求提升【天风计算机团队】

4月9日 18:29
Anthropic发布Mythos预览版：性能测试大幅超越前代Opus4.6，重申看好国产大模型与算力需求提升【天风计算机团队】
事件：
Anthropic近期发布Claude Mythos Preview，在编程、数学、网络安全等基准上全面碾压前代Opus 4.6。同日Anthropic同步发起Project Glasswing，联合NVIDIA、AWS、Google等12家机构，投入1亿美元使用额度用于防御性安全工作。
#为什么Mythos热度这么高、我们认为主要有以下几点：
1、#模型能力的发展速度远超大多数人预期，加速向真实商用场景落地
以Anthropic自身为例，Opus4.5-Opus4.6-Mythos每个代际模型迭代仅两个月，但每次带来都是跨越式的能力增长，尤其是Mythos各项分数更是碾压前代，#我们认为这种能力的跃迁或是scaling-law的再次突破，推动模型整体能力加速提升。从Anthropic发布的报告来看，大模型已经从去年的Vibe Coding场景转向更加复杂且真实的商用落地场景转变。
2、大模型厂商在Agent 时代拥有极高定价权，近期几个模型迭代涨价的同时#Tokens调用约每一个半月就翻一倍（Openrouter，实际有望更高）
根据Anthropic报告，模型能力越强，Agent场景越复杂，Mythos在典型安全审计任务中会自主阅读代码、构建假设、运行调试、迭代验证，单次任务Token消耗远超传统对话，这也是今年各厂商的重点Harness Engineering。Tokens消耗量增长的同时这代模型价格也是Opus4.6的5倍，我们判断Token消耗的加速趋势将持续，全年调用量或实现数十倍增长。
3）网安格局面临洗牌，但ai防御需求或大幅增长
根据Anthropic发布的报告，Mythos模型在网络安全领域表现尤为突出，已自主发现上千个0day漏洞。但我们认为具备端点卡位、网络出口卡位、身份卡位的厂商如CrowdStrike、Palo Alto Networks以及国内传统网安上市公司，其部署位置和软件粘性难以被AI替代，反而因AI驱动攻击加剧而更具价值。且Project Glasswing已将CrowdStrike、Palo Alto Networks纳入创始伙伴，也验证了未来网安是走向AI增强而非替代的逻辑。
欢迎交流！
天风计算机缪欣君/李璞玉/王祺深

性能测试大幅超越前代Opus4.6，重申看好国产大模型与算力需求提升【天风计算机团队】

作者AI财经

作者 AI财经