【Opus4.8】小步迭代Agent能力,Mythos数周内正式发布
事件:北京时间5月29日凌晨,Anthropic发布ClaudeOpus4.8模型;公司官网同步宣布ClaudeMythos模型预计数周内面向所有客户开放。
【提升1:代码与智能体能力小幅进步】
Coding与AgentBenchMark整体提升,E-benchPro达到69.2%,相比Opus4.7的64.3%提升4.9pcts;Terminal-Bench2.1达到74.6%,Oorld-Verified达到83.4%,GDPval-AA达到1890,FinanceAgentv2达到53.9%,均高于Opus4.7。浏览器Agent场景Online-Mind2Web得分84%,较Opus4.7和GPT-5.5均有提升。新模型在代码、终端操作、计算机使用、金融分析等核心Agent任务上继续刷新Opus系列表现。
【提升2:动态工作流多Agent】
让Claude基模在ClaudeCode中承担更复杂的任务,动态工作流支持单次会话中运行数百个并行子智能体,并在反馈用户前验证输出,可处理跨数十万行代码库的大规模迁移,更适合代码库迁移、复杂工程拆解、深度研究和多文档分析等任务。
【提升3:更强判断力和诚实性】
Opus4.8更会提出澄清问题、发现自身错误、在计划不稳时反驳,并更愿意标注不确定性。Opus4.8让自身代码缺陷”未被指出而通过”的概率约为Opus4.7的1/4。不当行为得分1.83,由于Opus4.7(2.48)。
【其他亮点:快速模式定价更便宜】
Opus4.8快速模式速度约为常规模式2.5倍,定价10/50MTokens,仅为Opus4.7的1/3;普通模式维持5/25MTokens不变。claude.ai和Cowork新增努力度控制功能,可根据任务长度和复杂性选择不同tokens消耗量。
========================
欢迎联系计算机团队
