📋 招商商社互联网团队:丁浙川/李秀敏/潘威全/李星馨、胡馨媛 团队覆盖范围:互联网电商、本地生活、免税酒店、餐饮旅游、商贸零售等 一、豆包2.1发布 火山引擎总裁 谭待 尊敬的各位来宾、朋友们,大家上午好!欢迎参加2026火山引擎Force原动力大会。 去年,正是在这个舞台上,我们还在探讨2025年
- Terminal Bench(业界公认最贴近真实研发的终端编程评测,模型要在命令行里端到端完成整个工程任务):豆包2.1 Pro与Opus 4.7基本持平,成绩位列全球第一梯队。
- SciCode(科学计算代码评测,覆盖五大学科科研问题,是AI for Science方向最有含金量的榜单之一):豆包2.1 Pro拿到59.8分,超过Opus 4.7和GPT-5.5。
- AI2 Repo(仓库级代码生成评测,模型要从一份需求文档出发,从0开始生成一整个可运行的仓库代码,是AI自主软件开发最前沿的命题):豆包2.1 Pro拿到47分,明显超过GPT-5.5和Gemini 3.1。
- GDPval(OpenAI发布的真实世界经济价值任务评测集,覆盖9大行业、44种职业):豆包2.1模型在该评测集上国内第一。
- MCP Atlas(评测AI Agent使用真实MCP Server和工具的能力,包含36个真实MCP Server、220个工具和1000多个任务):豆包2.1 Pro得分全面超过Opus 4.7和GPT-5.5。
- 豆包2.1展现了非常强的跨端理解和长程操作能力,在OSWorld和MobileWorld多个榜单上获得佳绩。豆包2.1 Pro在桌面端操作能力上接近Opus 4.7,在移动端则大幅领先,获得全球SOTA。
- 图像方面: 豆包2.1具备更强的空间理解和跨图像分析能力,在MMMU-Pro等多个榜单上获得高分,超过GPT-5.5、Opus 4.7和Gemini 3.1 Pro,同样是全球SOTA。
- 视频方面: 豆包2.1在动态过程和时序理解能力上显著增强,在Tomato和LVBench两个业界权威榜单上,豆包2.1 Pro均大幅领先Gemini 3.1 Pro,全球稳居领先位置。
- 720P原生: 当画面放大时显而易见,产品的刺绣线迹、旗袍面料的肌理不够清楚。
- 720P超分到4K: 画面整体虽然通过技术锐化了,但细密的绣线和肌理被平滑掉了,所以材料的质感反而变得更差。这也是超分经常被人诟病的一个原因——当细节密度不够时,分辨率的强化反而会进一步放大画面的缺陷。
- 原生4K: 刺绣的针脚、丝线的走向、面料的纹理都得到了非常完整、清晰的展现,产品也显得更有吸引力。这就是原生4K的优势——可以在生成阶段就保留更高密度的有效画面信息,从而满足后续进一步加工处理和展示的一系列需求。
- 麦当劳: 在员工培训场景里,豆包语音模型可以让AI的声音具备情绪感知能力和情感表达能力,提高员工培训效率。
- OPPO、vivo、荣耀: 利用豆包语音模型打造低延迟、音色自然的手机助手,使语音交互体验更智能、更有温度。
- 别克汽车: 基于豆包语音模型打造的智能语音车控已覆盖全系车型,能够准确理解用户意图,结合上下文连续响应,用自然生动的声音体验提升车辆精确控制的乐趣。
- 百应: 在智能外呼应用中,豆包模型做到了极高的音色还原度,让每一通电话都保持稳定、自然、专业的声音表现。
- Plaud: 豆包语音模型帮助Plaud的产品更准确地处理语音内容,让录音和智能摘要从简单的结构化记录走向了深入的场景理解。
- Identity: 负责统一用户和Agent的身份体系。
- Runtime: 负责Agent的运行环境和多Agent编排。
- Sandbox: 让Agent可以在隔离环境中安全执行任务。
- ADK: 提供Agent开发框架和工程化SDK。
- Observability和Evaluation: 负责Agent的效果评测和持续质量监控。
- Memory和Knowledge: 帮助企业把知识、记忆和业务上下文接入到Agent系统中。
- 懂车帝: 通过Agent Kit一站式开发能力来构建自身的Agent平台,通过Policy加Identity体系打通了内网权限,并借助Runtime和Sandbox快速迭代,已上线基于Agent的智能问数和数据审批系统。
- 上汽智己: 以Agent Kit为智能体底座,搭建了企业级智能问数平台,统一解决数据权限和治理问题,实现全域大数据的高效调度,赋能业务决策。
- 世峰科技: 依托Agent Kit构建了企业级统一智能体平台,打造了覆盖从研发提效到物流调度等全场景的AI办公助理,并通过Sandbox服务为智能体提供安全稳定的运行环境,支撑Agent DevOps的全流程生命周期管理。
- Agent Kit的Identity体系为每一只”龙虾”签发了独立身份,Runtime提供了安全的运行引擎。当企业员工通过Acro运行复杂任务时,Sandbox还可以让执行进入隔离的安全环境,不接触生产数据、无越权操作。
- Acro支持企业接入已有的Agent、Skill和MCP,这些基于Agent Kit的Registry、Gateway和Knowledge模块来完成:Registry负责统一的注册和发现,Gateway负责鉴权和调用,Knowledge实现企业知识库的接入。
- 通过Agent Kit,Acro还进一步实现了企业级的运维和评测能力:Observability提供全链路追踪,Evaluation让Acro可以持续迭代、让质量可量化评测。
- 随着Agent的增加,安全也是无法绕开的关键问题。这里Policy和Guardrail发挥了充分作用,控制Acro的输入输出、工具调用和敏感行为,确保Acro在企业的红线内运行。
- 计算层面: 火山引擎的云沙箱服务可以实现1分钟内拉起超过12万个实例,为Agent提供高弹性、高安全的执行底座。第三代自研DPU结合自研的VeROCE协议,构建了极速推理网络,RDMA延迟可低至5微秒。ECS也进一步升级,第四代大数据实例的单核算力提升了40%。
- 网络层面: 火山的NAT网关新增了七层代理转发,让Agent访问公网的行为可管理、可控、可审计;Private Link支持跨地域访问,实现服务”一处发布、全网可达”;全域网关和Cloud WAN帮助企业安全连接云上和云下的Agent和应用。
- 存储方面: 火山的EBS沙箱存储方案今天支持GA,能够支持万级云盘并发创建和全链路数据加密;弹性远程盘开始公测,单盘吞吐超过4GB/秒,成本降低60%;我们也发布了全新的TOS Agent Bucket,可支持多个Agent之间、实例之间共享数据存储,能够支持超过亿级别的沙箱规模。
- 数据库层面: 火山引擎的Supabase服务今天支持GA,可支持千万集群规模;Context Search结构能够实现复杂意图搜索准确率高达91.7%;我们也对Mars和Memorin服务完成了升级,让企业构建大规模RAG时更经济、高效、可靠,也让Agent拥有更长期的记忆能力。
- 企业可以在”员工市场”一键雇佣活动策划数字员工,把已有的各种智能体快速接入、统一管理。
- 在上岗之前,这些数字员工要先通过考核。HiAgent系统提供了通用的考核模板,可以评估Agent的回答准确率、幻觉率、首Token延迟、安全合规等各种指标,同时也支持企业上传自己特定的数字员工专属评测集。
- 数字员工上岗之后,HiAgent调度中枢HiAgent Sophia会基于营销目标,自动将活动策划、内容素材生成等任务拆开,交给不同的数智员工协同执行,完成最后的交付。
- 最后,管理者还可以通过数智员工大盘统一查看、全员管控,从完成效率、质量、反馈和成本的角度,持续对这些数智员工进行考核和度量。
- AI-CC机密计算产品: 通过拆分计算、同态加密、TEE计算等方案,充分实现用户和企业数据的端到端加密,让企业可以像在私有化场景一样安全地使用云端先进模型。
- AI助手安全平台: 在智能体安全治理方面,可在运行时提供提示词攻击的实时防护、敏感数据防泄露、高危操作拦截等能力,保障业务连续性。
- 安全运营Agent: 可以通过多智能体协同和自主进化等方式,让安全运营从规则驱动走向智能闭环,准确率能够达到99%以上。
- 华勤: 在研发测试阶段基于豆包大模型搭建了自动化检测体系,覆盖用例分析、测试执行、异常检测等关键环节,全程采用AI-CC机密计算的安全架构,在大幅提升测试效率的同时严格保障数据安全。
- 理想汽车: 联合火山引擎构建了AI助手的纵深防御体系,在权限控制、供应链安全等方面对智能体实施全链路管控。
- 中国石油勘探与开发研究院: 通过部署火山引擎的安全运营智能体,实现了日常告警的AI自动化值守,让安全运营人员真正聚焦在最关键的1%任务上,运营效率提升了10倍。
