【招商商社互联网】字节force大会纪要20260623（持续更新）

📋 招商商社互联网团队：丁浙川/李秀敏/潘威全/李星馨、胡馨媛团队覆盖范围：互联网电商、本地生活、免税酒店、餐饮旅游、商贸零售等一、豆包2.1发布火山引擎总裁谭待尊敬的各位来宾、朋友们，大家上午好！欢迎参加2026火山引擎Force原动力大会。去年，正是在这个舞台上，我们还在探讨2025年

Terminal Bench（业界公认最贴近真实研发的终端编程评测，模型要在命令行里端到端完成整个工程任务）：豆包2.1 Pro与Opus 4.7基本持平，成绩位列全球第一梯队。
SciCode（科学计算代码评测，覆盖五大学科科研问题，是AI for Science方向最有含金量的榜单之一）：豆包2.1 Pro拿到59.8分，超过Opus 4.7和GPT-5.5。
AI2 Repo（仓库级代码生成评测，模型要从一份需求文档出发，从0开始生成一整个可运行的仓库代码，是AI自主软件开发最前沿的命题）：豆包2.1 Pro拿到47分，明显超过GPT-5.5和Gemini 3.1。
GDPval（OpenAI发布的真实世界经济价值任务评测集，覆盖9大行业、44种职业）：豆包2.1模型在该评测集上国内第一。
MCP Atlas（评测AI Agent使用真实MCP Server和工具的能力，包含36个真实MCP Server、220个工具和1000多个任务）：豆包2.1 Pro得分全面超过Opus 4.7和GPT-5.5。
豆包2.1展现了非常强的跨端理解和长程操作能力，在OSWorld和MobileWorld多个榜单上获得佳绩。豆包2.1 Pro在桌面端操作能力上接近Opus 4.7，在移动端则大幅领先，获得全球SOTA。
图像方面：豆包2.1具备更强的空间理解和跨图像分析能力，在MMMU-Pro等多个榜单上获得高分，超过GPT-5.5、Opus 4.7和Gemini 3.1 Pro，同样是全球SOTA。
视频方面：豆包2.1在动态过程和时序理解能力上显著增强，在Tomato和LVBench两个业界权威榜单上，豆包2.1 Pro均大幅领先Gemini 3.1 Pro，全球稳居领先位置。
720P原生：当画面放大时显而易见，产品的刺绣线迹、旗袍面料的肌理不够清楚。
720P超分到4K：画面整体虽然通过技术锐化了，但细密的绣线和肌理被平滑掉了，所以材料的质感反而变得更差。这也是超分经常被人诟病的一个原因——当细节密度不够时，分辨率的强化反而会进一步放大画面的缺陷。
原生4K：刺绣的针脚、丝线的走向、面料的纹理都得到了非常完整、清晰的展现，产品也显得更有吸引力。这就是原生4K的优势——可以在生成阶段就保留更高密度的有效画面信息，从而满足后续进一步加工处理和展示的一系列需求。
麦当劳：在员工培训场景里，豆包语音模型可以让AI的声音具备情绪感知能力和情感表达能力，提高员工培训效率。
OPPO、vivo、荣耀：利用豆包语音模型打造低延迟、音色自然的手机助手，使语音交互体验更智能、更有温度。
别克汽车：基于豆包语音模型打造的智能语音车控已覆盖全系车型，能够准确理解用户意图，结合上下文连续响应，用自然生动的声音体验提升车辆精确控制的乐趣。
百应：在智能外呼应用中，豆包模型做到了极高的音色还原度，让每一通电话都保持稳定、自然、专业的声音表现。
Plaud：豆包语音模型帮助Plaud的产品更准确地处理语音内容，让录音和智能摘要从简单的结构化记录走向了深入的场景理解。
Identity：负责统一用户和Agent的身份体系。
Runtime：负责Agent的运行环境和多Agent编排。
Sandbox：让Agent可以在隔离环境中安全执行任务。
ADK：提供Agent开发框架和工程化SDK。
Observability和Evaluation：负责Agent的效果评测和持续质量监控。
Memory和Knowledge：帮助企业把知识、记忆和业务上下文接入到Agent系统中。
懂车帝：通过Agent Kit一站式开发能力来构建自身的Agent平台，通过Policy加Identity体系打通了内网权限，并借助Runtime和Sandbox快速迭代，已上线基于Agent的智能问数和数据审批系统。
上汽智己：以Agent Kit为智能体底座，搭建了企业级智能问数平台，统一解决数据权限和治理问题，实现全域大数据的高效调度，赋能业务决策。
世峰科技：依托Agent Kit构建了企业级统一智能体平台，打造了覆盖从研发提效到物流调度等全场景的AI办公助理，并通过Sandbox服务为智能体提供安全稳定的运行环境，支撑Agent DevOps的全流程生命周期管理。
Agent Kit的Identity体系为每一只”龙虾”签发了独立身份，Runtime提供了安全的运行引擎。当企业员工通过Acro运行复杂任务时，Sandbox还可以让执行进入隔离的安全环境，不接触生产数据、无越权操作。
Acro支持企业接入已有的Agent、Skill和MCP，这些基于Agent Kit的Registry、Gateway和Knowledge模块来完成：Registry负责统一的注册和发现，Gateway负责鉴权和调用，Knowledge实现企业知识库的接入。
通过Agent Kit，Acro还进一步实现了企业级的运维和评测能力：Observability提供全链路追踪，Evaluation让Acro可以持续迭代、让质量可量化评测。
随着Agent的增加，安全也是无法绕开的关键问题。这里Policy和Guardrail发挥了充分作用，控制Acro的输入输出、工具调用和敏感行为，确保Acro在企业的红线内运行。
计算层面：火山引擎的云沙箱服务可以实现1分钟内拉起超过12万个实例，为Agent提供高弹性、高安全的执行底座。第三代自研DPU结合自研的VeROCE协议，构建了极速推理网络，RDMA延迟可低至5微秒。ECS也进一步升级，第四代大数据实例的单核算力提升了40%。
网络层面：火山的NAT网关新增了七层代理转发，让Agent访问公网的行为可管理、可控、可审计；Private Link支持跨地域访问，实现服务”一处发布、全网可达”；全域网关和Cloud WAN帮助企业安全连接云上和云下的Agent和应用。
存储方面：火山的EBS沙箱存储方案今天支持GA，能够支持万级云盘并发创建和全链路数据加密；弹性远程盘开始公测，单盘吞吐超过4GB/秒，成本降低60%；我们也发布了全新的TOS Agent Bucket，可支持多个Agent之间、实例之间共享数据存储，能够支持超过亿级别的沙箱规模。
数据库层面：火山引擎的Supabase服务今天支持GA，可支持千万集群规模；Context Search结构能够实现复杂意图搜索准确率高达91.7%；我们也对Mars和Memorin服务完成了升级，让企业构建大规模RAG时更经济、高效、可靠，也让Agent拥有更长期的记忆能力。
企业可以在”员工市场”一键雇佣活动策划数字员工，把已有的各种智能体快速接入、统一管理。
在上岗之前，这些数字员工要先通过考核。HiAgent系统提供了通用的考核模板，可以评估Agent的回答准确率、幻觉率、首Token延迟、安全合规等各种指标，同时也支持企业上传自己特定的数字员工专属评测集。
数字员工上岗之后，HiAgent调度中枢HiAgent Sophia会基于营销目标，自动将活动策划、内容素材生成等任务拆开，交给不同的数智员工协同执行，完成最后的交付。
最后，管理者还可以通过数智员工大盘统一查看、全员管控，从完成效率、质量、反馈和成本的角度，持续对这些数智员工进行考核和度量。
AI-CC机密计算产品：通过拆分计算、同态加密、TEE计算等方案，充分实现用户和企业数据的端到端加密，让企业可以像在私有化场景一样安全地使用云端先进模型。
AI助手安全平台：在智能体安全治理方面，可在运行时提供提示词攻击的实时防护、敏感数据防泄露、高危操作拦截等能力，保障业务连续性。
安全运营Agent：可以通过多智能体协同和自主进化等方式，让安全运营从规则驱动走向智能闭环，准确率能够达到99%以上。
华勤：在研发测试阶段基于豆包大模型搭建了自动化检测体系，覆盖用例分析、测试执行、异常检测等关键环节，全程采用AI-CC机密计算的安全架构，在大幅提升测试效率的同时严格保障数据安全。
理想汽车：联合火山引擎构建了AI助手的纵深防御体系，在权限控制、供应链安全等方面对智能体实施全链路管控。
中国石油勘探与开发研究院：通过部署火山引擎的安全运营智能体，实现了日常告警的AI自动化值守，让安全运营人员真正聚焦在最关键的1%任务上，运营效率提升了10倍。

【招商商社互联网】字节force大会纪要20260623（持续更新）

作者AI财经

作者 AI财经