【中金互联网】2026火山引擎原动力大会-技术主论坛

📋 【开场主题演讲】火山引擎总裁谭待欢迎来到火山引擎 Force 大会的技术主论坛。昨天我们发布了火山引擎两款跨越生产级质变点的最新模型产品：豆包大模型 2.1 Pro 与 Seedance 最新版本。今天的技术主论坛，核心议题是如何利用这些产品实现 AI 在企业中的落地。

复杂业务问题无法靠单一模型解决。企业需要多模型协同，结合信息检索、工具调用、流程编排等能力，只有具备丰富的模型能力矩阵与配套的 Harness 架构，才能完成完整业务任务。
从模型到可用的 Agent 之间，缺失一层企业级能力。优秀的毕业生进入企业需要系统培训才能胜任岗位，Agent 同理，生产环境中需要配套身份权限、数据连接、评测体系、治理机制，缺少这些能力，Agent 无法真正在企业中落地应用。
企业部署多个 Agent 后，难以形成组织合力。企业需要对 Agent 的使用主体、应用效果、协同模式、经验沉淀等进行深度分析与全局治理。
可靠：支持长程任务、复杂任务、跨系统任务的稳定运行。
可控：Agent 不能无边界自由发挥，其可访问的数据范围、可调用的工具权限、可自动执行的动作、需要人工介入审批的环节，都必须有明确边界。
可衡量：企业 AI 投入需要可量化的价值回报，Agent 效果必须有明确的指标体系进行评估。
连接系统通过 API、Skills 与 Gateway 打通 CRM、BI、案例库、日程管理等企业内部系统。
构建上下文：通过 Knowledge 与 Memory 能力沉淀客户历史、产品用量、过往沟通记录与成功案例。
继承权限：通过 Identity 与 Policy 机制，确保 Agent 只能访问对应岗位有权限的数据、执行被授权的动作。
编排执行：通过 Runtime 与 Sandbox 将拜访前准备、拜访中记录、拜访后总结、商机更新全流程串联为自动化业务流。
评测优化：通过 Evaluation 与 Observability 能力持续迭代优化 Agent 效果。
搭建覆盖全面的模型能力与 Harness 组合架构，解决复杂业务问题；
部署企业级 Agent 底座，推动 Agent 从 Demo 走向生产系统；
建立 Agent 运营体系，让 Agent 成为可运营、可协同、可衡量的数字员工，最终形成组织合力。
趋势一：LLM / VLM走向理解与执行的统一
2D 卡通闯关游戏全流程开发
设计稿一键生成可运行网站
趋势二：图像与视频生成突飞猛击
交互式精准编辑：创作者可直接在画面上点选、圈选、绘制箭头或草图，直观地将创作与编辑需求传达给模型。以装修设计场景为例，输入简单的房间线稿，Seedream 即可生成光影、家具、软装完整到位的装修效果图。
多图层分离能力：可将画面中的不同元素拆分为有序图层，支持逐层编辑、精修与二次调整，满足专业创作的精细化需求。
高密度信息承载：可将复杂数据、流程、图文内容结构化整合在同一张画面中，呈现效果清晰美观。
多语言原生支持：支持多语种文字生成，可一键输出多语言版本，具备更强的国际化适配能力。
Seedance 2.5 将单个视频的输出时长提升至 30 秒，为创作者提供更充足的叙事空间、更连贯的镜头表达，可大幅减少后期剪辑的工作量，且 30 秒内可全程保持画面一致性与稳定性。
案例 1：人物口播视频中，人物的口型、表情、语速节奏自然连贯，人物身份与状态全程稳定，AI 观感大幅减弱，真实感与感染力显著提升。
案例2：石榴引进主题的文化科普动画，30 秒内完整呈现文化背景、石榴细节特写等完整叙事内容，由模型一气呵成自动生成，为教育科普、工业培训、影视情节预演等场景打开了全新的创作空间。
Seedance 2.5 大幅扩充了可支持的参考素材数量，同时显著提升了参考生成的质量。
案例 1：模型参考视频的运镜方式与节奏，精准还原图片中房屋的搭建过程。其参考能力不仅体现在画面一致性上，更能深度理解并还原参考素材背后的空间关系、结构逻辑。
案例 2：沙发广告场景中，输入产品高清图，搭配场景与人物参考图，模型可精准保留产品细节、呈现细腻质感，打造身临其境的视觉观感。
Seedance 2.5 具备专业级视频编辑能力，可精准遵循创作意图，对视频局部或整体进行自然流畅的调整。
案例 1：人物年龄变化效果，模型在保留整体画风与画面布局的前提下，自然流畅地呈现人物年龄与表情的变化，细微表情衔接自然，光影层次与质感表现出色。
案例 2：侠客画风风格转换，模型对美术细节的把控精准，节奏张弛有度，镜头运动与画风变化的节奏高度匹配，呈现出专业级的镜头表达。
Seedance 2.5 原生支持十几种语言，指令控制能力更强，多语言、多文化适配能力可助力产品与内容更好地走向全球市场。
趋势三：企业级复杂agent逐渐成熟
成本优化：大幅降低开发者使用成本，以通用编码场景为例，通过 AgentPlan 调用 DeepSeek V4 系列模型，相比后付费模式成本可降低约 80%。
能力整合：Harness 层接入豆包搜索 API、OpenViking、Superbase 数据库等多项能力，帮助开发者快速搭建并落地 Agent。
万物皆为文件的上下文管理：将 Agent 所需的全部上下文信息转储为结构化文件系统，替代传统分散、平面化的上下文管理模式。
目录递归检索：基于结构化文件目录支持递归检索，帮助 Agent 匹配更精准的语义内容、更完整的语境信息。
记忆自我迭代：可自主记忆用户偏好、修正错误认知、持续进化，实现 Agent 越用越好用的效果。
渐进式按需加载：Agent 按照 “摘要 – 概要 – 细节” 的策略渐进式加载信息，仅输入必要内容，既降低模型的 Token 成本，也缓解信息噪音问题。
多租户鉴权隔离：具备企业级多租户鉴权能力，支持团队间数据隔离、业务间数据隔离、用户间逻辑隔离。
用户无需自行部署运维，开箱即可使用官方托管的优质服务；
性能与规模不受本地硬件限制，支持千亿级向量规模与毫秒级检索响应，具备企业级弹性扩容能力；
安全层面提供数据加密、访问审计、网络隔离等特性，满足严格的合规要求；
支持更丰富的文件类型解析，为 Agent 提供更全面的上下文输入。
一键调用方舟平台的丰富模型能力；
对推理 Endpoint 进行用量管理；
任务报错时提供自动诊断能力；
可结合 Claude Code 实现强化训练等复杂 Pipeline。
动作设计参考：先用 Seedance 生成动作表演视频，作为动作设计师的参考素材；再结合内部自研的视频动捕技术，快速将 AI 生成的动作迁移到 3D 模型上，直观查看最终效果。这套流程可以大幅缩短人工动捕的等待周期，同时帮助设计师提前验证动作设计的合理性。
特效序列处理：游戏特效设计需要大量动态序列帧素材。Seedance 具备优秀的风格迁移能力，可以快速完成特效序列帧的风格化处理。例如可直接将水墨风格的序列图转换为插画纹样，大幅减少人工转绘的时间成本。
角色设计验证：核心角色设计仍由设计师完成，但我们会利用 Seedance 的风格迁移能力，验证角色设计在不同美术风格、不同场景下的辨识度与表现力，判断设计的独特性与适配性。
角色展示视频生成：设计师通过指令控制 Seedance 生成角色展示视频，更直观地呈现角色的性格特点与背景设定。
玩法 Demo 生成：用 Seedance 生成角色玩法内容，模拟完整的游戏 Demo 与核心游戏体验，验证设计的吸引力与趣味性。这一环节对游戏前期的设计验证非常重要。
第一类是生产性应用，核心是将需求转化为交付物，例如代码、报告、内容生成等；
第二类是决策辅助型 Agent，复杂度更高，核心是基于企业知识、数据指标、历史上下文，帮助使用者快速看清问题、形成判断，解决数据质量、判断质量相关问题；
第三类是流程执行型 Agent，复杂度最高，核心是解决执行闭环问题，不止输出方案，更能调用企业系统、推进业务流程、修改业务数据，直至完成完整任务。
第一，发布全域网关，作为全新的上云网络服务，可帮助企业就近接入火山引擎全球网络基础设施，同时结合 ClawBot 的意图驱动自动组网能力，让企业更安全可靠地连接云上与云下的 Agent 及企业应用。
第二，升级 Private Link 跨地域访问能力。Private Link 是公司此前已发布的产品，本次新增跨地域访问能力，可大幅降低企业服务发布的管理复杂度，实现服务在一个地域发布、各地域均可安全访问。
第三，发布 NAT 网关 7 层代理转发能力。针对企业高度关注的 Agent 安全问题，该能力可让 Agent 访问公网的行为全程可控、可审计。
知识侧：通过云搜索、向量 MaaS、Context Search，提供多模态向量化、上下文感知的企业知识检索能力。
记忆侧：通过 Gemma0 与 Graphic Gemini，让 Agent 能够持续理解客户任务与组织知识，无需每次交互从零开始。
数据侧：发布 Show PaaS、Data as Connect 以及 DB Copilot，让数据库和业务系统不再只是后台资源，而是成为 Agent 可实时访问、理解和使用的上下文。
通过 Runtime、Gateway 以及记忆、知识模块，让 Agent 稳定运行、持续理解上下文、连接企业工具与系统，让生产型 Agent 真正提升产出效率；
通过身份、策略和 Sandbox，让 Agent 在明确的身份权限、策略范围和隔离的执行环境中完成任务，让业务流程全程受控；
通过评测、可观测性能力，让 Agent 的执行过程与结果都可被持续验证、观测、审计与优化，让决策辅助型 Agent 更可信、更可衡量。
第一是长程任务能力。Agent 不再处理单次请求，而是通过会话持久化、任务状态保存、上下文保留，持续推进多步骤的复杂任务。同时提供快照、休眠和恢复能力，Agent 执行到中途可保存现场，需要时再继续运行，避免长程复杂任务因中断丢失进度。
第二是规模化执行能力。除 12 万并发沙箱能力外，还可满足大规模评测、推理任务、办公自动化和日常任务的执行需求，支持成千上万个 Agent 同时并行运行。
第三是多场景运行能力。支持 Skill 沙箱，让企业的自定义 Skill 可在隔离环境中安全执行，企业可完全自定义沙箱配置；原生支持 OpenClaw 等编程类 Agent，覆盖代码生成、代码修改、测试等研发场景；原生支持类 E2B 风格的接口，开发者迁移和使用沙箱时无额外成本，可开箱即用。
第一是统一采集。业务方无需关注链路格式，采集模块会自动转换为统一标准。一行命令即可接入 Claw Code、OpenClaw、MaaS 等主流运行时，统一采集 Agent 决策、工具调用、MCP 调用、模型请求、推理服务数据，甚至包括 GPU 资源消耗数据。
第二是智能诊断。当出现任务变慢、调用失败、成本异常等问题时，系统可快速判断问题出在应用侧、AI 编排侧、模型侧还是底层推理层；同时支持 Web 和 CLI 模式，可通过自然语言快速查询日志、链路和告警，给出问题成因假设与处置建议。
第三是一键评测。平台可基于评测集自动跑测并生成报告，支持多版本横向对比，无论是更换模型、调整 Prompt 还是优化工具，都可通过同一套评测集验证效果优劣。
第四是数据回流。线上产生的链路数据、会话数据、失败案例、用户评估反馈、工具异常，都会自动沉淀为新的评测样本，进入后续的回归验证，让 Agent 越用越准确、越运行越稳定。本次升级打通了 Agent 的运行数据、诊断能力、评测能力与线上反馈，形成完整的优化闭环。
基于 Agent 和沙箱，可快速拉起 Coderest、OpenCoder、Trae 等不同类型的 Coding Agent，在隔离环境中完成编码；任务执行后由 Agent 完成代码提交，自动释放执行环境。
将 Coderest AP server 作为原生 Agent Loop 执行引擎，开发者仅需修改一行代码，将运行时从 ADK 切换为 Codex，即可获得更强的复杂任务执行规划能力，轻松完成复杂任务、实现测试闭环。
一是即开即用，员工可快速上手使用 AI 能力与工具；
二是深度集成，打通企业的应用、数据、工具与流程，实现统一管控，让 Agent 安全规模化运行，沉淀为企业资产。
只有实现以上两点，Agent 才能真正从个人工具进入企业的工具流与工作流。
第一阶段是缺少可用的 Agent；
第二阶段则是 Agent 数量过多，员工不知道该用哪个，管理者不清楚创建主体、访问权限、数据范围、评测结果与成本情况。
第一，接入企业内外部的知识与数据；
第二，沉淀个人记忆、团队经验、历史会话、任务产物，形成可复用的企业上下文；
第三，所有回复都带引用、可追溯，且继承原有数据权限，确保仅有权限的内容可被检索、可交付给 Agent。
第一个是广播电视时代，电视播放什么内容，用户就观看什么内容；
第二个是互联网电视时代，用户拥有了自主选择内容的权利，不再被动接收；
第三个是 AI 电视时代，
最上层是家庭场景，覆盖衣、食、住、行、娱、教、医、养八大场景；
中间层是终端设备，包括电视、闺蜜机、学习机等各类终端，因此 AIOS 不止是大屏系统，更是可跨端的智能服务系统；
底层核心技术模块包括交互模块、记忆模块、技能模块、智能体模块与模型模块。其中记忆模块与交互模块是最核心的两大模块：
记忆模块的价值在于真正理解家庭成员的行为习惯、家庭设备状态，例如用户睡觉时的空调温度偏好等，只有精准理解用户习惯，才能精准推送服务，改变用户对大屏的固有认知；
交互模块则是应对服务多样化的需求 —— 传统 UI 形式已难以承载丰富的信息呈现，需要新的交互形态展示更丰富的产品形态，同时需要多模态的用户识别与理解能力，从音频、传感器、遥控器输入等多维度升级，这也是本次重大更新的核心模块。
第一是极致性能，可实现秒级启停，支持海量设备分时复用，大幅降低运行成本；
第二是全链路智能，可实现从感知、规划到执行的完整闭环；
第三是经过亿级规模验证，目前创维已实现百万终端的升级落地。
一是 Identity 身份引擎，实现用户数据全链路可追溯、权限动态校验，保障用户数据隐私；
二是 Gateway 智能接入中枢，智能判断调用云端还是终端能力，实现高效的端云协同；
三是 2 万 + 社区技能的无限扩展能力，电视的技能不会在出厂时固化，而是可升级、可进化、可自主学习的系统。
第一是找内容更精准。本质上不是大屏没有内容，而是传统找内容的方式效率太低。现在用户刷抖音时看到短剧、剧集解说，可一键投屏直接在电视上播放；在户外看到某个视频，拍照即可直接投屏搜索播放。找内容的方式从传统的关键词搜索，扩展为一张图、一句台词、一个场景、任意模糊描述，都能精准找到对应内容。
第二是内容推荐形式更丰富。从传统的海报推荐，扩展为标题、海报、看点、完整视频、智能短视频剪辑等多元形式，呈现方式更多元，更能吸引用户。
第三是交互体验更强。如前述直播场景一样，用户可实时互动、实时问询，大幅增强影视观看的沉浸体验。酷开认为，让大屏成为内容理解、内容生成与互动的入口，是大屏价值升级的核心方向。
广度上，Agent 数量急剧扩张，从单一点试点走向全部门部署，HR、营销、客服等几乎所有场景都已出现 Agent 应用；
深度上，Agent 从企业边缘场景走向核心业务系统，说明 Agent 已验证实际价值，企业愿意投入资源并将其纳入核心业务流程。
一是一个账号轻松切换。Trae IDE 面向专业开发者，提升编码效率；Trae Work 覆盖真实办公与研发协同场景，两者共用同一账号自然切换。
二是一个后台统一管理。企业管理员可通过一个控制台统一查看各端数据，全局配置知识库、MCP、安全策略等。
性能层面，支撑海量内容秒级响应，高并发不卡顿，复杂任务不断线；
架构层面，兼容顶尖模型，支持多部署模式，多产品形态无缝融入现有工作体系；
效能层面，效能看板实时呈现使用情况、用量、成本，一目了然；
安全层面，用后即抛、不训练模型、全链路合规，代码资产零外泄。
传输层支持加密通道、专线；
存储层强调最小化存储、本地优先、租户隔离，降低数据暴露风险；
计算服务层通过实时审核、事后阻断、资源管控，将风险降到最低。
第一是随时随地的协同能力，保障业务需求随时可落地。一方面通过多人多 Agent 的灵活组合，可随时拉起 AI 团队与人类团队协同工作；另一方面支持移动端、网页端、PC 端三端协同，随时随地发起指令，无需回到工位即可推进工作，不让灵感被地点与设备耽误。
第二是全行业知识沉淀，解决 Agent 缺少行业语境的痛点。Coze 3.0 接入了通用行业知识与专家能力，目前已与金融、法律、医疗、科研、自媒体等多个领域深度合作，将专业方法沉淀为可复用的专家 Skill。同时企业也可将自身经验转化为数字资产上传至平台
先通过 Harness 工程自动采集 Agent 运行轨迹、指标、日志，再结合人类反馈进行复盘；
如果出现跑偏就自动修正路线、沉淀教训；
如果找到优质方法就沉淀为 Skill 或工作流，供后续复用。
一是定位升级，从接入工具变为管理资产，给每个数字员工发放 “工牌”，沉淀其能力与价值。
二是范式重构，像管理真人一样管理数字员工，走完从招聘、上岗、培训、进化到退岗的全生命周期，覆盖数字员工的完整 “职业生涯”。
三是价值跃迁，从成本、效率、产出、价值四个维度，提供清晰可度量的大盘。
全局概览榜，查看整体表现；
业务产出榜，查看哪些岗位提效最显著；
产物评分榜，查看输出质量；
成本核算榜，让每一分投入都清晰可查。
“1” 是统一的数字员工派遣站，将所有数字员工纳入同一体系，统一经营与度量；
“N” 是多个开箱即用的智能化应用与 Skill，承接企业通用需求；
“X” 是无穷多个持续进化的业务应用，企业可通过 Trae、Coze、HiAgent，不断创建、运行、观测、优化专属的数字员工。
第一类是生产环境，承载银行真实的生产作业、风险管理、营销等核心业务。银行受严格监管，该环境追求高确定性、高可控性，约束非常严谨，安全与合规要求极强。
第二类是办公环境，以文案、案头工作为主，需要处理大量文档，对文本内容的加工能力要求高，也需要具备专业判断能力。该环境的核心要求是人工把关、数据严格限制访问范围。
第三类是开发环境，银行的研发体量很大，拥有数千名开发人员，软件工程是当前 AI 验证效果最显著的领域之一，需求旺盛，但专业性要求更高。
第一类是 Workflow 类，按照固定的编排步骤执行，可控性非常高；
第二类是 Work 类，产品名称多带有 Work 字样，主打创意、写作、文档生成，强调多专家协同完成工作，适配办公环境；
第三类是 Code 类，主打代码生成与研发辅助，适配开发环境；
第四类是 ClawBot 类，特指以 OpenClaw 为代表的类型，核心特点不是工作内容本身，而是给大模型配上 “机械臂”，与环境产生交互甚至接管环境。
一是企业多为无头环境，依赖图像识别的界面操作难以落地；
二是审计难度大；
三是服务稳定性不足，响应延迟波动大。
因此在银行生产端，集约化、配置化、带 Workflow 类型的 Agent，在当前阶段更适配。
一是 Skill 的定位变化：最初引入 Skill 是为了应对上下文过多，做渐进式披露，只展示有用的上下文；但使用中发现，Skill 本质上形成了能力封装，类似于传统软件中的函数与模块。
二是路由逻辑变化：多步执行需要有向无环图（DAG）做路由，传统软件是确定性路由；有了大模型的思考与规划能力后，可实现动态路由。
三是接口形态变化：传统接口是刚性对接；基于大模型的自然语言理解能力，可实现模糊映射，提升系统的柔性，降低对接刚性。
四是故障处理模式变化：传统软件出错后只能报错等待人工修复；Agent 体系中可通过 “编排 – 分析 – 执行” 三元 Agent 结构形成闭环，出错时可进行反思、修正、重试，将所有错误上下文以 Prompt 形式输入，即可完成分析与修正。
五是系统自愈能力提升：行业内已出现 Doctor Agent（诊断智能体），系统出现小问题时可自动排查修复。
此外，传统软件体系也需要进行智能化改造，MCP（模型上下文协议）的价值就是复用既有系统能力，将接口开放给 Agent 调用，同时实现数据资产的接入。
架构思维层面：不能因为 Agent 具备自主能力就放弃架构分层，只是分层逻辑与传统 4A 架构有所区别。新的架构会出现智能控制层（具备思考、规划能力的大脑）、新型能力封装层（MCP、Skill 等）、业务逻辑数字化层。
数据资产层面：智能离不开数据，传统企业更重视事实性数据，即还原业务过程与结果的数据，例如交易流水、账户余额、用户行为等；还有知识图谱等时序数据。
内在维度：驾驭模型本身。大模型存在天然缺陷，当前主流方案是神经符号混合架构，具体表现为设计逻辑护栏、做跨域关联、设计状态机保障多轮会话的状态一致性，弥补模型的认知缺陷。分享人进一步解释：大语言模型都源自 Transformer 架构，核心是注意力机制，它擅长在高维空间中寻找相似内容，但相似内容不一定符合现实，这就是幻觉的来源；同时跨域关联的效果依赖数据规模，实现难度高。因此需要通过逻辑护栏防范幻觉，通过跨域链接提升关联能力，这就是神经符号架构的核心逻辑。
外在维度：驾驭 Agent 本身，采用拟人化管理方式，很多原则与软件工程、项目管理、需求管理高度相似，例如将 Agent 虚拟为员工进行管理。核心是通过严密的管理方式，将大语言模型这种偏概率性的引擎，转化为可在企业中可靠工作的员工代理。

【中金互联网】2026火山引擎原动力大会-技术主论坛

作者AI财经

作者 AI财经