📋 【开场主题演讲】 火山引擎总裁 谭待 欢迎来到火山引擎 Force 大会的技术主论坛。昨天我们发布了火山引擎两款跨越生产级质变点的最新模型产品:豆包大模型 2.1 Pro 与 Seedance 最新版本。 今天的技术主论坛, 核心议题是如何利用这些产品实现 AI 在企业中的落地 。


  • 复杂业务问题无法靠单一模型解决。企业需要多模型协同,结合信息检索、工具调用、流程编排等能力,只有具备丰富的模型能力矩阵与配套的 Harness 架构,才能完成完整业务任务。
  • 从模型到可用的 Agent 之间,缺失一层企业级能力。优秀的毕业生进入企业需要系统培训才能胜任岗位,Agent 同理,生产环境中需要配套身份权限、数据连接、评测体系、治理机制,缺少这些能力,Agent 无法真正在企业中落地应用。
  • 企业部署多个 Agent 后,难以形成组织合力。企业需要对 Agent 的使用主体、应用效果、协同模式、经验沉淀等进行深度分析与全局治理。
  • 可靠:支持长程任务、复杂任务、跨系统任务的稳定运行。
  • 可控:Agent 不能无边界自由发挥,其可访问的数据范围、可调用的工具权限、可自动执行的动作、需要人工介入审批的环节,都必须有明确边界。
  • 可衡量:企业 AI 投入需要可量化的价值回报,Agent 效果必须有明确的指标体系进行评估。
  • 连接系统通过 API、Skills 与 Gateway 打通 CRM、BI、案例库、日程管理等企业内部系统。
  • 构建上下文:通过 Knowledge 与 Memory 能力沉淀客户历史、产品用量、过往沟通记录与成功案例。
  • 继承权限:通过 Identity 与 Policy 机制,确保 Agent 只能访问对应岗位有权限的数据、执行被授权的动作。
  • 编排执行:通过 Runtime 与 Sandbox 将拜访前准备、拜访中记录、拜访后总结、商机更新全流程串联为自动化业务流。
  • 评测优化:通过 Evaluation 与 Observability 能力持续迭代优化 Agent 效果。
  • 搭建覆盖全面的模型能力与 Harness 组合架构,解决复杂业务问题;
  • 部署企业级 Agent 底座,推动 Agent 从 Demo 走向生产系统;
  • 建立 Agent 运营体系,让 Agent 成为可运营、可协同、可衡量的数字员工,最终形成组织合力。
  • 趋势一:LLM / VLM走向理解与执行的统一
  • 2D 卡通闯关游戏全流程开发
  • 设计稿一键生成可运行网站
  • 趋势二:图像与视频生成突飞猛击
  • 交互式精准编辑:创作者可直接在画面上点选、圈选、绘制箭头或草图,直观地将创作与编辑需求传达给模型。以装修设计场景为例,输入简单的房间线稿,Seedream 即可生成光影、家具、软装完整到位的装修效果图。
  • 多图层分离能力:可将画面中的不同元素拆分为有序图层,支持逐层编辑、精修与二次调整,满足专业创作的精细化需求。
  • 高密度信息承载:可将复杂数据、流程、图文内容结构化整合在同一张画面中,呈现效果清晰美观。
  • 多语言原生支持:支持多语种文字生成,可一键输出多语言版本,具备更强的国际化适配能力。
  • Seedance 2.5 将单个视频的输出时长提升至 30 秒,为创作者提供更充足的叙事空间、更连贯的镜头表达,可大幅减少后期剪辑的工作量,且 30 秒内可全程保持画面一致性与稳定性。
  • 案例 1:人物口播视频中,人物的口型、表情、语速节奏自然连贯,人物身份与状态全程稳定,AI 观感大幅减弱,真实感与感染力显著提升。
  • 案例2:石榴引进主题的文化科普动画,30 秒内完整呈现文化背景、石榴细节特写等完整叙事内容,由模型一气呵成自动生成,为教育科普、工业培训、影视情节预演等场景打开了全新的创作空间。
  • Seedance 2.5 大幅扩充了可支持的参考素材数量,同时显著提升了参考生成的质量。
  • 案例 1:模型参考视频的运镜方式与节奏,精准还原图片中房屋的搭建过程。其参考能力不仅体现在画面一致性上,更能深度理解并还原参考素材背后的空间关系、结构逻辑。
  • 案例 2:沙发广告场景中,输入产品高清图,搭配场景与人物参考图,模型可精准保留产品细节、呈现细腻质感,打造身临其境的视觉观感。
  • Seedance 2.5 具备专业级视频编辑能力,可精准遵循创作意图,对视频局部或整体进行自然流畅的调整。
  • 案例 1:人物年龄变化效果,模型在保留整体画风与画面布局的前提下,自然流畅地呈现人物年龄与表情的变化,细微表情衔接自然,光影层次与质感表现出色。
  • 案例 2:侠客画风风格转换,模型对美术细节的把控精准,节奏张弛有度,镜头运动与画风变化的节奏高度匹配,呈现出专业级的镜头表达。
  • Seedance 2.5 原生支持十几种语言,指令控制能力更强,多语言、多文化适配能力可助力产品与内容更好地走向全球市场。
  • 趋势三:企业级复杂agent逐渐成熟
  • 成本优化:大幅降低开发者使用成本,以通用编码场景为例,通过 AgentPlan 调用 DeepSeek V4 系列模型,相比后付费模式成本可降低约 80%。
  • 能力整合:Harness 层接入豆包搜索 API、OpenViking、Superbase 数据库等多项能力,帮助开发者快速搭建并落地 Agent。
  • 万物皆为文件的上下文管理:将 Agent 所需的全部上下文信息转储为结构化文件系统,替代传统分散、平面化的上下文管理模式。
  • 目录递归检索:基于结构化文件目录支持递归检索,帮助 Agent 匹配更精准的语义内容、更完整的语境信息。
  • 记忆自我迭代:可自主记忆用户偏好、修正错误认知、持续进化,实现 Agent 越用越好用的效果。
  • 渐进式按需加载:Agent 按照 “摘要 – 概要 – 细节” 的策略渐进式加载信息,仅输入必要内容,既降低模型的 Token 成本,也缓解信息噪音问题。
  • 多租户鉴权隔离:具备企业级多租户鉴权能力,支持团队间数据隔离、业务间数据隔离、用户间逻辑隔离。
  • 用户无需自行部署运维,开箱即可使用官方托管的优质服务;
  • 性能与规模不受本地硬件限制,支持千亿级向量规模与毫秒级检索响应,具备企业级弹性扩容能力;
  • 安全层面提供数据加密、访问审计、网络隔离等特性,满足严格的合规要求;
  • 支持更丰富的文件类型解析,为 Agent 提供更全面的上下文输入。
  • 一键调用方舟平台的丰富模型能力;
  • 对推理 Endpoint 进行用量管理;
  • 任务报错时提供自动诊断能力;
  • 可结合 Claude Code 实现强化训练等复杂 Pipeline。
  • 动作设计参考:先用 Seedance 生成动作表演视频,作为动作设计师的参考素材;再结合内部自研的视频动捕技术,快速将 AI 生成的动作迁移到 3D 模型上,直观查看最终效果。这套流程可以大幅缩短人工动捕的等待周期,同时帮助设计师提前验证动作设计的合理性。
  • 特效序列处理:游戏特效设计需要大量动态序列帧素材。Seedance 具备优秀的风格迁移能力,可以快速完成特效序列帧的风格化处理。例如可直接将水墨风格的序列图转换为插画纹样,大幅减少人工转绘的时间成本。
  • 角色设计验证:核心角色设计仍由设计师完成,但我们会利用 Seedance 的风格迁移能力,验证角色设计在不同美术风格、不同场景下的辨识度与表现力,判断设计的独特性与适配性。
  • 角色展示视频生成:设计师通过指令控制 Seedance 生成角色展示视频,更直观地呈现角色的性格特点与背景设定。
  • 玩法 Demo 生成:用 Seedance 生成角色玩法内容,模拟完整的游戏 Demo 与核心游戏体验,验证设计的吸引力与趣味性。这一环节对游戏前期的设计验证非常重要。
  • 第一类是生产性应用,核心是将需求转化为交付物,例如代码、报告、内容生成等;
  • 第二类是决策辅助型 Agent,复杂度更高,核心是基于企业知识、数据指标、历史上下文,帮助使用者快速看清问题、形成判断,解决数据质量、判断质量相关问题;
  • 第三类是流程执行型 Agent,复杂度最高,核心是解决执行闭环问题,不止输出方案,更能调用企业系统、推进业务流程、修改业务数据,直至完成完整任务。
  • 第一,发布全域网关,作为全新的上云网络服务,可帮助企业就近接入火山引擎全球网络基础设施,同时结合 ClawBot 的意图驱动自动组网能力,让企业更安全可靠地连接云上与云下的 Agent 及企业应用。
  • 第二,升级 Private Link 跨地域访问能力。Private Link 是公司此前已发布的产品,本次新增跨地域访问能力,可大幅降低企业服务发布的管理复杂度,实现服务在一个地域发布、各地域均可安全访问。
  • 第三,发布 NAT 网关 7 层代理转发能力。针对企业高度关注的 Agent 安全问题,该能力可让 Agent 访问公网的行为全程可控、可审计。
  • 知识侧:通过云搜索、向量 MaaS、Context Search,提供多模态向量化、上下文感知的企业知识检索能力。
  • 记忆侧:通过 Gemma0 与 Graphic Gemini,让 Agent 能够持续理解客户任务与组织知识,无需每次交互从零开始。
  • 数据侧:发布 Show PaaS、Data as Connect 以及 DB Copilot,让数据库和业务系统不再只是后台资源,而是成为 Agent 可实时访问、理解和使用的上下文。
  • 通过 Runtime、Gateway 以及记忆、知识模块,让 Agent 稳定运行、持续理解上下文、连接企业工具与系统,让生产型 Agent 真正提升产出效率;
  • 通过身份、策略和 Sandbox,让 Agent 在明确的身份权限、策略范围和隔离的执行环境中完成任务,让业务流程全程受控;
  • 通过评测、可观测性能力,让 Agent 的执行过程与结果都可被持续验证、观测、审计与优化,让决策辅助型 Agent 更可信、更可衡量。
  • 第一是长程任务能力。Agent 不再处理单次请求,而是通过会话持久化、任务状态保存、上下文保留,持续推进多步骤的复杂任务。同时提供快照、休眠和恢复能力,Agent 执行到中途可保存现场,需要时再继续运行,避免长程复杂任务因中断丢失进度。
  • 第二是规模化执行能力。除 12 万并发沙箱能力外,还可满足大规模评测、推理任务、办公自动化和日常任务的执行需求,支持成千上万个 Agent 同时并行运行。
  • 第三是多场景运行能力。支持 Skill 沙箱,让企业的自定义 Skill 可在隔离环境中安全执行,企业可完全自定义沙箱配置;原生支持 OpenClaw 等编程类 Agent,覆盖代码生成、代码修改、测试等研发场景;原生支持类 E2B 风格的接口,开发者迁移和使用沙箱时无额外成本,可开箱即用。
  • 第一是统一采集。业务方无需关注链路格式,采集模块会自动转换为统一标准。一行命令即可接入 Claw Code、OpenClaw、MaaS 等主流运行时,统一采集 Agent 决策、工具调用、MCP 调用、模型请求、推理服务数据,甚至包括 GPU 资源消耗数据。
  • 第二是智能诊断。当出现任务变慢、调用失败、成本异常等问题时,系统可快速判断问题出在应用侧、AI 编排侧、模型侧还是底层推理层;同时支持 Web 和 CLI 模式,可通过自然语言快速查询日志、链路和告警,给出问题成因假设与处置建议。
  • 第三是一键评测。平台可基于评测集自动跑测并生成报告,支持多版本横向对比,无论是更换模型、调整 Prompt 还是优化工具,都可通过同一套评测集验证效果优劣。
  • 第四是数据回流。线上产生的链路数据、会话数据、失败案例、用户评估反馈、工具异常,都会自动沉淀为新的评测样本,进入后续的回归验证,让 Agent 越用越准确、越运行越稳定。本次升级打通了 Agent 的运行数据、诊断能力、评测能力与线上反馈,形成完整的优化闭环。
  • 基于 Agent 和沙箱,可快速拉起 Coderest、OpenCoder、Trae 等不同类型的 Coding Agent,在隔离环境中完成编码;任务执行后由 Agent 完成代码提交,自动释放执行环境。
  • 将 Coderest AP server 作为原生 Agent Loop 执行引擎,开发者仅需修改一行代码,将运行时从 ADK 切换为 Codex,即可获得更强的复杂任务执行规划能力,轻松完成复杂任务、实现测试闭环。
  • 一是即开即用,员工可快速上手使用 AI 能力与工具;
  • 二是深度集成,打通企业的应用、数据、工具与流程,实现统一管控,让 Agent 安全规模化运行,沉淀为企业资产。
  • 只有实现以上两点,Agent 才能真正从个人工具进入企业的工具流与工作流。
  • 第一阶段是缺少可用的 Agent;
  • 第二阶段则是 Agent 数量过多,员工不知道该用哪个,管理者不清楚创建主体、访问权限、数据范围、评测结果与成本情况。
  • 第一,接入企业内外部的知识与数据;
  • 第二,沉淀个人记忆、团队经验、历史会话、任务产物,形成可复用的企业上下文;
  • 第三,所有回复都带引用、可追溯,且继承原有数据权限,确保仅有权限的内容可被检索、可交付给 Agent。
  • 第一个是广播电视时代,电视播放什么内容,用户就观看什么内容;
  • 第二个是互联网电视时代,用户拥有了自主选择内容的权利,不再被动接收;
  • 第三个是 AI 电视时代,
  • 最上层是家庭场景,覆盖衣、食、住、行、娱、教、医、养八大场景;
  • 中间层是终端设备,包括电视、闺蜜机、学习机等各类终端,因此 AIOS 不止是大屏系统,更是可跨端的智能服务系统;
  • 底层核心技术模块包括交互模块、记忆模块、技能模块、智能体模块与模型模块。其中记忆模块与交互模块是最核心的两大模块:
  • 记忆模块的价值在于真正理解家庭成员的行为习惯、家庭设备状态,例如用户睡觉时的空调温度偏好等,只有精准理解用户习惯,才能精准推送服务,改变用户对大屏的固有认知;
  • 交互模块则是应对服务多样化的需求 —— 传统 UI 形式已难以承载丰富的信息呈现,需要新的交互形态展示更丰富的产品形态,同时需要多模态的用户识别与理解能力,从音频、传感器、遥控器输入等多维度升级,这也是本次重大更新的核心模块。
  • 第一是极致性能,可实现秒级启停,支持海量设备分时复用,大幅降低运行成本;
  • 第二是全链路智能,可实现从感知、规划到执行的完整闭环;
  • 第三是经过亿级规模验证,目前创维已实现百万终端的升级落地。
  • 一是 Identity 身份引擎,实现用户数据全链路可追溯、权限动态校验,保障用户数据隐私;
  • 二是 Gateway 智能接入中枢,智能判断调用云端还是终端能力,实现高效的端云协同;
  • 三是 2 万 + 社区技能的无限扩展能力,电视的技能不会在出厂时固化,而是可升级、可进化、可自主学习的系统。
  • 第一是找内容更精准。本质上不是大屏没有内容,而是传统找内容的方式效率太低。现在用户刷抖音时看到短剧、剧集解说,可一键投屏直接在电视上播放;在户外看到某个视频,拍照即可直接投屏搜索播放。找内容的方式从传统的关键词搜索,扩展为一张图、一句台词、一个场景、任意模糊描述,都能精准找到对应内容。
  • 第二是内容推荐形式更丰富。从传统的海报推荐,扩展为标题、海报、看点、完整视频、智能短视频剪辑等多元形式,呈现方式更多元,更能吸引用户。
  • 第三是交互体验更强。如前述直播场景一样,用户可实时互动、实时问询,大幅增强影视观看的沉浸体验。酷开认为,让大屏成为内容理解、内容生成与互动的入口,是大屏价值升级的核心方向。
  • 广度上,Agent 数量急剧扩张,从单一点试点走向全部门部署,HR、营销、客服等几乎所有场景都已出现 Agent 应用;
  • 深度上,Agent 从企业边缘场景走向核心业务系统,说明 Agent 已验证实际价值,企业愿意投入资源并将其纳入核心业务流程。
  • 一是一个账号轻松切换。Trae IDE 面向专业开发者,提升编码效率;Trae Work 覆盖真实办公与研发协同场景,两者共用同一账号自然切换。
  • 二是一个后台统一管理。企业管理员可通过一个控制台统一查看各端数据,全局配置知识库、MCP、安全策略等。
  • 性能层面,支撑海量内容秒级响应,高并发不卡顿,复杂任务不断线;
  • 架构层面,兼容顶尖模型,支持多部署模式,多产品形态无缝融入现有工作体系;
  • 效能层面,效能看板实时呈现使用情况、用量、成本,一目了然;
  • 安全层面,用后即抛、不训练模型、全链路合规,代码资产零外泄。
  • 传输层支持加密通道、专线;
  • 存储层强调最小化存储、本地优先、租户隔离,降低数据暴露风险;
  • 计算服务层通过实时审核、事后阻断、资源管控,将风险降到最低。
  • 第一是随时随地的协同能力,保障业务需求随时可落地。一方面通过多人多 Agent 的灵活组合,可随时拉起 AI 团队与人类团队协同工作;另一方面支持移动端、网页端、PC 端三端协同,随时随地发起指令,无需回到工位即可推进工作,不让灵感被地点与设备耽误。
  • 第二是全行业知识沉淀,解决 Agent 缺少行业语境的痛点。Coze 3.0 接入了通用行业知识与专家能力,目前已与金融、法律、医疗、科研、自媒体等多个领域深度合作,将专业方法沉淀为可复用的专家 Skill。同时企业也可将自身经验转化为数字资产上传至平台
  • 先通过 Harness 工程自动采集 Agent 运行轨迹、指标、日志,再结合人类反馈进行复盘;
  • 如果出现跑偏就自动修正路线、沉淀教训;
  • 如果找到优质方法就沉淀为 Skill 或工作流,供后续复用。
  • 一是定位升级,从接入工具变为管理资产,给每个数字员工发放 “工牌”,沉淀其能力与价值。
  • 二是范式重构,像管理真人一样管理数字员工,走完从招聘、上岗、培训、进化到退岗的全生命周期,覆盖数字员工的完整 “职业生涯”。
  • 三是价值跃迁,从成本、效率、产出、价值四个维度,提供清晰可度量的大盘。
  • 全局概览榜,查看整体表现;
  • 业务产出榜,查看哪些岗位提效最显著;
  • 产物评分榜,查看输出质量;
  • 成本核算榜,让每一分投入都清晰可查。
  • “1” 是统一的数字员工派遣站,将所有数字员工纳入同一体系,统一经营与度量;
  • “N” 是多个开箱即用的智能化应用与 Skill,承接企业通用需求;
  • “X” 是无穷多个持续进化的业务应用,企业可通过 Trae、Coze、HiAgent,不断创建、运行、观测、优化专属的数字员工。
  • 第一类是生产环境,承载银行真实的生产作业、风险管理、营销等核心业务。银行受严格监管,该环境追求高确定性、高可控性,约束非常严谨,安全与合规要求极强。
  • 第二类是办公环境,以文案、案头工作为主,需要处理大量文档,对文本内容的加工能力要求高,也需要具备专业判断能力。该环境的核心要求是人工把关、数据严格限制访问范围。
  • 第三类是开发环境,银行的研发体量很大,拥有数千名开发人员,软件工程是当前 AI 验证效果最显著的领域之一,需求旺盛,但专业性要求更高。
  • 第一类是 Workflow 类,按照固定的编排步骤执行,可控性非常高;
  • 第二类是 Work 类,产品名称多带有 Work 字样,主打创意、写作、文档生成,强调多专家协同完成工作,适配办公环境;
  • 第三类是 Code 类,主打代码生成与研发辅助,适配开发环境;
  • 第四类是 ClawBot 类,特指以 OpenClaw 为代表的类型,核心特点不是工作内容本身,而是给大模型配上 “机械臂”,与环境产生交互甚至接管环境。
  • 一是企业多为无头环境,依赖图像识别的界面操作难以落地;
  • 二是审计难度大;
  • 三是服务稳定性不足,响应延迟波动大。
  • 因此在银行生产端,集约化、配置化、带 Workflow 类型的 Agent,在当前阶段更适配。
  • 一是 Skill 的定位变化:最初引入 Skill 是为了应对上下文过多,做渐进式披露,只展示有用的上下文;但使用中发现,Skill 本质上形成了能力封装,类似于传统软件中的函数与模块。
  • 二是路由逻辑变化:多步执行需要有向无环图(DAG)做路由,传统软件是确定性路由;有了大模型的思考与规划能力后,可实现动态路由。
  • 三是接口形态变化:传统接口是刚性对接;基于大模型的自然语言理解能力,可实现模糊映射,提升系统的柔性,降低对接刚性。
  • 四是故障处理模式变化:传统软件出错后只能报错等待人工修复;Agent 体系中可通过 “编排 – 分析 – 执行” 三元 Agent 结构形成闭环,出错时可进行反思、修正、重试,将所有错误上下文以 Prompt 形式输入,即可完成分析与修正。
  • 五是系统自愈能力提升:行业内已出现 Doctor Agent(诊断智能体),系统出现小问题时可自动排查修复。
  • 此外,传统软件体系也需要进行智能化改造,MCP(模型上下文协议)的价值就是复用既有系统能力,将接口开放给 Agent 调用,同时实现数据资产的接入。
  • 架构思维层面:不能因为 Agent 具备自主能力就放弃架构分层,只是分层逻辑与传统 4A 架构有所区别。新的架构会出现智能控制层(具备思考、规划能力的大脑)、新型能力封装层(MCP、Skill 等)、业务逻辑数字化层。
  • 数据资产层面:智能离不开数据,传统企业更重视事实性数据,即还原业务过程与结果的数据,例如交易流水、账户余额、用户行为等;还有知识图谱等时序数据。
  • 内在维度:驾驭模型本身。大模型存在天然缺陷,当前主流方案是神经符号混合架构,具体表现为设计逻辑护栏、做跨域关联、设计状态机保障多轮会话的状态一致性,弥补模型的认知缺陷。分享人进一步解释:大语言模型都源自 Transformer 架构,核心是注意力机制,它擅长在高维空间中寻找相似内容,但相似内容不一定符合现实,这就是幻觉的来源;同时跨域关联的效果依赖数据规模,实现难度高。因此需要通过逻辑护栏防范幻觉,通过跨域链接提升关联能力,这就是神经符号架构的核心逻辑。
  • 外在维度:驾驭 Agent 本身,采用拟人化管理方式,很多原则与软件工程、项目管理、需求管理高度相似,例如将 Agent 虚拟为员工进行管理。核心是通过严密的管理方式,将大语言模型这种偏概率性的引擎,转化为可在企业中可靠工作的员工代理。

作者 AI财经

AI财经提供的财经数据以及其他资料均来自互联网其他第三方,仅作为用户获取信息之目的,并不构成投资建议。
AI财经以及其他第三方不为本页面提供信息的错误、残缺、延迟或因依靠此信息所采取的任何行动负责。市场有风险,投资需谨慎。