📋 总结 本次会议围绕“世界模型”这一主题展开,核心观点为: 世界模型正逐渐成为产业共识 ,并有望成为AI发展的下一个主线。主讲人从学术研究、产业进展、技术路线和商业化等多个维度进行了系统阐述。 首先,借用李飞飞博士的最新框架,将世界模型能力分为三层: Renderer(渲染器)、Simulator(模


  • Renderer:负责“画出世界”,解决画质、一致性、可控性和效率问题。短期商业化最成熟,对应纹身视频、纹身图、图像编辑等产品。核心任务仍是提升画质和稳定性,商业化落点在广告、电商图、短视频分镜等内容生产场景。
  • Simulator:负责“理解状态和预测变化”,这是中期壁垒所在。模型不再只追求生成画面,而是要在内部维护一个可计算的世界状态,预测物体空间、动作和物理关系如何变化。例如杯子在桌上、杯中有水、地面干燥,当人手触碰杯子,Simulator要正确预测杯子倾斜、掉地碎裂、水洒出、地面变湿,并持续维护这些状态,而非前一秒碎了下一秒自动复原。画面连续只是第一步,状态连续决定了模型能否进入长视频、交互环境和真实任务闭环。
  • Planner:负责“选择行动以达成目标”,解决“下一步应该怎么做”的问题。当Renderer和Simulator成熟后,Planner将模型能力从内容生成扩展到机器人、游戏、世界代理等更广阔的场景。
  • 语言不是世界本身——语言先验容易走捷径,把统计关联当成证据,但缺乏“grounding”,无法替代视觉证据。
  • 更多场景需要状态预测——真正的AGI不应只是生成画面,还要知道场景里有什么、状态如何变化、下一步会发生什么。
  • 产品形态需要维护上下文——模型必须持续维护状态,而非每次重新生成。
  • 数据:高质量多模态和真实交互数据稀缺。
  • 表示:Vision Banana、GT等研究带来了“局部松动”,生成模型开始承担理解任务,统一架构初现曙光
  • 目标:多模态训练目标多维(理解、生成、编辑、规划),优化任务之间容易相互干扰。
  • 反馈:应用验证少,产品迭代闭环慢。
  • 谷歌Gemini Omni(5月19日发布):“Create anything from any input”,将任意输入转为可编辑视频,并接入谷歌生态,推动视频生成从独立工具转向生态内持续创作闭环。
  • 字节跳动(SIT DANCE等):国内领先的多模态生成模型,单月营收已超过10亿元,实现多输入多镜头、编辑控制,并接入剪映、抖音等闭环。
  • 阿里Happy Horse:快速冲入全球第一梯队,补齐阿里多模态拼图。
  • 快手可灵3.0:起步较早,ARR从2025年12月到2026年3月实现翻倍,达5亿美金,支持4K画质,面向专业创作者。

作者 AI财经

AI财经提供的财经数据以及其他资料均来自互联网其他第三方,仅作为用户获取信息之目的,并不构成投资建议。
AI财经以及其他第三方不为本页面提供信息的错误、残缺、延迟或因依靠此信息所采取的任何行动负责。市场有风险,投资需谨慎。