世界模型逐渐成为产业共识20260615

📋 总结本次会议围绕“世界模型”这一主题展开，核心观点为：世界模型正逐渐成为产业共识，并有望成为AI发展的下一个主线。主讲人从学术研究、产业进展、技术路线和商业化等多个维度进行了系统阐述。首先，借用李飞飞博士的最新框架，将世界模型能力分为三层： Renderer（渲染器）、Simulator（模

Renderer：负责“画出世界”，解决画质、一致性、可控性和效率问题。短期商业化最成熟，对应纹身视频、纹身图、图像编辑等产品。核心任务仍是提升画质和稳定性，商业化落点在广告、电商图、短视频分镜等内容生产场景。
Simulator：负责“理解状态和预测变化”，这是中期壁垒所在。模型不再只追求生成画面，而是要在内部维护一个可计算的世界状态，预测物体空间、动作和物理关系如何变化。例如杯子在桌上、杯中有水、地面干燥，当人手触碰杯子，Simulator要正确预测杯子倾斜、掉地碎裂、水洒出、地面变湿，并持续维护这些状态，而非前一秒碎了下一秒自动复原。画面连续只是第一步，状态连续决定了模型能否进入长视频、交互环境和真实任务闭环。
Planner：负责“选择行动以达成目标”，解决“下一步应该怎么做”的问题。当Renderer和Simulator成熟后，Planner将模型能力从内容生成扩展到机器人、游戏、世界代理等更广阔的场景。
语言不是世界本身——语言先验容易走捷径，把统计关联当成证据，但缺乏“grounding”，无法替代视觉证据。
更多场景需要状态预测——真正的AGI不应只是生成画面，还要知道场景里有什么、状态如何变化、下一步会发生什么。
产品形态需要维护上下文——模型必须持续维护状态，而非每次重新生成。
数据：高质量多模态和真实交互数据稀缺。
表示：Vision Banana、GT等研究带来了“局部松动”，生成模型开始承担理解任务，统一架构初现曙光。
目标：多模态训练目标多维（理解、生成、编辑、规划），优化任务之间容易相互干扰。
反馈：应用验证少，产品迭代闭环慢。
谷歌Gemini Omni（5月19日发布）：“Create anything from any input”，将任意输入转为可编辑视频，并接入谷歌生态，推动视频生成从独立工具转向生态内持续创作闭环。
字节跳动（SIT DANCE等）：国内领先的多模态生成模型，单月营收已超过10亿元，实现多输入多镜头、编辑控制，并接入剪映、抖音等闭环。
阿里Happy Horse：快速冲入全球第一梯队，补齐阿里多模态拼图。
快手可灵3.0：起步较早，ARR从2025年12月到2026年3月实现翻倍，达5亿美金，支持4K画质，面向专业创作者。

世界模型逐渐成为产业共识20260615

作者AI财经

作者 AI财经