📋 总结 本次会议对世界模型的最新产业进展进行了分享,并重点测评了阿里与腾讯新发布的世界模型产品。核心观点是: 世界模型是让AI理解物理规律、在虚拟世界中交互与推理的关键方向,当前技术仍处早期,但海内外大厂(谷歌、Meta、阿里、腾讯等)正积极布局,其发展将对内容产业、自动驾驶及机器人等领域产生深远影响
- 世界模型定义与兴起背景:世界模型旨在让AI不仅会“说话”,更能“看懂”并“执行”物理世界的交互。其兴起主要因为大语言模型发展遇到瓶颈:高质量文本数据趋于耗尽,性能提升边际递减。而视频等多模态数据尚存巨大开发空间,为世界模型提供了新“燃料”。
- 技术路径与主要玩家:技术路径多样,主要包括:
- 视频生成:如Sora、Veo等,可视为世界模型一部分。
- 3D空间生成:生成可交互的立体虚拟世界,是当前焦点。
- 抽象物理规律预测:如杨立昆的JEPA架构,在抽象空间预测运动规律。
- 产品实测对比(阿里Happy Oyster vs. 腾讯混元3D):
- 阿里Happy Oyster:功能更全面,提供“漫游”和“导演”两种模式。“漫游”模式可生成可自由探索的3D世界;“导演”模式支持实时输入文字改变视频剧情走向,互动性强,完成度较高。
- 腾讯混元3D:侧重于3D场景生成与世界重建(从多角度图片/视频生成3D结构),也提供“实时世界”功能(根据移动实时计算下一帧画面)。但实测中生成速度较慢、交互流畅度与功能丰富性略逊于阿里。
- 核心应用前景:世界模型不仅将变革游戏、影视等内容产业(实现交互式、可编辑的动态内容),更重要的影响在于为自动驾驶和机器人产业提供低成本、高效的虚拟训练数据与环境,解决真实世界数据采集成本高、危险场景难以复现的难题。
- 发展阶段与挑战:技术仍处早期,需融合更多感官模态数据(如触觉、嗅觉)。当前关键在于构建物理正确的3D世界,并训练智能体在其中自主交互。高质量多模态数据的处理与标注仍是挑战。
- 大语言模型遇到瓶颈:性能提升进入边际效应递减阶段,互联网高质量文本数据已基本耗尽。
- 多模态技术成熟:视频生成等能力取得突破,海量的视觉、视频数据为训练世界模型提供了新的“燃料”。
- 视频生成模型:如Sora、Veo,可生成动态序列。
- 3D空间生成:生成可交互的立体虚拟世界,这是当前的重点方向。
- 海外:谷歌(其Genie 3模型及CIMA智能体训练框架是引领者)、Meta、以及李飞飞教授(创办World Lab,估值50亿美元)、杨立昆教授等学术界力量。
- 国内:阿里、腾讯近期发布了相关产品。
- 两大功能:
- 漫游模式:基于文字或图片生成一个可自由探索的3D世界。用户能以第一人称或第三人称视角,使用WASD键移动,用方向键旋转视角,在生成的场景中漫游。
- 导演模式:生成一个初始视频,用户可以通过实时输入文字指令,直接改变视频的剧情走向。例如,在播放过程中输入“积木变成玩具恐龙”,视频内容会在几秒内随之改变。
- 体验:生成速度较快,交互流畅,功能较为完整。
- 主要功能:
- 3D场景生成:基于单张图片生成3D场景,可在其中移动。
- 世界重建:上传多角度照片或视频,重建物体的3D结构。
- 实时世界:根据用户在虚拟世界中的移动,实时计算并渲染下一帧画面(非预生成完整世界)。
- 体验:生成速度相对较慢,交互体验(如视角旋转)不如阿里便捷,且缺少类似阿里“导演模式”的实时剧情编辑功能。其“实时世界”功能目前仅支持生成1分钟长度的体验。
- 内容产业:将催生交互式、可实时编辑的影视、游戏新形态。
- 自动驾驶与机器人:这是最具潜力的应用方向。能为自动驾驶系统和机器人提供近乎无限的、低成本的虚拟训练数据与高风险测试环境,极大加速其研发和落地进程。
