📋 总结 本次华创证券举办的“世界模型与物理AI”产业趋势电话会议,由无界AI联合创始人马天先生主讲,核心观点是: 世界模型是继大语言模型之后AI发展的新焦点,其定义宽泛、技术路径多样,旨在让AI在虚拟世界中“预演”行动后果,以更好地指导现实世界的机器人、自动驾驶等任务。当前产业正从数据、技术、应用等


  • 兴起背景:世界模型近期备受关注,主要因为大语言模型发展遇到瓶颈:一是性能跃迁速度放缓,二是高质量人类文本数据已基本耗尽。而视频等多媒体数据尚存巨大开发空间,为世界模型提供了新的“燃料”。
  • 核心定义:业界普遍认同的定义源自黄仁勋的阐释:智能体应在内部世界(脑海)中模拟动作的后果,预想多种可能后再在现实中执行,以提高效率和成功率。
  • 技术路径多样化:
  • 表达内容:可分为高维空间模型(注重生成逼真、细节丰富的世界,如阿里“蚂蚁零式”)和隐空间模型(注重抽象物理规律与逻辑推理,摒弃无关细节,如杨立昆的研究)。
  • 数据来源:训练数据维度多样,包括2D图片、2.5D视频、3D点云/高斯、4D(3D+时间)数据等。数据预处理程度也不同,从原始数据到经过严格标注、结构化处理(如添加特定天气效果)的数据均有使用。
  • 代表玩家:海外有英伟达(Cosmos平台,结合Omniverse物理仿真形成闭环)、Google DeepMind、李飞飞团队等;国内有阿里、极佳世界(清华系,融资活跃,估值已破百亿人民币)等。
  • 核心应用场景:
  • 具身智能与机器人:世界模型可为VLA(视觉-语言-行动)模型提供高质量、多样化的训练数据源,是机器人实现通用能力的关键。
  • 自动驾驶:用于生成闭环仿真环境,模拟各种罕见、危险的驾驶场景,大幅提升训练效率和安全性。
  • 3D内容生成:服务于游戏、影视、VR/AR等内容产业,实现动态、可交互的虚拟世界生成。
  • 与大语言模型的关系:大语言模型通过接入Agent(智能体)调用专业工具(如物理仿真软件、科学计算工具),也能在一定程度上逼近世界模型的效果,实现可编码、可修改的严谨内容生成(如科研模拟),这是一种不同的实践路径。
  • 产业现状与挑战:
  • 数据瓶颈:高质量、经过专业处理(标注或融入物理规律)的多模态数据仍然稀缺,是训练更强大世界模型的主要障碍。
  • 算力需求:世界模型的训练和推理算力需求远高于纯文本模型,将持续推动算力需求增长。
  • 中外对比:在模型能力上,中外差距正在快速缩小,尤其在接入Agent后,体验差距进一步收窄。硬件(算力卡)层面,国产算力在实际使用中占比仍低(约5%),但可用性和服务正在快速改善。
  • 从表达内容看:
  • 高维空间模型:如阿里的“蚂蚁零式”,注重生成细节丰富、写实逼真的动态世界(如鸭子走动时水波的物理效果)。
  • 隐空间模型:如杨立昆教授的研究,不关注表面细节(如颜色),而专注抽象的空间结构、物理规律(如刚体碰撞)和逻辑推理,类似于“地图”之于“现实世界”,或“乐谱”之于“音乐”。
  • 从数据来源看:训练数据可以是2D图片、2.5D视频(2D+时间)、3D数据(如点云、高斯)、4D数据(3D+时间)。数据预处理程度也不同,自动驾驶等领域常用经过严格标注和结构化处理(如人工添加雨雾、噪声)的数据。
  • 代表玩家与融资:海外有英伟达(其Cosmos平台致力于构建闭环反馈的世界模型)、Google DeepMind、李飞飞团队等。国内头部玩家包括阿里和极佳世界。极佳世界(清华系)发展迅速,一个多月融资25亿人民币,估值已破百亿,在World Arena榜单上排名全球第二。
  • 通往AGI/ASI的路径:许多学者认为,从物理世界中学习是实现通用人工智能(AGI)甚至超越人类智能(ASI)的重要途径。
  • 内容产业:用于生成游戏、电影、VR/AR中的实时、动态虚拟世界。
  • 自动驾驶与机器人:这是目前最核心的应用方向。
  • 自动驾驶:世界模型可以生成闭环的仿真环境,模拟各种极端、罕见路况,为自动驾驶系统提供海量、安全的训练数据,弥补真实路采数据(主要是前向视角)的不足。
  • 机器人/具身智能:世界模型作为上游,可以为VLA(视觉-语言-行动)模型提供优质的训练数据源,教会机器人理解和操控物理世界。

作者 AI财经

AI财经提供的财经数据以及其他资料均来自互联网其他第三方,仅作为用户获取信息之目的,并不构成投资建议。
AI财经以及其他第三方不为本页面提供信息的错误、残缺、延迟或因依靠此信息所采取的任何行动负责。市场有风险,投资需谨慎。