物理AI：人工智能演进的第三波浪潮20260624

📋 全文总结本文是清风策略团队分析师肖峰关于“物理AI——人工智能演进的第三波浪潮”主题的汇报。报告全面阐述了物理AI的概念内涵、技术演进、政策支持、核心路线、产业生态及市场前景。核心结论如下： 1. 物理AI是人工智能产业的第三波浪潮，实现从理解世界到改变世界的跃升第一波（感知式AI）：以图像识别

第一波（感知式AI）：以图像识别、语音处理为核心（如人脸识别、智能音箱），实现了机器对物理世界信息的感知。
第二波（生成式AI）：以大模型和内容生成为代表（如ChatGPT、DeepSeek、文生图/生视频），实现了知识维度的跃升，但仍被锁在屏幕和虚拟世界中。
第三波（物理AI）：在知识维度的基础上，加速迈向真实世界，具备在复杂物理环境中操作、移动和应对不确定性能力。典型载体包括人形机器人、自动驾驶平台和工业自动化设备。
大脑层（VLA模型）：2024年10月Physical Intelligence发布通用VLA模型；2025年3月英伟达在GTC大会上发布G200 TN1，定义世界第一个开源人形机器人基础模型；2025年10月谷歌DeepMind推出推理型VLA大模型（“三思而后行”）。
想象引擎层（世界模型）：2024年2月OpenAI Sora将视频生成与世界模型挂钩；谷歌DeepMind先后推出Genie 2、Genie 3，实现高分辨率常识一致的可交互世界生成；Meta等推动世界模型路线的可复现证据。
训练场层：英伟达2025年1月推出Cosmos平台，为物理AI提供规模化、可控且高性价比的合成数据支持。
应用闭环验证：2024年8月Figure 02与合作方演示家用助手场景，初步验证VLA在真实家庭环境中完成多步骤家务任务的可行性，为物流、工业等复杂场景延伸奠定基础。
2025年10月“十五五”规划建议明确加强AI与产业结合，抢占AI产业应用制高点。
2025年12月《AI+制造专项行动实施意见》直接点名物理AI核心载体，提出推动具身智能产品创新、建设人形机器人中试基地及训练场、打造标杆产线。
2025年3月政府工作报告、5月数字中国建设计划等，密集支持智能网联新能源汽车、智能机器人等新一代智能终端。
VLA模型：在视觉语言模型基础上引入动作Token，将机器人电机指令数字化，实现端到端统一（同时处理视觉、语言、动作）。当前面临的核心瓶颈是泛化能力不足——全新任务场景下成功率降幅可达40%，本质是对狭窄训练分布的过拟合。
世界模型：为VLA注入“想象力”，扮演规划器（预测未来状态）、动作模型（保证长时任务时空一致性）、合成器（合成训练数据）、模拟器（提供虚拟沙盒）四个核心角色。技术路线尚未收敛（内部语义预测 vs. 外部像素级仿真），目前正处在从单纯VLA向“VLA+世界模型”双系统闭环迭代的技术窗口期。
应用领域覆盖自主机器人、自动驾驶、人形机器人、工业自动化、可穿戴设备、智能医疗、智能农业等全场景。
据Future Markets测算，全球物理AI市场将从2026年的约3800亿美元增长至2040年的3.26万亿美元，指数级增长。
北美目前占主导地位（英伟达、特斯拉、波士顿动力的重金投入）；亚太地区是增长最快的市场之一，依托快速工业化、制造能力扩张、低成本硬件优势，未来十年具有极大的发展潜力。
第一波：感知式AI，以图像识别和语音处理为核心。在ChatGPT发布之前，我们已有人工智能——比如支付宝和手机的人脸识别系统，以及智能音箱的语音交互，这些都属于感知式AI。
第二波：生成式AI，以大模型和内容生成为代表。从ChatGPT发布以来，陆续有DeepSeek、智谱等国产大模型发布，还有各类AIGC软件（如视频生成、图像生成），无论是聊天机器人形式还是多模态的图片、视频、语音，都属于生成式AI。
在大脑层（VLA模型）：2024年10月，Physical Intelligence发布了通用VLA模型；随后英伟达在2025年3月的GTC大会上发布了G200 TN1，定义了世界第一个开源人形机器人基础模型；后续谷歌DeepMind连续发力，发布了Genie 3，并在2025年10月推出了主打“三思而后行”（Think Before Acting）的推理型VLA大模型。
在想象引擎层（世界模型）：2024年2月，OpenAI Sora首次将视频生成与世界模型挂钩；随后谷歌DeepMind在2024年底和2025年中先后推出Genie 2和Genie 3，从单独生成可交互3D场景，发展到高分辨率、常识一致的可交互世界生成。同时Meta推出的相关产品也为世界模型路线提供了可复现的证据。
在训练场层面：英伟达在2025年1月推出Cosmos平台，专门为物理AI提供规模化、可控且高性价比的合成数据支持。
在本体与商业闭环：2024年8月，Figure 02与合作方演示了家用助手场景，初步验证了VLA在真实家庭环境中完成多步骤家务任务的可行性，为后续向物流、工业等复杂场景延伸奠定了技术基础。
世界规划器：预测未来状态，提供前瞻指导；
世界动作模型：将环境动态内化到动作生成中，保证长时任务时空一致性；
世界合成器：作为数据引擎，合成大量观测动作轨迹，克服真实机器人数据稀缺问题；
世界模拟器：提供安全虚拟沙盒，让策略在其中进行想象和强化学习训练。

物理AI：人工智能演进的第三波浪潮20260624

作者AI财经

作者 AI财经