📋 全文总结 本文是清风策略团队分析师肖峰关于“物理AI——人工智能演进的第三波浪潮”主题的汇报。报告全面阐述了物理AI的概念内涵、技术演进、政策支持、核心路线、产业生态及市场前景。核心结论如下: 1. 物理AI是人工智能产业的第三波浪潮,实现从理解世界到改变世界的跃升 第一波(感知式AI):以图像识别
- 第一波(感知式AI):以图像识别、语音处理为核心(如人脸识别、智能音箱),实现了机器对物理世界信息的感知。
- 第二波(生成式AI):以大模型和内容生成为代表(如ChatGPT、DeepSeek、文生图/生视频),实现了知识维度的跃升,但仍被锁在屏幕和虚拟世界中。
- 第三波(物理AI):在知识维度的基础上,加速迈向真实世界,具备在复杂物理环境中操作、移动和应对不确定性能力。典型载体包括人形机器人、自动驾驶平台和工业自动化设备。
- 大脑层(VLA模型):2024年10月Physical Intelligence发布通用VLA模型;2025年3月英伟达在GTC大会上发布G200 TN1,定义世界第一个开源人形机器人基础模型;2025年10月谷歌DeepMind推出推理型VLA大模型(“三思而后行”)。
- 想象引擎层(世界模型):2024年2月OpenAI Sora将视频生成与世界模型挂钩;谷歌DeepMind先后推出Genie 2、Genie 3,实现高分辨率常识一致的可交互世界生成;Meta等推动世界模型路线的可复现证据。
- 训练场层:英伟达2025年1月推出Cosmos平台,为物理AI提供规模化、可控且高性价比的合成数据支持。
- 应用闭环验证:2024年8月Figure 02与合作方演示家用助手场景,初步验证VLA在真实家庭环境中完成多步骤家务任务的可行性,为物流、工业等复杂场景延伸奠定基础。
- 2025年10月“十五五”规划建议明确加强AI与产业结合,抢占AI产业应用制高点。
- 2025年12月《AI+制造专项行动实施意见》直接点名物理AI核心载体,提出推动具身智能产品创新、建设人形机器人中试基地及训练场、打造标杆产线。
- 2025年3月政府工作报告、5月数字中国建设计划等,密集支持智能网联新能源汽车、智能机器人等新一代智能终端。
- VLA模型:在视觉语言模型基础上引入动作Token,将机器人电机指令数字化,实现端到端统一(同时处理视觉、语言、动作)。当前面临的核心瓶颈是泛化能力不足——全新任务场景下成功率降幅可达40%,本质是对狭窄训练分布的过拟合。
- 世界模型:为VLA注入“想象力”,扮演规划器(预测未来状态)、动作模型(保证长时任务时空一致性)、合成器(合成训练数据)、模拟器(提供虚拟沙盒)四个核心角色。技术路线尚未收敛(内部语义预测 vs. 外部像素级仿真),目前正处在从单纯VLA向“VLA+世界模型”双系统闭环迭代的技术窗口期。
- 应用领域覆盖自主机器人、自动驾驶、人形机器人、工业自动化、可穿戴设备、智能医疗、智能农业等全场景。
- 据Future Markets测算,全球物理AI市场将从2026年的约3800亿美元增长至2040年的3.26万亿美元,指数级增长。
- 北美目前占主导地位(英伟达、特斯拉、波士顿动力的重金投入);亚太地区是增长最快的市场之一,依托快速工业化、制造能力扩张、低成本硬件优势,未来十年具有极大的发展潜力。
- 第一波:感知式AI,以图像识别和语音处理为核心。在ChatGPT发布之前,我们已有人工智能——比如支付宝和手机的人脸识别系统,以及智能音箱的语音交互,这些都属于感知式AI。
- 第二波:生成式AI,以大模型和内容生成为代表。从ChatGPT发布以来,陆续有DeepSeek、智谱等国产大模型发布,还有各类AIGC软件(如视频生成、图像生成),无论是聊天机器人形式还是多模态的图片、视频、语音,都属于生成式AI。
- 在大脑层(VLA模型):2024年10月,Physical Intelligence发布了通用VLA模型;随后英伟达在2025年3月的GTC大会上发布了G200 TN1,定义了世界第一个开源人形机器人基础模型;后续谷歌DeepMind连续发力,发布了Genie 3,并在2025年10月推出了主打“三思而后行”(Think Before Acting)的推理型VLA大模型。
- 在想象引擎层(世界模型):2024年2月,OpenAI Sora首次将视频生成与世界模型挂钩;随后谷歌DeepMind在2024年底和2025年中先后推出Genie 2和Genie 3,从单独生成可交互3D场景,发展到高分辨率、常识一致的可交互世界生成。同时Meta推出的相关产品也为世界模型路线提供了可复现的证据。
- 在训练场层面:英伟达在2025年1月推出Cosmos平台,专门为物理AI提供规模化、可控且高性价比的合成数据支持。
- 在本体与商业闭环:2024年8月,Figure 02与合作方演示了家用助手场景,初步验证了VLA在真实家庭环境中完成多步骤家务任务的可行性,为后续向物流、工业等复杂场景延伸奠定了技术基础。
- 世界规划器:预测未来状态,提供前瞻指导;
- 世界动作模型:将环境动态内化到动作生成中,保证长时任务时空一致性;
- 世界合成器:作为数据引擎,合成大量观测动作轨迹,克服真实机器人数据稀缺问题;
- 世界模拟器:提供安全虚拟沙盒,让策略在其中进行想象和强化学习训练。
