文章

冲破虚拟桎梏!物理AI来了,这次要改写现实世界

2025-10-28e-works 吴婕

40阅
从分析式AI到生成式AI再到代理式AI,AI的技术发展从未停歇。 那么,AI的下一个浪潮是什么?业界领袖已有共识。AI必将从虚拟世界迈入物理世界,即物理AI(Physical AI)。今天就用最通俗的话,带大家吃透这个“能动手、懂物理”的AI下一站!
       从理解图像、文字与声音的分析式AI(Analytical AI),到创造文本、图像与声音的生成式AI(Generative AI),再到具备感知、交互、记忆、工具调用能力的代理式AI(Agentic AI),AI的技术发展从未停歇。那么,AI的下一个浪潮是什么?

       业界领袖已有共识。英伟达CEO黄仁勋不久前曾直言,我们已迈入能运行、会推理、可计划、善行动的物理AI时代;马斯克也强调AI必须遵循物理定律;李飞飞致力于让AI理解3D物理空间;Meta则发布模型探索重力等物理概念。这一切指向同一趋势,AI必将从虚拟世界迈入物理世界,即物理AI(Physical AI)。
图1 英伟达CEO黄仁勋在CES 2025上发表开幕主题演讲(来源:NVIDIA官网)
图1 英伟达CEO黄仁勋在CES 2025上发表开幕主题演讲(来源:NVIDIA官网)

      今天就用最通俗的话,带大家吃透这个“能动手、懂物理”的AI下一站!

一、先搞懂:物理AI到底是个啥?

      简单说,物理AI就是“懂物理的AI智能系统”——它通常装在机器人、自动驾驶车这些“实体载体”里,能像人一样“感知环境、理解物理规律、动手解决问题”,形成一个完整的“感知→理解→执行”闭环。

      比如:机器人能摸出物体滑不滑(感知),知道握太松会掉、太紧会碎(理解物理规律),最后调整力度把东西搬稳(执行),这就是物理AI在干活。
图2 物理AI的工作原理
图2 物理AI的工作原理
(图片来源:Physical artificial intelligence (PAI):the next-generation artificial intelligence)

      物理AI vs 数字AI:一个“行动派”,一个“键盘侠”

      我们平时用的ChatGPT、DeepSeek都属于“数字AI”,和物理AI的区别,一句话就能分清:

      数字AI在屏幕里干活:处理文字、图片、数据,输出的还是数字内容;

      物理AI在现实里动手:接触真实物体、环境,改变的是物理世界的状态。

      再看几个关键差异,更直观:
表1 数字AI与物理AI的区别
表1 数字AI与物理AI的区别
 
      数字AI的“核心缺陷”,让物理AI成了刚需:

      会“说胡话”:当“喂给”大模型的训练数据包含虚假信息时,它就会产生“幻觉”,生成错误信息。假设喂给它的语料库中,“地球是平的”这样的表述远远多于“地球是圆的”,且在训练过程中,“地球是平的”没有被清晰标记为“错误”,那么AI最终很可能会输出“地球是平的”这一结论。

      跟不上现实:缺乏对物理世界的实时感知能力,不知道“路面湿滑要减速”“红灯要停”,在自动驾驶、机器人控制等现实场景中难以落地;

      不懂“因果”:只靠文本学知识,没法模拟物理世界的因果关系。比如问它“微波炉加热鸡蛋”,它可能让你“直接放进去”,却不知道蛋壳会炸(不懂物理规律)。

      也正因为这些缺陷,才需要物理AI来补位——它的“实时感知+物理建模”,刚好能解决数字AI的“现实盲区”。

二、物理AI的“三板斧”:靠什么撑起“行动力”?

      想让AI在现实里“靠谱干活”,离不开3大核心技术:

      1.感知与传感技术:物理AI的“五感”

      感知与传感技术是物理AI的“感官系统”,能实时捕捉物理世界的细节。它通过高精度视觉传感器、触觉传感器、多维力/力矩传感器等多模态感知设备,构建对环境的全面感知,为物理AI提供准确的环境状态输入和执行反馈。

      例如,事件相机(Event Camera)这类新型视觉传感器能够以微秒级延迟捕捉场景变化,不同于传统相机的定时捕捉,事件相机模仿生物的视觉系统,重点捕捉像素点亮度变化的“事件”,非常适合高速运动的物理AI系统。

      触觉传感技术的进步使得机器能够获得类似人类的精细触觉反馈,这对于需要灵巧操作的场景至关重要。例如,麻省理工学院开发的“GelSight”技术能够提供高分辨率的触觉图像,使机器人能够感知微小表面特征和精确的力分布。

      多维力/力矩传感器是机器“力觉”的来源,同时也是机器感知自身状态的基础。例如,六维力传感器正从实验室走向机器人产业的核心舞台,安装在手腕末端能直接感知握力是否过大、物体是否滑落、是否触碰障碍;安装在脚底能实时采集地面对脚底的力/力矩反馈,帮助机器人在崎岖、湿滑等复杂地形上调整步态,维持身体平衡;安装于关节连接处,这些传感器负责采集来自多方向的力和力矩数据,支持碰撞检测、柔性控制和负载判断等核心功能。
Figure03的视频
Figure03的演示视频
(https://mp.weixin.qq.com/s/9xDkdR6RuHfgk2qb0K-lrw)

      2.AI算法+物理规律:物理AI的“大脑”

      光有感知还不够,得让AI“懂物理”——把重力、摩擦、动量守恒这些规律,当成算法的“约束条件”。

      世界模型(World Models)是AI算法与物理规律深度融合的典型代表,它不仅能精准识别视频中的物体形态与运动轨迹,更能基于物理规律预测“物体下一步会如何运动”。

      比如判断滚动的球体因摩擦力会逐渐减速,或是倾斜的物体受重力影响会向哪个方向坠落;在此基础上,它还能为物体规划出符合物理逻辑的行动序列(例如让机器人根据地面摩擦力调整步态以避免滑倒,或让自动驾驶车辆根据前车运动趋势规划安全超车路径),真正实现了“理解物理世界、预测物理变化、适配物理规则行动”的闭环,为机器人交互、自动驾驶等需要与真实物理环境深度联动的场景提供了稳定且可靠的AI支撑。

      3.物理仿真引擎:物理AI的“虚拟训练场”

      总不能让AI直接在现实里试错吧?比如自动驾驶,撞一次车成本太高;机器人搬玻璃,碎一次就亏了。物理仿真引擎就是解决这个问题——搭建一个“和现实一模一样的虚拟环境”,让AI在里面反复练。

      例如,NVIDIA的Isaac SIM平台是当前较为领先的产品,它基于PhysX引擎,支持多物理场耦合(如刚体动力学、流体仿真),并通过WARP加速库实现GPU并行计算。WARP采用哈希网格查询和粒子移动器(如跳蛙模型)实现高效物理仿真,其Python接口支持动态脚本控制,使开发者能够灵活定义和描述物理问题。为了最大程度地减少在模拟世界中观察到的结果与在真实世界中看到的结果之间的差距,在使用RTX模拟激光雷达时,光线追踪可以在各种照明条件下,或者在对反射材料做出反应时提供更加准确的传感器数据,Isaac Sim可以实时渲染来自传感器的符合物理学的数据,实现高保真物理模拟。

三、物理AI已落地!这三个领域先变天

      别觉得物理AI还在实验室,其实它已经悄悄改变了机器人、自动驾驶、智能工厂这些领域:

      1.机器人:从“僵硬”变“灵活”

      物理AI能够显著提升机器人在复杂环境中的运动控制、操作精度与自主决策能力。借助物理仿真与强化学习相结合,机器人可在虚拟环境中高效学习复杂任务,大幅降低真实训练成本与周期。

      例如,波士顿动力Atlas®人形机器人能够自主完成跳跃、旋转、搬运物体等动态任务,其背后依托的大型行为模型(LBMs)与全身动力学优化算法,均深度融合了刚体力学与关键物理约束(如驱动关节的运动限制)。该系统不仅包含机器人每个关节的运动数据、每个连杆的动量特性,还加入了机器人对所搬运或投掷物体施加的力的分析,通过搭建融合仿真、硬件测试和生产级机器学习平台的环境,确保高效实验与科学评估,稳步提升机器人在真实世界中的表现,充分体现了物理AI在复杂动作生成与稳定控制领域的核心支撑作用。
图3 波士顿动力Atlas®人形机器人(来源:波士顿动力)
图3 波士顿动力Atlas®人形机器人(来源:波士顿动力)

      2.自动驾驶:从“辅助”到“自主”

      在自动驾驶中,物理AI的应用主要体现在环境感知、行为预测、规划与控制等环节,通过物理引擎模拟复杂驾驶场景,训练AI模型应对极端天气和突发路况,显著提升自动驾驶系统的安全性和可靠性。

      例如,小鹏汽车以“小鹏世界基座模型”为中枢,该720亿参数的物理世界大模型并非依赖抽象规则推理,而是基于第一性原理构建对物理世界的深度认知,其视觉理解、链式推理与动作生成等能力始终锚定物理规律。例如,在雨天窄路遇逆行电动自行车的场景中,模型会先基于路面摩擦系数推算本车制动距离,再结合电动自行车的运动速度、车身尺寸等物理参数预判碰撞风险,最终生成“缓踩刹车+小幅绕行”的控制信号——整个决策过程融入了车辆动力学、物体运动学等核心物理逻辑,而非单纯模仿人类驾驶行为。这种以物理规律为底层支撑的推理能力,使其能处理未见过的“长尾场景”(低概率、高多样性、强复杂性的场景,如两棵树之间的非常规车道),推动自动驾驶从L2辅助级向L4自主级跨越。
图4 小鹏世界基座模型(来源:小鹏官网)
图4 小鹏世界基座模型(来源:小鹏官网)

      3.智能工厂:工厂里的“精准操作工”

      智能工厂是物理AI的重要应用场景,尤其在数字孪生、产线协同与自适应控制方面发挥关键作用。通过构建与物理实体实时同步的虚拟系统,实现对设备、流程与资源的动态优化。

      作为全球最大的电子制造商,富士康依托NVIDIA Omniverse平台与通用场景描述(OpenUSD)标准,打造FODT(Fii Omniverse Digital Twin)数字孪生平台,将物理AI技术(涵盖物理规律仿真、多物理场耦合模拟、AI驱动优化等)深度融入智能工厂设计、建设、运营等全生命周期。例如,在螺丝拧紧场景中,物理AI赋能的机器人通过强化学习,精准掌握“力与形变”对应下的最优运动轨迹与扭矩施加方式;在电缆插入场景里,机器人依靠“力的相互作用”规律,借助实时力反馈感知插入阻力,动态调整抓取力度与运动轨迹以适配部件差异,攻克了此前因物理交互复杂难以自动化的工序难题。数字孪生技术支持生产线在虚拟环境完成调试,既大幅缩短部署时间,更通过训练虚拟化与物理AI的整合,助力方案向多工厂快速复制,形成可规模化推广的智能工厂落地范式。
图5 物理AI如何重塑工厂和仓库运营
图5 物理AI如何重塑工厂和仓库运营
(图片来源:《Physical AI: Powering the New Age of Industrial Operations》白皮书)

四、这些企业,正在押注物理AI未来

      从机器人的灵活腾挪到自动驾驶的精准决策,物理AI的应用场景已逐渐清晰。但这一切的背后,离不开技术探索者的前瞻布局与实践突破。在全球物理AI的赛道上,一批企业正通过全栈技术创新、场景深度融合,勾勒出这一领域的产业化蓝图。

      1.英伟达:全栈技术创新,加速物理AI价值释放

      作为全球物理AI领域的领军者,英伟达已构建起完整的技术生态。今年以来,英伟达CEO黄仁勋先后在CES展会、GTC大会、北京第三届链博会上发表演讲,阐述英伟达物理AI布局,并推出一系列新产品和技术。

      其中,NVIDIA推出的Cosmos世界基础模型平台是物理AI的重要突破,该平台集成生成式模型、高级标记器(tokenizer)及视频处理管线,能够帮助AI理解物理世界,为相关的3D处理等提供重要支持,使其能模拟各类未来场景并筛选最优行动方案,为自动驾驶汽车、机器人等物理AI系统提供底层支撑。
图6 NVIDIA Cosmos世界基础模型推进物理AI
图6 NVIDIA Cosmos世界基础模型推进物理AI(图片来源:NVIDIA官网)

      此外,英伟达将Cosmos与Omniverse融合,搭建物理AI时代的基座。英伟达以少量人工示范数据为“种子”,由Omniverse搭建高保真3D虚拟环境,Cosmos注入物理AI能力执行闭环端到端仿真,两者协同驱动虚拟动态模拟,生成海量的训练数据,其核心价值在于让AI在虚拟世界完成低成本、高效率的海量训练,进而提升现实应用的安全性与适应性,定义了未来物理AI领域的全新生产方式。
图7 Omniverse平台与Cosmos平台协作应用
图7 Omniverse平台与Cosmos平台协作应用(图片来源:NVIDIA官网)

      硬件方面,英伟达通过规划Blackwell、Rubin、Feynman等系列先进GPU芯片,并形成DGX SuperPOD超级计算集群,支撑Omniverse、Cosmos等平台大规模并行运算,构成从AI模型训练到物理仿真的完整基础设施。

      2.谷歌:布局具身智能,将人工智能带入到物理世界

      谷歌正在积极推进其在物理AI领域的战略布局,致力于将通用人工智能从数字空间拓展至真实物理世界,构建了一套覆盖“感知-推理-控制-执行”的完整物理智能体系。

      2025年3月12日,谷歌Deep Mind发布了基于多模态通用大模型Gemini2.0构建的两类大模型:Gemini Robotics-ER(VLM)和Gemini Robotics(VLA)。Gemini?Robotics ER(Embodied Reasoning,具身推理)将Gemini的多模态推理能力扩展至物理世界,具备增强的空间和时间理解能力,包括物体检测、指向、轨迹预测和抓取预测等2D空间概念理解能力,以及多视角3D场景理解和3D边界框检测等3D空间推理能力;Gemini?Robotics则将Gemini Robotics ER的推理能力与底层动作控制结合,直接控制机器人完成复杂操作任务,如折纸、挂包、分类物品等。模型具备零样本和少样本学习能力,支持跨硬件平台泛化,执行自然语言指令时可自动生成控制代码或策略。

      2025年8月,谷歌推出全新世界模型Genie 3。该模型能以720p分辨率、每秒24帧的速度实时生成交互式3D环境,可通过简单文本提示创建动态虚拟世界,且能保持物理一致性达数分钟。目前,该模型仍处于有限的研究预览阶段,仅向特定的学者和创作者开放。

      3.索辰科技:物理AI驱动工业仿真,打造虚实融合新范式

      索辰科技作为中国物理AI领域的标杆企业,以“虚实融合”的技术范式重新定义工业研发流程,其自主研发的物理AI平台,成为推动工业装备智能化升级的核心力量。

      2025年3月发布的“天工?开物”平台是索辰物理AI布局的核心载体,整合生成式建模仿真一体化、实时物理引擎、实时环境感知、自动测控仿真验证等关键技术,实现了从设计参数到多物理场仿真的端到端闭环。平台依托四维时空耦合多物理场建模能力,支持流体力学、固体力学、电磁学等多学科仿真,并通过传感器硬件和企业级实时历史数据库,实现虚拟环境与真实工业场景的精准映射。
图8 索辰天工·开物平台
图8 索辰天工·开物平台(图片来源:索辰科技)

      在2025世界人工智能大会上,索辰科技又正式发布了物理AI风电平台、智能工坊、低空三维物理地图等物理AI产品,并将物理AI技术深度渗透至新赛道:在低空经济领域提供高效、精准、可扩展的低空资产实时监控与管理能力;在能源领域,通过多风机阵列协同布局优化,结合流场模拟与尾流效应分析,实现风电场整体效能的提升;在具身智能领域,通过高保真虚拟训练环境赋能机器人自主学习与复杂操作。这是基于此前发布的物理AI平台的产品化落地,公司物理AI商业化进程加速。
图9 机器人渡河训练
图9 机器人渡河训练(图片来源:索辰科技)

      4.蘑菇车联:构建完整的AI网络,打造物理世界实时搜索引擎

      蘑菇车联专注于构建智能体与物理世界实时交互的AI网络,使智能体可以理解并进入物理世界,推动物理AI从技术突破走向规模化场景应用。

      在2025世界人工智能大会上,蘑菇车联发布了深度理解物理世界的AI大模型MogoMind,该模型作为物理世界的实时搜索引擎,通过接入实时动态数据,具备全局感知、深度认知和实时推理决策能力,能从数据中提炼意义、从经验中学习规则、在场景中灵活决策,为AI网络基础设施建设、实时数字孪生实现及路侧数据上车应用提供核心支撑。同时,MogoMind可将复杂交通环境信息转化为可理解、可执行的智能决策建议,服务于交通精细化管理,并为车企和用户提供实时路径规划、预警提醒等多元服务,诠释了AI与物理世界深度融合的应用图景,可应用于智能网联汽车、无人驾驶车辆、低空无人机、机器人等领域。
图10 MogoMind大模型
图10 MogoMind大模型(图片来源:蘑菇车联官网)

      5.软银集团:押注“物理AI”,打造AI全栈生态闭环

      近年来,软银集团早已从一个活跃的财务投资者,转型为AI生态的构建者。软银集团董事长兼首席执行官孙正义表示:软银集团的下一个战略前沿是物理AI。

      2025年10月8日,软银收购ABB机器人业务。此次收购是其在人工智能领域,特别是“物理AI”方向上的重大战略布局——将超级人工智能与机器人这一物理载体深度结合,推动“数字智能”向“物理执行”的跨越。事实上,此次收购是软银“AI全栈生态”的关键拼图。此前,软银以65亿美元收购芯片公司Ampere Computing,布局AI的“基础”;随后与OpenAI合作成立合资公司,掌握AI的“大脑”;更是参与了耗资高达5000亿美元的“星际之门(Stargate)”超级计算中心项目,为AI提供“算力引擎”;依托Berkshire Grey、Agile Robots等生态企业,将技术延伸至工业、物流、仓储等场景。通过芯片、算法、算力、场景、机器人的层层布局,软银最终实现了从软件到硬件、从云端到物理世界的全链路AI生态闭环。
表2 收购ABB后软银的AI生态闭环
表2 收购ABB后软银的AI生态闭环

总结

      物理AI正从实验室走向产业落地,其发展依赖于物理建模、算法创新、硬件突破与跨学科协作的协同进化。然而,数据稀缺性、跨场景泛化能力不足、计算效率低下和安全可靠性等挑战,制约着物理AI的广泛应用与商业化进程,需通过政策支持、开源生态建设与技术创新等举措逐步攻克。未来,随着技术的成熟,物理AI将重塑机器人、医疗、能源等领域的技术格局,推动人类社会向智能化、精细化发展,其终极目标是让机器不仅能感知物理世界,更能理解、预测并优化物理过程,成为人类探索自然规律与解决复杂问题的得力伙伴。

参考文献

1.NVIDIA at CES 2025 
https://www.nvidia.cn/events/ces/
2.Large Behavior Models and Atlas Find New Footing
https://bostondynamics.com/blog/large-behavior-models-atlas-find-new-footing/
3.物理人工智能:下一代人工智能
https://www.fitee.zjujournals.com/thesisDetails#10.1631/FITEE.2200675&lang=zh
4.小鹏汽车在AI顶会CVPR分享自动驾驶基座模型研发进展
https://www.xiaopeng.com/news/company_news/5478.html
责任编辑:吴婕
本文为e-works原创投稿文章,未经e-works书面许可,任何人不得复制、转载、摘编等任何方式进行使用。如已是e-works授权合作伙伴,应在授权范围内使用。e-works内容合作伙伴申请热线:editor@e-works.net.cn tel:027-87592219/20/21。
读者评论 (0)
请您登录/注册后再评论