文章

AI大模型让机器人集体“进化”,具身智能时代要来了?

2025-02-28e-works 杨培

202阅
在AI大模型快速发展的当下,机器人领域也热闹非凡。近日,国内外各大机器人厂商纷纷在大模型与机器人融合的方面“大秀肌肉”,标志着机器人朝着“具身智能”又迈出了重要一步。
       最近一段时间以来,国产AI大模型DeepSeek火爆全网。同时,谷歌、特斯拉等科技巨头,也在AI大模型领域不断推陈出新,推动AI技术迈向更高水平。而在AI大模型快速发展的当下,机器人领域也热闹非凡。近日,国内外各大机器人厂商纷纷在大模型与机器人融合的方面“大秀肌肉”,标志着机器人朝着“具身智能”又迈出了重要一步。
   
       从国外的Figure AI、IX,到国内的中控技术、均普智能、优必选、普渡机器人、浪潮机器人等,纷纷公布了在自研大模型、接入DeepSeek大模型以及具身智能机器人研究方面的重要进展,一场激烈的具身智能机器人竞赛已然拉开帷幕。

国外巨头,各显神通

       在人形机器人领域,美国Figure AI公司无疑是明星企业之一。在2月初官宣与OpenAI“分手”之后,2月20日晚Figure AI便带着“从未在人形机器人身上见过的东西”——用于通用人形机器人控制的视觉-语言-动作(VLA)模型Helix重磅登场。据介绍,Helix集视觉感知、语言理解和动作控制于一体,实现了上半身35个自由度的协调控制,具备零样本泛化能力,可处理数千种陌生物体,还支持多机器人协作,两台人形机器人能共享模型完成复杂任务。

       在Figure AI发布演示视频中,由Helix驱动的两台机器人通过接受人类语音指令,无需任何预编程或物体特定训练,便能协同完成物体分类与收纳工作。值一提的是,Helix是首个运行在嵌入式低功耗GPU上的VLA模型,这也为其快速投入商业部署奠定了基础。
Figure AI发布的Helix模型(来源:Figure AI)

       挪威人形机器人厂商1X Technologies最新发布的第二代家用机器人NEO Gamma同样亮点突出。NEO Gamma人形机器人基于初代产品NEO迭代升级,在硬件、AI和外观设计等方面都进行了优化。在AI方面,1X Technologies通过训练视觉操作模型,使得机器人能够在不同场景中拾取各种对象,包括此前训练时从未接触的对象。NEO Gamma还利用了经过训练的神经网络,可直接根据原始传感器数据来预测远程操控动作,并集成了自研的大语言模型(LLM),可实现与用户的自然对话和肢体语言互动。
来源:1X Technologies

       从演示视频来看,在家庭环境里,NEO Gamma会主动为正在商讨事情的人类烧热水并端上杯子;看到墙上的挂画歪了会主动摆正并向人类点头确认。此外,晾衣服、清洁地板、擦窗户、取快递等工作处理起来也得心应手。
NEO Gamma人形机器人应用场景演示
(来源:1X Technologies)

国内厂商,不甘示弱

       与国外厂商聚焦于自研AI大模型不同,国内厂商则将目光投向了爆火的DeepSeek,并纷纷公布了在机器人接入DeepSeek大模型方面的重要进展。

       这其中,中控技术于2月18日发布消息称,其作为第一大股东投资入股的浙江人形机器人创新中心已在自主研发的领航者2号NAVIAI及即将发布的第三代人形机器人上完成DeepSeek-R1测试。测试表明,DeepSeek-R1的深度推理和复杂逻辑分析能力为人形机器人提供了强大的技术支撑。未来,第三代人形机器人还将进一步接入DeepSeek的多模态模型Janus Pro,增强环境感知和人机交互能力,并计划于本年度在某大型石化企业实验室的高风险作业场景中实现AI驱动的具身智能仿生机器人的落地应用。
人形机器人“领航者2号NAVIAI”(来源:中控技术)

       优必选也针对开源推理大模型DeepSeek-R1,在人形机器人应用场景中进行了验证。测试结果显示,经过多模态能力扩展的DeepSeek-R1能够让人形机器人在执行任务前结合看到的场景和接收到的指令进行思考验证,零样本推理水平与调优后的同级别大模型推理水平相当。优必选将基于DeepSeek-R1研发适用于人形机器人的多模态具身推理大模型,预期在真实场景的数据调优后,性能表现将会进一步提升,赋能人形机器人在工业场景的应用。

       2月20日,浪潮智能终端宣布旗下浪潮机器人已成功接入DeepSeek,使得机器人具备了强大的语义理解能力。机器人不再仅仅局限于对指令字面意思的理解,而是能够深入挖掘用户的真实意图。

       均普智能已在具身智能的研发及应用领域接入DeepSeek模型,下一步计划将DeepSeek模型引入人形机器人训练中。

       普渡机器人宣布已正式接入DeepSeek满血版模型,首批搭载该模型的贝拉Pro机器人已在部分商超落地测试,后续将逐步推广至其他机型及场景。
首批搭载DeepSeek满血版的贝拉Pro机器人
已在部分商超落地测试(来源:普渡机器人)

       优宝特机器人已在自主研发的“行者泰山”R2人形机器人部署了DeepSeek大模型,相比R1更具备情感识别功能,能与人类进行自然对话并调节语气,从而提升了用户体验。

       此外,北京大学联合香港科技大学团队基于自研全模态框架Align-Anything,将纯文本模态的Deepseek R1系列模型拓展至图文模态,推出了多模态版DeepSeek-R1(即Align-DS-V),可用于机器人控制。美格智能正基于自研的AIMO智能体及DeepSeek-R1模型的基础能力,开发面向工业智能化、座舱智能体、智能无人机、机器人等领域的AI Agent应用。

大模型让机器人“智商”飙升

       具身智能机器人,是当前机器人技术演进的重要方向。简单来讲,“具身智能”是赋予AI“身体”,使其能够像人类一样与环境进行感知和交互,具备自主决策和行动能力,并能够从经验反馈中实现智能增长和行动自适应。其核心是通过在物理和数字世界中的学习和进化,实现理解世界、互动交互并在真实世界中完成任务的目标。而AI大模型,正是开启具身智能这扇大门的关键钥匙。

       机器人作为“具身智能”的重要载体,通过融入AI大模型技术,不仅打破了依赖预设程序执行特定任务的局限,更推动其向“类人智能与交互”加速进化。从各大机器人厂商公布的重要进展来看,AI大模型在推动机器人迈向具身智能方面的关键价值,主要体现在以下几个方面:

       一是赋予了机器人精准理解与高效交互能力。AI大模型强大的自然语言处理能力,让机器人能够“听懂”人类的各类复杂指令,无论是日常的生活咨询,还是专业领域的问题,都能快速给出精准回答,从而大大提高了交互能力与效率。尤其是VLA模型,更是使得机器人能够以更自然、直观的方式与人类交互,精准理解人类的语言、动作和手势等所表达的意图,并做出合适的回应。

       二是赋予了机器人自主决策能力。AI大模型凭借强大的数据分析和处理能力以及卓越的学习和推理能力,使得机器人在面对复杂多变的现实场景时,能够整合机器人搭载的各种传感器所收集到的环境信息,包括视觉、听觉、触觉等多维度数据,实时感知环境变化,快速分析各种情况,并自主地制定行动策略和决策。例如,接入DeepSeek大模型的机器人,能够在复杂环境中实现自主路径规划、导航和操作。
基于分层场景图谱导航技术和DeepSeek大模型实现
语义搜索和自主导航(来源:浪潮机器人)
 
    三是赋予了机器人学习与泛化能力。AI大模型使得机器人在面对新场景时,能依据已有知识和学习经验,快速理解场景特征并做出应对。即使面对陌生情况,机器人也能基于已有的知识储备进行推理和判断,提升了机器人在不同领域和场景下的泛化能力。例如,在Figure AI和1X公布的重大进展中,都强调了机器人能拾取在训练中从未接触过的物体,这就得益于大模型所赋予的学习和泛化能力。而且,大模型赋能下的机器人就像个勤奋好学的学生,能够通过在线学习和强化学习等,越学越聪明。
 
前路漫漫,仍挑战重重

       然而,尽管AI大模型与机器人的融合,为机器人的智能化带来无限可能,但要实现真正的具身智能机器人,仍有不少“拦路虎”需要解决。

       首先,模型的计算复杂度、数据安全性和决策可解释性等问题仍需解决。大模型的训练需要大量的数据和算力,导致算力成本和训练成本高昂。显然,此次Figure AI发布可运行在低功耗嵌入式GPU上的Helix多模态模型,以及国内厂商介入deepseek-R1这一以强大的推理能力和极高性价比著称的大模型,提供了为降低算力和训练成本的新思路、新路径,但目前都尚处于早期研发和测试验证阶段,距离大规模应用还有差距,需要进一步优化硬件与模型的适配,以充分发挥其性能并降低成本。

       在数据安全性方面,则需规避数据收集存储与传输、模型训练与更新以及模型应用等环节的隐私侵犯、数据泄露、恶意攻击等风险。而在决策可解释性方面,大模型产生的幻觉可能使得机器人输出不符合实际或无逻辑的结果,导致其决策依据难以捉摸。

       其次,如何实现小样本学习和持续学习也是重要挑战。具身智能机器人需要在真实环境中执行复杂任务,但获取高质量数据的难度极大。对适用于机器人的大模型而言,目前开发所需要的物理数据比大模型所需要的互联网数据更加短缺,这直接限制了机器人在复杂场景中的应用能力。在持续学习方面,则面临着灾难性遗忘、任务干扰及缺乏评估机制等问题。这使得机器人在学习新任务时可能会遗忘旧知识,或因任务干扰而出现错误决策,且难以设计一个有效的评估机制来准确衡量机器人的学习效果和性能。

       此外,具身智能强调“大脑-身体-环境”三位一体,它的实现不仅仅依赖于大模型、深度学习、机器学习等算法智能,也依赖于本体与环境的智能交互,如对外界信息的获取与理解、对自身行动的规划与决策、对任务的下达和对复杂环境的适应,以及在与环境的不断交互过程中,实现可持续的智能进化与提升。因此,如何实现视觉、触觉、听觉、嗅觉等多模态信息的智能感知,如何实现全身智能与协调控制等,也是实现机器人智能化的关键所在。多模态感知能让机器人更全面地理解周围环境,而全身智能与协调控制则关乎机器人行动的有效性与适应性。

       不过,国内外厂商近期纷纷在自研大模型、接入DeepSeek大模型及推动机器人迈向具身智能方面取得的重要进展,标志着具身智能机器人的研究已进入新的阶段。虽然目前还面临诸多挑战,但相信随着技术的不断进步和创新,这些挑战有望逐步得到解决。或许在不远的将来,具身智能机器人真能如科幻电影中演绎的那般,成为人类生产生活的得力助手和智慧伙伴。
责任编辑:杨培
本文为e-works原创投稿文章,未经e-works书面许可,任何人不得复制、转载、摘编等任何方式进行使用。如已是e-works授权合作伙伴,应在授权范围内使用。e-works内容合作伙伴申请热线:editor@e-works.net.cn tel:027-87592219/20/21。
读者评论 (0)
请您登录/注册后再评论