文章

苹果也造了台“小废物”,人机共生版本前瞻?

2025-02-26e-works 夏豪

28阅
让人形机器人做到神似人类难,还是让非人形机器人做到神似人类难?
       1985年,乔布斯被踢出自己参与创立的苹果公司,他转头成立了NeXT计算机公司。1986年,乔布斯以个人身份收购了卢卡斯影业的计算机动画部,并成立了皮克斯动画工作室。同年,在乔布斯的带领下,皮克斯推出了动画短片《顽皮跳跳灯》,并获得了1987年奥斯卡最佳动画短片提名。此后顽皮跳跳灯便成为了皮克斯公司标志性开场动画里的主角。1997年,NeXT被苹果收购,乔布斯重返苹果……

       如今,苹果的年轻人们受到该动画的启发,将经典的顽皮跳跳灯带入了现实生活,却被体验过许多“人工智障”产品的网友们辣评到:“苹果也造了台小废物”。
  

图1 皮克斯开场动画 (来源于皮克斯动画)

动画照进现实? 

       2005年,乔布斯在斯坦福大学的演讲中分享到,他没想到自己会被自己一手创立的公司扫地出门,更没想到自己会重返苹果,并感慨到:“You can't connect the dots looking forward, you can only connect them looking backwards.” 你不能将人生中点点滴滴串起来向前(未来)看,只能回过头来看,一切都是那么清晰明了。如今,苹果的年轻人们将顽皮跳跳灯搬到现实生活,同样的,乔布斯可能也没想到顽皮跳跳灯能给39年后的苹果带来新的灵感。但回过头来看,一切都是那么清晰明了。

       与当前火热的人形机器人不同,苹果这台顽皮跳跳灯,学名叫灯状机器人(The lamp-like robot),主打一个形不似而神似。

       这台顽皮跳跳灯由6自由度机械臂、带有嵌入式LED灯的塑料灯头、激光投影仪、内置摄像头、麦克风以及外部摄像头组成,拥有手势、语言、投影显示和触摸四种交互方式。
    

图2 灯状机器人的组成与交互方式 (来源于ELEGNT论文)

       它会趁人不注意的时候推倒积木,调皮一下。
  
 
       阅读时,它会主动为你照亮“人类进步的阶梯”,并跟随你的手势行动。
   
 
       拍照时,它会根据你的需要调整拍摄光线的角度。
 
 
       
       看书看久了,它会提醒你喝水,并将桌上的水杯推给主人。
  
 
 

       它还能结合 Siri 和麦克风与你进行互动聊天,还带一点肢体语言的那种。
 
  
 

       你问天气怎么样,它会先看看窗外天气,再进行回应。
     
 
 
       修东西的时候,它还会用不同的角度来提供照明,若是主人不会修,它还会在墙面上投影维修资料,辅助主人完成维修。
   

 
        在厨房做菜时,它还能和主人一起享受音乐,享受舞蹈。
   
 
如何让机器人更有“人味”?

       现有的研究表明,在与人交流和唤起情感方面,运动或动作往往比形式或外表起着更重要的作用。为了让机器人更有“人味”,苹果将研究重心放到了运动和动觉创造的过程设计,即不追求形似而追求神似,并提出了非人形机器人的表达性和功能性运动设计框架ELEGNT(Expressive and Functional Movement Design for Non-anthropomorphic Robot)。
ELEGNT设计框架旨在让机器人在实现功能、完成任务的过程中“优雅”地进行人机交互,利用它们的运动向人类表达自身的意图、注意力、态度和感情,而不是像传统机器人那样,只会呆板地执行已设定好的任务,与人类毫无互动。
    

图3 ELEGNT设计框架示意图(来源于ELEGNT论文)

       为了让顽皮跳跳灯能够表达自身的意图、注意力、态度和感情,苹果运用体势学(Kinesics)与空间关系学(Proxemics)为其开发了一套设计原语。设计原语可以理解为顽皮跳跳灯最基本的肢体动作、肢体语言,其所有的交互动作都是设计原语的排列组合。

       其中,体势学原语中包含空间和时间两个维度的特征。在空间特征方面,顽皮跳跳灯可以使用隐喻性的姿势来表达各种状态,比如,它可以通过“点头”或“摇头”来表达态度;在时间特征方面,顽皮跳跳灯可以调整速度、停顿或抖动来传达态度和情绪。

       空间关系学原语则关注如何通过管理空间距离来表达机器人与环境和人之间的关系,包括静态和动态两类。静态涉及机器人相对于物体或人的位置摆放,以传达注意力和意图。例如,顽皮跳跳灯可以将“目光”对准某个物体,并使用灯光或投影来突出它,从而表明关注焦点。动态则使用运动来表达态度或意图,靠近或远离某个物体可以反映顽皮跳跳灯对目标物的态度,而在物体之间改变方向则可以表示注意力的转移。
   

图4 顽皮跳跳灯的设计原语(来源于ELEGNT论文)

       同时,苹果对顽皮跳跳灯在人机交互过程中所表达的意图、注意力、态度、情感进行了详细的定义。

       意图是指机器人交流背后的目的以及对即将到来的运动的预期。例如,当用户伸出手时,机器人可以识别哪个物体是用户打算捡起的东西,并预测用户计划用它做什么,从而实现根据需要进行合作、监督或干预。假设该机器人是一个灯状机器人,它可能会短暂地将头转向目标移动或与之交互。这种行为表明机器人意图,表示注意力的转移,并提示用户下一步行动。

       注意力是指机器人的焦点指向哪里,凝视是该焦点的有力指标。例如,当机器人看到一个物体时,它可能正在分析它或为即将到来的动作做准备。在顽皮跳跳灯的背景下——相机和光线充当隐喻的“眼睛”。

       态度是指机器人对人、目标物或事件的姿态。例如,机器人可能会通过点头表示同意或通过摇头、摇晃等动作表示不同意。它还可以通过改变其自身轮廓或运动动作来传达对某人的态度或信心,例如,暂停表示犹豫,快速移动表示果断与信心。

       情感,虽然机器人不能像人类那样体验情感,但它们模拟情感表达的能力对于创造直观、引人入胜的互动至关重要。例如,机器人可能会用轻盈、有弹性的动作来传达快乐,用缓慢的动作来暗示放松的状态,用低头来表示悲伤,用突然、急促的动作来表示恐惧或其他负面情绪。

       将设计原语排列组合后与顽皮跳跳灯所要表达的意图、注意力、态度、情感一一对应起来,再通过马尔可夫决策过程(MDP)进行模拟训练与输出,则可以让顽皮跳跳灯在完成任务的过程中“优雅”地与人交流、提供注意力、展现态度以及表达情感,进而让顽皮跳跳灯变得有趣可爱,“人味”十足。

人机共生时代的到来? 

       从苹果的角度来看,ELEGNT设计框架不仅仅适用于灯状机器人或多自由度机械臂,而是适用于所有非人形机器人。这一点从苹果设计顽皮跳跳灯之初的定位便已明了,苹果将现有的机器人分成了类人、类动物、功能型三类,而顽皮跳跳灯属于三不像。同时苹果表示接下来的工作重点是把这些设计见解整合到一个生成框架(AI)中,以创建上下文感知的机器人动作,从而在非拟人化机器人中有效地表达意图。
    

图5 顽皮跳跳灯的定位(来源于ELEGNT论文)

       可以想象的是,假如人机共生时代真的到来,人类在未来的生活中需要更好的人机交互体验,需要更有“人味”的机器人,那目前家居生活场景中所有的非人形机器人或多或少都需要参考ELEGNT重新设计,皮克斯动画中的情节或将变为现实。

       对于功能性要求更高的工业生产环节,ELEGNT设计框架仍能带来许多启发,如多模态交互增强操作效率、柔性动作设计适应复杂环境、提高机器设备主动安全性等。

        降低人机协作心理门槛

       通过ELEGNT框架设计的机器人具备流畅的肢体语言交互能力,避免了传统人形机器人可能引发的“恐怖谷效应”。在工业场景中,流畅的肢体语言交互可减少工人对复杂机械设备的心理排斥,提升协作接受度。例如,在仓储物流中,机械臂通过直观的灯光或动作指示货物分拣路径,降低操作复杂性。

       多模态交互增强操作效率

       通过ELEGNT框架设计的机器人支持手势、物体追踪等多模态交互,如用户移动物体时顽皮跳跳灯自动跟随调整,这一特性可移植至工业场景中的远程操控或培训场景。例如,维修人员通过手势指令指挥机器人定位设备故障点,或通过投影功能实时展示设备操作指南,类似顽皮跳跳灯投影维修教程的场景。

       柔性动作设计适应复杂环境

       通过ELEGNT框架设计的机器人“富有表现力的功能性运动”不仅追求美观,更强调动作的精准性和环境适应性。在工业制造中,此类技术可优化机械臂的运动路径,使其在狭窄空间或动态流水线上实现更灵活的操作,例如精密电子元件的装配或柔性生产线的快速换型。

       软硬件生态的协同整合

       顽皮跳跳灯基于苹果的软硬件生态可以轻松准确回答用户的问题并附带相应的肢体动作,如提问天气状况时它会先看看窗外天气,再利用手机端的Siri进行回应。未来工业机器人可借鉴此类设计,通过统一的操作系统实现设备间的数据互通与任务协同。例如,工厂中的多台机器人通过中央AI系统共享环境数据,动态优化生产流程。

       提高机器设备主动安全性

       通过ELEGNT框架设计的机器人具备温和交互方式(如模拟观察天气的动作)可转化为工业机器人的安全提示机制。例如,当检测到工人靠近危险区域时,机器人通过灯光渐变或缓慢动作发出预警,而非传统蜂鸣警报,减少对正常操作的干扰。

       或许目前生活生产方式正在被ELEGNT重塑,而我们还未有明显感受,又或许这只是昙花一现的一次探索。毕竟在发明智能手机之前,我们也不知道自己的生活竟与一块屏幕息息相关。但无论怎么看,ELEGNT设计框架的发布无疑加速了人机共生时代的到来。如果未来人类离不开机器人,那我们会更青睐于有“人味”、有“灵性”、会表达自己的机器人。

写在最后

       在人机交互领域,苹果是专家。乔布斯曾明确表达过苹果的基因是站在科技与人文的十字路口创造超越用户期待的产品。这个十字路口必然避不开人机交互体验,糟糕的人机交互体验是不可能让产品超越用户的期待。同时,苹果手握大量的人机交互手势专利,足以说明其对人机交互领域投入巨大。其中,苹果也因“滑动解锁(Slide to unlock)”、“捏拉缩放(Pinch to zoom)”以及“”边缘回弹(Edge-bounce)等人机交互手势起诉三星侵权。

       作为人机交互专家,苹果不仅仅满足于人与手机、人与屏幕之间的人机交互设计,而是将能力范围扩大至人与机器人之间的交互设计。这也是意料之外,情理之中的事。面对大厂纷纷加码AI、人形机器人、具身智能的现实,苹果以自己擅长的人机交互领域切入机器人赛道是非常明智且理性的。这也许只是苹果在机器人领域的一次尝试,但它无疑将凭借在人机交互领域的深厚积累和创新精神,为用户带来前所未有的智能体验,重新定义人与机器人之间的互动方式。当然,这也有助于苹果在AI、具身智能等领域进行差异化化竞争。同时,有一个疑问涌上心头:让人形机器人做到神似人类难,还是让非人形机器人做到神似人类难?
 
责任编辑:夏豪
本文为e-works原创投稿文章,未经e-works书面许可,任何人不得复制、转载、摘编等任何方式进行使用。如已是e-works授权合作伙伴,应在授权范围内使用。e-works内容合作伙伴申请热线:editor@e-works.net.cn tel:027-87592219/20/21。
读者评论 (0)
请您登录/注册后再评论