自主机器人的层次生成建模

人类通过计划、执行和结合单个肢体运动来产生复杂的全身运动。我们研究了运动控制的这一基本方面,并通过具有多层次规划的分层生成建模来解决自主任务完成问题,模拟人类运动控制的深层时间结构。我们探索了嵌套时间尺度的时间深度,其中向前或生成模型的连续级别展开,例如,物体传递需要全局规划和肢体运动的局部协调。这种时间尺度的分离表明了分层组织整体规划和个体分支局部控制的优势。我们通过物理模拟广泛地验证了我们提出的公式。使用分层生成模型,我们展示了一个具体的人工智能系统,一个人形机器人,可以自主完成需要整体使用运动,操纵和抓取的复杂任务:机器人熟练地检索和运输一个盒子,打开并穿过一扇门,踢足球,即使在存在身体损伤和地面不规则的情况下也表现出强大的性能。我们的研究结果证明了人工智能机器人的有效性和可行性,强调了公式化层次结构在自主完成具有挑战性的目标导向任务方面的可行性。

人类可以控制自己的身体,产生复杂的运动行为,与他们的目标相一致,例如,在一个混合使用腿和手的环境中以一种连贯的方式导航。这些任务需要多个过程的协调,包括运动计划和执行。为了实现这种协调,人类运动控制在神经元层次的不同层次上以嵌套的时间尺度展开2,3,例如,到达特定地点的高级计划可能需要多个,单个的,反射性的低级肢体运动来行走。在机器人领域,层次结构元素已被应用于控制系统,以实现不同的运动行为。通过将这些元素与人类神经系统联系起来,我们已经推导并总结了实现类人运动控制的核心原理。

在机器人技术方面,过去的研究一直是为了获得与人类相似的能力,比如飞机制造中的装配、太空任务,以及针对强健机器人行为的主动推理计算模型。这些主要通过三种方法实现:人工命令、计划和学习。

虽然人类的命令被用于灾难响应或建筑工程的安装,但高级命令是由人类通过远程操作或通过预定义的任务序列提供的。在这个范例中,任务的自主执行建立并依赖于使用规划明确的任务序列,它使用有限的感官反馈来在线重新规划。因此,这种方法还不是完全自主的,并且在交互过程中环境可能发生变化时容易受到不确定性的影响。

对于规划方法,如轨迹优化或任务规划,需要一个环境模型来优化运动序列。这样的规划框架以自上而下的方式传递命令,并在计划的运动和对其执行的控制之间进行分离。因此,规划框架单方面地与控制连接,并且缺乏来自低层的反馈9。因此,这种方法被限制在有限的场景范围内,其中所需的执行接近理想的规划,例如,准静态,运动学运动或定义良好的环境。然而,对于环境模型偏离现实世界的情况,反馈是必不可少的,并且需要纠正行动来抵消事先没有计划的变化。由于控制负责执行和与环境的交互,缺乏来自较低控制层的反馈阻碍了对其他环境的更广泛的推广;因此限制了在自主行为和人类水平运动控制方面的适用性。

为了克服上述限制,学习方法(如分层强化学习)是完成需要以闭环方式解决离散子任务序列的任务的另一种方法,例如四足运动的路径跟踪(路径跟踪)、移动机械手的交互式导航(路径跟踪)和分层导航任务(路径跟踪)。剩下的挑战主要在于找到正确的抽象层次,以及如何找到具有有意义的子行为的适当的层次结构。这对于机器人来说尤其具有挑战性,因为机器人的状态和动作空间是复杂的,行为是抽象的,通常很难明确地量化。因此,手工制作的子行为,如Sutton等人使用的选项理论17,阻碍了自主操作所需的强化学习过程中的充分探索。

本研究调查并提出了人类运动控制的五个核心原则,在此基础上,我们形式化了生成自主行为的框架设计。我们提出的分层生成模型遵循分层电机控制的核心原则5,所产生的能力可以解决分层强化学习尚未克服的几个挑战。与分层强化学习相比,我们随后的分层控制结构提供了以下可能性:(1)创建透明和灵活的方法来解释和实施机器人决策;(2)在分层结构内推出个人政策并提高其整体性能;(3)识别和减轻性能缺陷的原因。

这项工作通过追求结构依赖(例如,在人类运动控制中观察到的区域间通信5)对于自主机器人系统在不确定环境中优化和适应未来行动是必要的这一概念,实现了人类水平的运动控制。人类的运动控制是通过嵌套的层次结构产生的,这些层次结构由不同但功能上相互依存的处理结构组成,例如,从运动皮层到脊髓,再到神经肌肉连接处。这些嵌套的层次结构可以解释为层次生成模型5,19。

与之前的研究8,16,20,21相比,我们的模型是这种分层电机控制模型的一个特殊实例。为了进一步发展,我们的扩展在人类运动控制的计算模型中引入并结合了多层次规划、非对称区域间通信和时间抽象。

在这项工作中,我们将电机控制描述为学习的分层生成模型的结果;特别是包括行为后果的生成模型。该建议继承了人类运动控制的分层功能组织以及随后的规划推理21,23,24,主动推理25,26,27,28或控制推理29,30。简而言之,分层生成模型描述了如何生成感觉观察,即与运动控制相关的感觉运动关系的编码31,32。重要的是,这免费提供了参考文献5中介绍的分层电机控制的五个核心原则。详见表1。

表1电机分级控制关键原理总结5,在人类运动公司中有典型的实现控制和我们的机器人系统
全尺寸工作台

这种层次化的表述可以促进在不同时间和空间抽象层次上运行的多层次规划5,32(图1)。这源于层次化生成模型所提供的分离规划(即选择下一个适当的动作)、运动生成(即执行所选动作)和控制(即将高级计划作为运动实现)的功能集成32。因此,必要的结构可以被认为是一系列不同的层次,其中每个层次都提供适当的运动控制33(图1)。在我们的结构中,最低的层次预测本体感觉信号——使用力学的前向模型产生——以及支撑运动执行的动力学。这种动力学可以看作是实现了一个平衡位置或期望的设定点,而不需要对任务动力学进行明确的建模(参见平衡点假设34)。上一级生成由下一级实现的必要的不动点序列。这个顺序说明了人类对四肢的稳定性控制,例如,以直立的方式行走。最高级别的是计划35,不同的状态表示代理计划的端点,例如,将一个盒子从一个表移动到另一个表。

图1:移动盒子的分层生成模型的图形表示。
figure 1

生成模型表示状态之间的条件依赖关系以及它们如何导致结果。为简单起见,我们将其表示为表示动作的填充方形和表示动作序列的圆形。该模型的关键方面是它的层次结构,它表示随时间的动作序列。在这里,较高级别的操作生成较低级别的初始操作,然后展开生成一系列操作(例如,关联链)。至关重要的是,较低的关卡在上一级关卡的每个转换序列上循环。正是这种调度赋予了模型一个深层次的时间结构。特别是规划(第一行;最高级别)“交付盒子”生成信息协调级别(第二行;中层)也就是“向桌子移动”。这反过来又决定了运动生成的初始动作(第三行;最低水平)的手臂“把盒子”放在桌子上。在这里,在每个时间步上通过从指定时间范围内生成的操作序列(即顺序策略)中采样来生成单个操作。π1,中层动作序列;π2,高级动作序列;B1,中级作用;B2,高层次行动;φ,关节扭矩作用;ν,关节力矩动作顺序。

为了验证我们的命题,我们为自主机器人引入了一个层次生成模型。它通过结合时空水平和最先进的工具(即强化学习、模型预测控制和阻抗控制),实现上下文敏感、强大的任务能力。我们的模型有三个不同层次的规划和运动生成,模拟了人类运动控制的简化功能架构。重要的是,每一层都由独立但功能集成的模块组成,这些模块具有部分自主性,由不对称的区域间通信支持36,也就是说,较低的层次可以独立地执行快速移动。这种结构提供了一个灵活的、按比例扩大的分层生成模型结构,使用已建立的机器人工具(方法)。在不同的时间尺度上,模型层次的后续层次依次优化和演化。然而,只有中间层规划人员能够访问状态反馈,这允许在我们的生成模型中进行特定类型的分解(即功能专门化)。我们在后面的章节中保留进一步的细节。

文章的组织结构如下。在结果部分,我们证明了我们的(隐式)电机控制分层生成模型,它需要在生成模型的不同层次之间进行信息的双向传播,可以执行与人类非常相似的任务。这里,隐式层次生成模型指的是前向模型,其显式反转对应于控制作为推理(不需要逆模型)。在讨论部分,我们讨论了我们的分层生成模型的有效性,它如何有益于潜在的应用,并对未来的工作进行了展望。最后,在Methods部分中,我们提供了实现的细节。

我们的隐式层次生成模型使机器人能够在仿真中学习如何自主完成局部操作任务。我们在三个不同的场景中验证了这个模型:(1)一个具有两步决策的顺序任务,包括将一个盒子从一个桌子移动到另一个桌子,并通过按按钮打开一扇门(图1);(2)在输送带之间输送箱体,按下按钮激活第二输送带(图2a);(3)通过接近并将足球踢入球门来执行点球(图2b)。学习到的策略显示出对不确定性的通用性和鲁棒性(图3a-e),同时证明了分层电机控制的核心原理。

图2:验证分层生成模型的操作和运动任务。
figure 2

a,操作任务,机器人拿起箱子(a),送出箱子(B),最后通过激活按钮(C)将箱子送出。B,点球,机器人接近(a)并将球踢进球门(B和C)。

图3:系统在扰动和环境存在下的鲁棒性nmental变化。
figure 3

a-e,说明了机器人如何在训练期间没有遇到的扰动测试场景中完成任务,并证明了我们提出的方法的鲁棒性。从左到右,我们在机器人前面放置了5公斤的盒子障碍物(a),从前面推动机器人(b),用倾斜(c)和光滑(d)的表面改变地板,并通过移除右脚(e)来损伤机器人。f,在不同的扰动下显示了矢状和横向CoM运动,证明了平摊控制。g、髋关节俯仰关节运动,在双足运动中对运动影响最大。髋关节俯仰关节运动用于展示策略如何适应摄动并快速重新执行运动以抵消摄动。

我们的隐式层次生成模型能够像人类一样成功自主地完成运动、操纵和抓取动作,并以内部一致性连贯地解决所有这些复杂的任务。相反,我们展示了平面架构在这方面是如何失败的(补充图6)(补充信息部分5)。

高级策略确定完成任务所需的动作顺序,并向负责肢体协调和关节控制的低级策略发送命令。在这里,独立地,运动策略可以促进对扰动的适应,例如,从不同类型的地形上的推动或运动中恢复。相反,低层关节控制器提供了鲁棒性,以应对与地面的突然和硬接触,吸收高频冲击。

为了评估这种分层方案的鲁棒性和通用性,我们引入了几个在训练过程中没有遇到过的扰动(图3)。首先,我们通过在机器人前面放置障碍物(即5公斤的箱子,图3a)并推动其骨盆(图3b)来引入外部扰动。中等水平运动策略经受住了这两种干扰,将障碍物移开,并在推动后采取一步恢复平衡。为了进一步测试其性能,我们通过在门前添加5°倾斜表面(图3c)和低摩擦玻璃板(摩擦系数为0.3,图3d)来改变不可见条件下的环境。每次扰动后,机器人都能完成任务。更有趣的是,我们切除了机器人的右脚(图3e)。尽管这个障碍从来没有遇到过,只有一个残肢接触地面的地方,它的右脚,我们的分层控制是足够强大的,以处理这种情况,机器人能够保持平衡,完成任务。

接下来,我们评估随后的控制体系结构是否满足保证鲁棒任务性能的分层电机控制的关键原则(表1)。

在这个系统中,分解存在于模型级别和策略控制之间,每个级别负责特定类型的信息处理。这种因式分解确保外部扰动对任务性能的影响最小。

由于信息分解定义了每个子系统的角色,因此,任何性能故障都可以被隔离,并为未来的任务进行微调。例如,如果机器人在走向目标的过程中摔倒,运动策略可以被识别为根本原因,因此改进运动策略将解决问题,而无需修改高层规划器或操作策略。进一步的例子包括机器人肢体的振荡,这可以归因于低级的关节控制;或者走错了方向,这是由于高层政策的命令。

从理论的角度来看,这种分解对应于生成模型的结构,生成模型可以分解为概率分布的因子(在物理学和概率推理中,这被称为平均场近似)。几乎普遍地,这导致一定的条件独立性最小化模型反演的复杂性;也就是说,计划作为推理或控制作为推理21,23,26。这很重要,因为它可以防止过拟合并确保泛化。从生物学的角度来看,这种因子分解可以被视为一种功能分离,通常与大脑的模块化架构和功能专门化有关36。

该系统被设计为部分自治,即最小程度地减少来自其他层面的干扰或支持。具体地说,我们在最高和中间级别之间实现了明确的分离,尽管它们是一起学习的。这是特别相关的,因为高级计划级别可能会向中级稳定性控制器发送不可实现的动作序列。如果没有部分自主权,机器人可能会变得不稳定,无法学会适当地移动,因为这些指令是随机的或可能不稳定的高级指令。

图4展示了向机器人的手臂和腿提供随机命令的情况。这导致机器人向随机方向行走(图4a),手臂随机移动(图4b)。尽管运动跟踪不完善,但机器人不会摔倒,并且可以在不连贯的意图下完成任务。

图4:随机高级指令下机器人执行任务时的状态和时间动态。
figure 4

a,b,分别跟随随机腿部(a)和手臂(b)指令时,CoM的矢状运动。从机器人快照对应于它们显示的时间,可以看到中级稳定性控制器的部分自主性,即,尽管随机和快速变化的命令输入,单个级别的良好性能。c,d,分别为腿部(c)和手臂(d)的动作。在这里,可以看到规划过程中时间尺度的分离,其中高层命令提供0.5 Hz,中层命令实现25 Hz。在关节执行器上以500hz的频率实现联合指令。在c和d的插入图中,关节位置轨迹的演变与平衡点假设中的假设相似。

经过训练后,机器人进行平摊控制,能够使用先前学习的动作快速重新执行适当的行为。我们在基线和扰动任务设置中观察到这种行为(图3f中插入轨迹),其中使用平摊运动策略来完成任务,而无需额外学习。

机器人有多个子结构,它们负责特定的控制,并以不同的方式协同工作以产生运动。补充图5a展示了在有障碍物的情况下(任务2)按下按钮开门时的多关节协调。为了实现这一点,右臂运动必须根据初始手的位置进行适当的协调。此外,肩滚(补充图5b,橙色线)和肘(补充图5b,红色线)必须调整和适应不同的基线。显然,这些不会产生固定运动,相反,操作策略基于质心(CoM)协调这些关节。因此,在到达基线的运动中,手臂的运动与被遮挡的盒子的情况不同,因为盒子挡住了门,所以CoM处于不同的位置。

通过设计(“隐式生成模型”),三个系统级别在不同的时间尺度上进化。图4展示了机器人行走时的不同尺度。最高的策略级别具有0.5 Hz的慢时间刻度(图4a)。这允许较低级别以部分自主的方式执行命令,即不间断地执行命令。相反,肢体的中级稳定控制在25 Hz时具有更快的时间尺度(插入图4c,d的轨迹)。这是生成快速预测运动和操作策略所需要的。最后,低级联合控制在执行器级别以500 Hz的频率执行这些控制命令。


Nature Machine Intelligence
摘要。
主要
结果
讨论
方法
数据可用性
代码的可用性
参考文献。
致谢。
作者信息
道德声明
同行评审

补充信息





# # # # #

我们的分层生成模型是人类运动控制功能架构的抽象计算表示(图5)。在这里,我们简要讨论其计算神经元同源物,重点关注来自肌肉的主要传入信号的预测,并考虑人类运动控制的相应原则。支持人类运动控制的正向模型的反转在最低水平上产生连续的本体感觉预测,并将信息传播给负责规划的最高水平。因此,我们的公式提供了一个隐式生成模型,可用于基于模型的机器人代理,包括强化学习和主动推理37,以推断其环境动态。

图5分层co的算法实现控制作为推理。
figure 5

a,支持人体运动控制的(高级)生成模型示意图。b、机器人系统的隐式生成模型。a中的绿色节点和b中的绿色方框分别代表人类运动控制的最高水平和我们的隐式生成模型。在生成模型中,高级决策是通过深度强化学习学习的神经网络来实现的。a中的蓝色节点对应于人类运动控制的中间层,b中的蓝色方框是中间层的实现,实现为通过深度强化学习学习到的深度神经网络策略,以及通过逆运动学和动力学策略学习到的操作。在最底层,用灰色节点和方框表示,关节阻抗控制器计算驱动机器人所需的扭矩。黄色和浅红色分别表示传感器信息和电机控制。为了清楚起见,我们根据先前的文献,将我们的阐述限制在a中的关键区域,这些区域使用实线绘制。虚线表示对人类运动控制的单独结果模态的处理,即视觉输入。最后,前额叶皮层通过虚线连接,表示其在人类运动控制中的支持作用。b中的虚线表示相应原则的实现,虚线表示消息解析。关于b. SE,状态估计的算法实现,请参见“机器人系统的隐式分层生成模型”;PDF,概率密度函数;IMU,惯性测量单元;τ,单个关节扭矩;dL、dM为阻尼参数;jL、jM为惯性参数;K,刚度参数;F / T,力/力矩;τL和τM,分别是L和M上的力矩。

生成模型的最低和最快的层次包括脊髓和脑干。这些区域负责评估本体感觉输入(主要传入)和这些信号的下降预测之间的差异。这种差异(即预测误差)通过经典运动反射及其伴随的肌肉骨骼机制驱动肌肉收缩38,39。根据这种观点,经典反射是通过本体感觉输入下降预测的平衡或设定值来实现的40,41,42。这在我们的模型中在低级关节控制中实例化,低级关节控制接收当前关节位置和传感器信息,以通过电机控制计算实现目标和预测位置(由中级控制器提供)所需的所需扭矩。在这里,关节控制器有部分自主权来计算所需的扭矩,类似于控制低级手臂运动的神经元集合(即红色核)。

在中级水平上,我们可以考虑小脑的作用。小脑接收来自脊髓和其他区域的上行输入,并整合这些输入以微调运动活动。换句话说,它不发起运动,但有助于其协调,精度和速度,通过一个快速的非深思熟虑的操作模式。因此,它可以被认为是负责运动行为的平摊(习惯性)控制,其特征是皮层下和皮层相互作用43,44,45。小脑接收来自运动皮层的信息,处理这些信息并将运动脉冲(通过脊髓)发送到骨骼肌。生成模型的中层用于产生多关节协调的运动和操作策略的类似协调和稳定性控制。它会微调骨盆和手部目标,给出从较高水平下降的策略,以确定确切的关节位置(以弧度测量)。就像小脑一样,随着时间的推移,这个水平可以半自主地协调多个关节运动。

更高层次的生成模型包括大脑皮层和其他神经元系统。大脑皮层能够接收外感受、内感受和本体感受信号(如视觉、听觉、体感等)的感官流,并能够协调、情境化或超越较低层次的习惯控制。具体来说,初级运动皮层负责自主运动的审慎计划、控制和执行:例如,在习惯化或摊还之前学习一项新的运动技能。

例如,脊髓小脑束负责发送有关手臂和肢体运动的感觉信号。相反,下降束将适当的运动信息传递给较低的层次,例如,负责发送有意识的肌肉运动的锥体束。大脑皮层的作用在我们模型的最高层得到了实例化,它可以访问处理过的传感器信息来帮助决策。具体来说,我们引入了不对称的区域间连接,从低级传感器信息连接到高级,从高级连接到中级稳定控制。从解剖学上讲,这些与大脑中的外在白质连接相对应,在预测编码和变分信息传递方案中,白质连接负责信念更新和计划推理32。

通过为机器人的运动和操作技能提供一个新的任务自主水平——通过适当的分类程序——人类可以从向机器人发送低级控制和决策命令的必要性中解脱出来,例如,脚和手的接触,就像在共享自治和半自治范例中常见的那样。因此,我们可以克服来自人为错误和对通信带宽的依赖的潜在限制。例如,2015年DARPA机器人挑战赛总决赛期间,大量机器人摔倒(ref. 47),机器人的自主性很小,依赖于人类的密切监督,导致整个方案容易出错和脆弱,存在人类错误决策,缺乏对环境不确定性和干扰的局部机器人自主性等问题。

考虑到这一目标,我们将探索我们的分层生成模型在物理机器人上的未来实现。鉴于我们目前在物理模拟方面的工作得到了广泛的验证,通过使用额外的模拟到现实(模拟到真实)技术来弥合模拟到真实的差距,可以将现有模型及其组件部署到现实世界的机器人上。为了应对这一挑战,我们计划使用显示出无缝模拟到真实转换潜力的技术,最大限度地减少大规模调整的必要性。特别是,可以使用已建立的方法,如域随机化和动作过滤,这些方法被证明是有效的,可以成功实现模拟到真实的传输48,49。

未来的工作将在更细致的规划目标和不同的自主机器人系统下评估分层生成模型的使用。由于隐式分层生成模型的模块化分解,可以用替代控制器或学习策略替换和进一步升级各个级别的策略。例如,用更复杂的方案取代我们的Q-learning计划器,这些方案旨在处理任意和认知不确定性(即预期自由能50,51,52)。这种类型的未来工作可以提高在不稳定条件下的性能51。

此外,鲁棒性可以通过机器人神经心理学来评估53,也就是说,通过干扰各种近似和策略来引入计算机损伤,并研究它们对随后的推理和行为的影响。这些计算病变可以引入模拟和物理机器人,其中这种病变可以改变功能结果。例如,在中等水平稳定性控制下,对最小抖动优化解(即计算损伤)的扰动将导致手臂的小脑震颤。

在此,我们提出了用于自动机器人控制的反隐式层次生成模型的硬件实现。机器人平台规格详见补充表1。首先,我们详细介绍了通过反转生成模型自主完成的任务,即使用模型预测传感器输入并使用致动器解决随后的(本体感觉)预测误差。接下来,我们详细阐述了生成模型的细节,包括高层决策、中层稳定控制和低层联合控制。

有关实施的其他说明,请参阅补充资料第6节。

为了演示分层生成模型的反转如何解决需要特定顺序和协调运动和操作技能的复杂任务,我们设计了一个既需要肢体协调又需要对动作顺序进行推理的任务。这个任务包括四个子任务(补充图1):从第一个桌子拿起一个盒子,把盒子送到第二个桌子,打开门,走到目的地或目标位置。为了完成任务,所有的子任务都必须按照精确的顺序执行。

我们提出的框架允许机器人在模拟中通过与环境的交互学习成功完成任务。这是通过为高级策略设计奖励(或效用)函数来实现的,这样奖励的累积最大化就会导致任务的完成(“高级决策”)。对于中、低层策略,采用控制策略与模仿学习相结合的方法。

根据表1中电机层次控制的关键原理和图1中的生成模型,我们构建了一个人形机器人的生成模型,该模型包含三个层次:高层决策、中层稳定控制和低层关节控制。分层生成模型的结构如图5b所示。这种分层体系结构依赖于条件独立性,从而导致分层级别之间的分解消息传递。

在这里,运动规划的时间深度和结构取决于指定一个分层生成模型,其中在不同的时间尺度上评估特定级别的策略。在这种情况下,每一层吸收来自下一层的证据,以一种由上一层提供的背景化或(缓慢)约束选择的方式。机器人系统的隐式分层生成模型的总结可以在补充表4和图4中看到。

(隐式)分层生成模型实例化为:

其中,结果,状态,行动,p表示概率分布。上标n{1,2,3}表示状态sn或动作an的级别,其中n=3为最高级别,n=1为最低级别。下标表示n在不同时间尺度上的演化时间,最高(n=3)的演化频率为0.5 Hz,中间(n=2)的演化频率为25 Hz,最低(n=1)的演化频率为500 Hz。

这种时间顺序表示不同的级别如何将下面的级别置于上下文中:高级策略将中层的推出置于上下文中;中层政策将低层政策语境化;每个关卡都可以访问之前的结果。简而言之,转换函数被定义为级别2和级别3的标识(使用先前的结果),直到下一次更新(即级别2的50个级别1步骤,级别3的1000个级别1步骤)。优化每个级别的伪代码可以在补充图4中找到,以及跨级别依赖关系的详细概述。

最高级别的规划层以最慢的速度进化,选择完成特定子任务所需的肢体运动序列。它决定手的位置和方向。实际上,深度强化学习用于学习高级决策策略,该策略为中级稳定性控制(参见人类运动控制的平衡点假设40和动眼运动控制的主动推理公式32)生成目标(在笛卡尔空间中)。

这些规划目标是在下面的层面实现的,在下面的层面调节机器人在操作和运动过程中的平衡和稳定性。操作被实例化为最小抖动模型预测控制器,该控制器将手臂移动到高级策略提供的目标位置。通过深度强化学习,将运动作为一种习得的中层策略来实现,该策略协调腿以到达上级预测的目的地。这两种策略的设计都是为了确保高层不可行的设定值在中层稳定控制中得到纠正,以便只向低层联合控制器提供稳定的联合目标命令。

尽管从其他级别接收输入,但每个级别对其最终预测和目标都有部分自主权。此外,通过学习一种策略来实现多关节协调,该策略对腿的所有关节进行适当的当前状态协调,而手臂通过逆运动学(IK)来协调关节。

低级联合控制器被实例化为联合阻抗控制,并跟踪由中级稳定控制器提供的联合位置命令。基于调整后的刚度和阻尼,关节阻抗控制计算出所需的转矩,以接近和平稳地达到目标位置。最后,利用嵌入式电机驱动器的电流控制,执行器跟踪转矩指令。

生成模型通过分层方式实现三个层次的控制(图5):高层决策、中层稳定控制和低层联合控制。所有组件都是单独设计和训练的,从最低的层次开始。

首先,需要保证电机控制的准确性和鲁棒性,从而实现低层次的关节位置控制。对系统的刚度和阻尼参数进行了调优,使系统能够准确、准确地跟踪参考点,从而实现中等水平的稳定性控制。中层稳定性控制由单独设计的操作策略和运动策略组成。运动策略被训练为向指定的目标位置行走,而操作策略被设计为将手放在目标位置上。最后,通过深度强化学习对高层决策策略进行训练,学习为这些中低层决策策略提供适当的命令。

利用无梯度优化(Gradient-free optimation55,56)找到(1)中层操纵策略和低层联合控制器的最佳超参数集;(2)高层决策策略和中层运动策略的网络架构。

我们通过训练一个深度神经网络,在环境中近似动作值函数Q(s,a),并选择在状态s中产生最高值的动作a,实现了机器人动作的高级决策,正确的顺序和选择。

我们使用双Q-learning57来训练一个由权重φ参数化的Q-网络,以近似真实的动作值函数Q(s,a)。在运行时,得到动作a作为状态s下最大q值的参数。两个独立的q网络分别用于动作选择和值估计。拥有两个独立的q -网络已经被证明可以提高训练的稳定性。

网络参数?i由以下公式获得:

奖励r,折现因子γ,网络参数和,q -网络,当前状态s,下一状态s和最佳行为。在训练过程中,随机选择一个网络参数或进行训练并用于动作选择,另一个网络参数用于估计动作值。元组通过对缓冲区D进行均匀采样,从经验回放中获得,并通过在线动作滚出进行更新。高层决策系统的时间范围被隐式地指定为用于计算收益的贴现因子γ。一种解释贴现因子与计划周期相关的方法是未来奖励半衰期的概念,即当当前奖励ri进入回报计算时为。本工作采用标准折现因子γ=0.95,政策展望~13.5步:。在0.5 Hz的控制频率下,预测范围大约为27秒。

送箱和开门任务

高级策略以0.5 Hz的频率发送和更新动作,这些动作是骨盆、左手和右手在笛卡尔空间中的位置。这些动作由中级稳定控制器执行。

这些状态是从表格(坐标系统的原点)到当前骨盆位置的向量,以及从当前手部位置到盒子位置的向量。最后,提供三个布尔变量作为门打开、箱子放在桌子上、箱子被搬运时的观察状态。

奖励条件ri是根据任务的完成情况来确定的,比如机器人是否通过了交付台,手臂关节是否在规定的位置,盒子是否在机器人的双手之间,盒子是否在交付台,门是否打开以及机器人是否到达目标。权重wi, i=1,…,6见补充表2(顶部)。

在每个时间步,奖励r是稀疏布尔状态的和:

有传递表奖励、关节名义奖励、手箱奖励、表箱奖励、开门奖励和目标奖励。

如果机器人摔倒,或者与自己、桌子或门相撞,我们会提前结束这一集。通过提前结束事件——当达到次优状态(例如下降)时——回报会更低,从而阻止策略进入类似的次优状态。

我们在环境中的不同位置初始化机器人,例如靠近最终目标,在门前或在第二张桌子上,以允许机器人遇到仅通过探索难以发现的状态,因为达到这些状态需要特定的动作序列。

点球任务

要执行点球,即接近并射门,训练高级策略类似于任务1。骨盆的笛卡尔空间指令由高级策略动作生成,并由中级稳定性控制器执行。

状态是指球和骨盆的水平位置。当球越过球门线时,奖励r=1,即进球。如果机器人摔倒或与自己相撞,则提前结束一集。

运输箱和激活co输送带任务

箱子运输任务由两个独立的子任务组成,需要按照特定的顺序执行:从第一条传送带抓取箱子,通过绕偏航轴旋转躯干将箱子运送到第二条传送带,通过激活按钮将箱子放下并在传送带上发送。

高级策略的动作空间包括左、右手的笛卡尔空间指令和躯干偏航关节位置指令。这些动作由中级稳定控制器执行。

状态由手臂的关节位置、盒子的笛卡尔位置和三个布尔值组成,这些布尔值表示盒子是否与手、桌子接触以及按钮是否被按下。

有三种情况奖励:(1)箱子在手中,(2)箱子在传送带上,(3)箱子在第二条传送带上时按下按钮。由此得到的权重为wi的奖励函数(底部补充表2)为:

中层稳定控制层由两部分组成:手臂的操作策略通过模型预测控制(MPC)方案实现,腿部的运动策略通过深度强化学习实现。

操纵政策

作为策略的输入,操作策略从高级策略接收手的笛卡尔目标位置、手的当前笛卡尔位置和当前测量的手臂关节角度。操作策略的输出为手臂的目标关节位置,输出给底层关节控制器。

操作策略由两部分组成(流程图见补充图2):MPC在笛卡尔空间中生成稳定的最优轨迹,IK58将期望动作从笛卡尔空间转化为关节空间。

为了使机械手的运动尽可能平稳,在满足机械手动力学约束的前提下,将最优控制问题表述为最小抖动优化问题。然后以MPC方式实现最优轨迹。MPC控制应用最优输入轨迹的第一个控制输入,然后在下一个控制环上根据新的状态重新优化。这样,MPC在预测视界N上先后求解了一个最优控制问题,在保证最优性的前提下实现了反馈控制。

对于手的位置p,设计一个目标函数J,使最终时间为tf时,系统的输入u的抖动最小:

最小抖动MPC (MJMPC)在25hz频率下,在每个时间步长都解决了以下约束优化问题:

有初始条件和终止条件。

由此得到的笛卡尔轨迹,即由MJMPC从初始手位置到最终手位置的轨迹,通过IK转化为关节位置命令。更正式地说,IK描述了从笛卡尔空间到关节空间的变换。然后由“低级关节控制”中描述的低级关节位置控制器跟踪关节位置命令。即使高级决策策略或MPC轨迹产生不可行的设定值,IK也能确保机器人上可行的关节构型。

运动的政策

该运动策略协调12个自由度(DoF)腿部关节,并实例化为一个深度神经网络(网络参数θ),该网络接收机器人状态s作为输入,输出12个腿部目标关节位置。它通过软演员-评论家(SAC)60,一种非策略深度强化学习算法进行训练。

SAC优化了一个最大熵目标:

有奖励r,状态st和动作在时刻t,温度参数α和策略熵。策略πθ的参数θ通过最小化得到:

通过最小化Bellman残差得到动作值函数:

用Bellman方程和折现因子γ。值函数Vψ的估计通过最小化得到:

训练程序包括奖励、动作空间和状态空间的设计,见文献61。动作为腿12自由度的关节位置(每条腿:髋关节3自由度,膝关节1自由度,踝关节2自由度)。目标关节位置由低级关节控制器跟踪(低级关节控制)。

该状态由目标骨盆位置(即行走目的地)、机器人本体感觉信息(包括骨盆方向、骨盆线速度和角速度、双脚受力、腿部关节位置和步态相位)组成。步态相位表示周期步态在任意时间点的相位,将其在单位圆上实现为二维矢量来描述周期小跑的相位。关于步态相位状态的更多细节,请参考文献61,其中步态相位是用来实现周期运动的模仿学习。

奖励由模仿期和任务期组成:

与权重和奖励条款,并为模仿和任务分别。模仿术语通过奖励接近参考动作捕捉轨迹的动作来鼓励类似人类的动作。任务奖励术语奖励有助于完成任务的动作,即在保持平衡的情况下朝着目标前进。我们发现,将模仿学习与任务引导的奖励形成相结合,可以提高样本效率61,并在步骤之后实现策略收敛,相当于18个小时的实时效果。

为了促使状态x接近期望的目标值,将相应的奖励分量设计为径向基函数(RBF)核:

用超参数α控制核的宽度。

目的是尽可能接近地模仿一个参考动作捕捉轨迹的关节位置、脚姿和接触模式。这是通过奖励函数实现的:

奖励组件和使用RBF核分别鼓励接近参考关节位置和足部姿势的策略学习动作。接触奖励是一种二元奖励,如果参考运动中的脚与地面接触,则等于1,否则为零。奖励成分的权重可以在补充表3中找到。关节位置、足部姿势和足部接触的目标参考来自参考文献62中的动作捕捉研究。

奖励项奖励直立姿态和距离目标位置较近,并对关节速度和扭矩进行正则化;

取补充表3中权重和的值,以及分别奖励躯干姿势直立的奖励分量和,骨盆到目标的距离矢量尽量小,关节速度和关节力矩尽量小。中的所有奖励组件都使用RBF内核。

底层关节控制跟踪中层稳定控制器提供的目标关节位置(流程图见补充图3),接收关节位置、关节速度和目标关节位置目标作为输入输出电机电流。

它被实现为一个关节阻抗控制器,围绕设定值进行调节,以实现对所需关节运动的精确跟踪。

关节阻抗控制使用位置q及其导数计算期望的关节扭矩,并具有刚度和阻尼增益:

在执行器层面,电机驱动器实现内部电流控制,使用比例导数定律跟踪期望的关节转矩,其中期望的电机电流I计算为:



ccDownload: /内容/ pdf / 10.1038 / s42256 - 023 - 00752 - z.pdf

相关推荐