据IPO早知道消息,基于强化学习(Reinforcement Learning,RL),「逐际动力双足机器人P1」第一次来到位于深圳的郊野公园塘朗山,零样本、无保护、全开放进行测试,开箱即跑,在完全陌生的野外环境中,高动态完成了在多种复杂地形上的移动,表现出强化学习训练后,优异的控制力和稳定性。
事实上k8凯发,逐际动力在强化学习有着长期的积累,目前聚焦把强化学习的前沿技术转化为系统化研发能力,支持产品功能开发,并提出了自己的强化学习研发体系,主要包括Real2Sim2Real闭环、神经网络架构设计、数据生成机制与训练算法设计等三大核心版块,搭配不断完善的流程管理和算法验证,k8凯发推动人形机器人重要功能的开发。
而P1是逐际动力在中国率先推出的一款新颖的双足机器人,也是逐际动力强化学习系统化研发与模块化测试的重要平台,用于推进双足基础运动能力的研发和迭代。P1成功征服野外森林,正是逐际动力强化学习系统化研发的成果,也是三大核心版块能力的体现。具体来讲:
从Real2Sim到Sim2Real,k8凯发打通数据到数据的自动闭环,不管是采集物理世界数据生成仿真模型,还是把仿真后的策略部署到硬件上,从数据的生成k8凯发、迁移到部署,逐际动力的目标是实现全过程自动化,最大限度降低人工干预,缩小仿真和现实之间的差距,提高训练的效率和质量。
神经网络并不是一个黑盒,而是一个科学的系统化复杂结构,决定了强化学习能力的上限,其架构的设计体现了不同团队的特点和实力。逐际动力的神经网络由不同模块组成,如何划分模块、如何定义每个模块、每个模块输入输出的界面是什么,这些设计至关重要。逐际动力打造的神经网络架构能够有效应对环境交互和硬件差异带来的巨大干扰,生成具有自适应性的控制策略,实现同一个神经网络适用于不同的机器人和场景。
在强化学习中,数据是训练的关键,但不是数据规模越大,训练效果就一定越好。逐际动力把重点锁定在解决有效数据稀缺的问题上,提出迭代式预训练(Iterative Pre-training)方法,把通用机器人的基础运动能力划分为不同级别,进行循序渐进的预训练,这个过程让训练的结果更可控,从而高效地产出和收集有效数据,训练出高性能的策略(Policy)。
在仿线没有被输入过任何与森林、徒步相关的数据,与落地环境差异巨大,但依然能够适应全新的环境,在变化莫测的森林中自如行走。这得益于逐际动力系统化的强化学习训练,保证研发成果在实际应用中可行、可用、可靠。
这里需要指出的一点是,具身智能研发的四大要素包括硬件、算法、数据、算力,强化学习是算法中至关重要的技术栈,逐际动力强调系统化的研发流程和能力,P1成为中国首个成功在野外徒步的双足机器人,证明了这个技术路径的先进性。除了移动控制(Locomotion),在操作(Manipulation)和移动操作(Loco-manipulation)方面,逐际动力在人形机器人上也在不断攻关。