今日,美国具身智能创业公司 Physical Intelligence(简称 PI )发布了最新机器人基础模型π*0.6。
官方称,过去一年,机器人成功完成一半任务并不难,但要让它每次都成功却非常困难,更不用说在现实世界达到人类水平。
现实世界的机器人任务需要一个可靠且快速运行的系统。PI 开发了一种名为Recap(基于优势条件策略的经验与纠正强化学习)的方法,它实现了三个步骤:
通过演示训练和纠正指导机器人,使其能够从自主经验中改进。
使用 Recap 改进了最新版本的视觉-语言-动作 (VLA) 模型 π 0.6 ,使其能高效地执行例如制作意式浓缩咖啡、组装盒子和折叠各种衣物等复杂任务。
利用 Recap 对 π * 0.6 进行自主经验训练,可以使一些最困难任务的吞吐量提高一倍以上,并将故障率降低 2 倍或更多。
这使得 π * 0.6 能够达到实际应用所需的鲁棒性水平。它能够连续一整天制作意式浓缩咖啡,在新家中连续数小时不间断地折叠新衣物,以及组装工厂中用于实际包装的纸箱。
模仿学习还不够
为什么仅靠模仿学习训练的虚拟逻辑自动化(VLA)难以持续取得成功,而监督学习对逻辑逻辑模型(LLM)和其他机器学习系统却如此有效?
由于机器人是在与真实的物理环境交互,像放错位置等小错误会产生与训练数据中略有不同的情况。在训练数据中,机器人更有可能犯下更大的错误,从而导致误差累积。
小错误可以纠正,但累积误差会导致失败。对于产生静态输出的人工智能系统(例如 LLM)来说,这并不是一个大问题。但实际上,这意味着 VLA 不能可靠地成功完成任务。
如果利用 VLA自身行为的额外数据,就能解决这个问题。可以通过训练 VLA 来纠正它在现实世界中实际犯的错误,累积性错误可以通过让策略(即 VLA)反复练习来解决。
指导纠正,练习强化
Recap 提供了两种从经验数据中获取良好训练信号的方法:
指导以提供纠正,即专家向机器人展示如何纠正错误或做得更好;
强化学习,即机器人根据一个回合的总体结果自行判断哪些行为更好或更差,并迭代地学习执行好的行为,同时避免坏的行为。
为了使指导有效,专家级远程操作员需要提供纠正措施,指导机器人如何从实际操作中犯的错误中恢复。这这种干预针对的是策略实际应用到机器人所处的场景,从而解决了错误累积的问题。
然而,仅仅靠纠正是远远不够的。纠正措施的监督质量取决于人能否准确把握干预时机并真正提供高质量的纠正。要快速、可靠且始终如一地完成任务,机器人需要自主学习。
核心挑战在于功劳分配——理解机器人执行的哪些动作导致了良好的结果,哪些动作导致了不良的结果。
奖励分配是强化学习中的一个关键挑战,Recap 能够预测特定情况相对于其他情况的优劣
例如,在国际象棋这样的游戏中,智能体获胜后会获得奖励,价值函数会根据当前的棋盘状态预测智能体获胜的概率。如果能够从机器人的经验中学习价值函数,就可以通过观察价值函数的变化来判断哪些行为是好是坏。
下图展示了在执行“折叠衣物”过程中,价值函数所做的预测:
在执行时,只需指示经过优势调整的 VLA 执行优势较高的动作,从而得到一个比训练数据更优的策略。
实际任务
团队研究了三个应用场景:制作意式浓缩咖啡、折叠各种衣物以及组装包装盒。
Recap 的第一阶段是使用离线强化学习 (RL) 对 π * 0.6 模型进行预训练和微调,然后使用从机器人收集的额外数据,通过强化学习进一步训练该模型。
值得注意的是,在一些难度较高的任务上,例如制作意式浓缩咖啡,我们看到了最大的改进,这些任务的吞吐量和成功率在加入机器人实际操作经验后都提高了一倍以上。
从定性角度来看,最终的 π * 0.6 模型在学习了演示数据和机器人实战经验后,能够熟练掌握各项应用。
每项任务都面临诸多挑战,使得高吞吐量的自主执行困难重重。即使对于目前最好的 VLA 模型来说,这些阶段中的每一个阶段都是具有挑战性的,而 π * 0.6 可以以超过 90%的成功率完成这些阶段。
相关人员表示,专家提供的演示用于定义新的行为,辅导用于完善策略,而自主经验用于完善行为,最终或许能够使机器人达到超越人类的性能水平。
参考资料:
https://www.pi.website/blog/pistar06#where-are-we-headed
【免责声明】本站所刊内容仅代表作者本人观点,与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如有侵权,请联系我们删除。
本文地址:http://www.jiqiren.org.cn/tt/1272.html
