GPT-4 能比你更好地教机器人手做转笔技巧吗?

内容来自:@DrJimFan

很高兴地宣布推出 Eureka,这是一个开放式智能体,它为超人水平的机器人灵活性设计了奖励函数。它就像物理模拟器 API 领域中的 Voyager!

Eureka 弥合了高级推理(编码)和低级运动控制之间的差距。它是一种“混合梯度架构”:一个黑盒,仅推理 LLM 指示一个白盒,可学习的神经网络。外循环运行 GPT-4 来细化奖励函数(无梯度),而内循环运行强化学习来训练机器人控制器(基于梯度)。

得益于 IsaacGym,能够扩展 Eureka,IsaacGym 是一款 GPU 加速的物理模拟器,可将现实速度提高 1000 倍。在 10 个机器人的 29 项任务基准套件中,Eureka 在 83% 的任务上奖励优于专家人工编写的任务,平均提高幅度为 52%。我们很惊讶 Eureka 能够学习笔旋转技巧,即使对于 CGI 艺术家来说,逐帧制作动画也是非常困难的!

Eureka 还支持一种新形式的上下文 RLHF,它能够将人类操作员的反馈融入自然语言中,以引导和调整奖励功能。它可以作为机器人工程师设计复杂运动行为的强大副驾驶。

像往常一样,开源一切!

在机器人学习中,LLMs 擅长生成高级计划和中级动作,例如拾取和放置(VIMA、RT-1 等),但缺乏复杂的高频电机控制。

尤里卡!对我们来说(双关语)的时刻是,通过编码的奖励功能是 LLMs 可以冒险掌握灵巧技能的关键门户。

Eureka 通过在上下文中发展奖励功能来实现人类水平的奖励设计。有 3 个关键组件:

  1. 模拟器环境代码作为上下文跳转启动初始“种子”奖励函数。
  2. GPU 上的大规模并行强化学习能够快速评估大量候选奖励。
  3. 奖励反射会在上下文中产生有针对性的奖励突变。

首先,通过使用原始 IsaacGym 环境代码作为上下文,Eureka 已经可以生成可用的奖励计划,而无需任何特定于任务的提示工程。

这使得 Eureka 成为一个开放式、多面手的奖励设计者,并且黑客攻击最少。

其次,Eureka 在每个进化步骤中生成许多候选奖励,然后使用完整的 RL 训练循环对其进行评估。通常,这是非常慢的,可能需要几天甚至几周的时间。

得益于 NVIDIA 的 GPU 原生机器人训练平台 IsaacGym ( https://developer.nvidia.com/isaac-gym ),我们才能够扩大规模,与实时相比,该平台将模拟速度提高了 1000 倍。现在内部 RL 循环可以在几分钟内完成!

最后,Eureka 依赖于奖励反射,它是 RL 训练的自动文本摘要。这使得 Eureka 能够执行有针对性的奖励突变,这要归功于 GPT-4 出色的上下文代码修复能力。

如果想详细了解,可以点开视频下方的链接。
谢谢观看本视频。要是喜欢,请订阅、点赞。谢谢

代码库: http://eureka-research.github.io
论文: http://arxiv.org/abs/2310.12931
代码: http://github.com/eureka-research/Eureka

油管:https://youtu.be/L-e3IK0OAYg

了解 Tarogo Cloud Bloger & Shop 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读