使用众包反馈来帮助训练机器人

ROBOT@qwh 2023-11-29 阅读:1309 评论:0
为了教人工智能代理一项新任务,比如如何打开厨房柜子,研究人员经常使用强化学习——这是一种试错过程,在该过程中,代理会因采取更接近目标的行动而获得奖励。在许多情况下,人类专家必须仔细设计奖励函数,这是一种激励机制,赋予代理人探索的动力。当智能...

MIT-Guided Explanation-01_0.jpg


为了教人工智能代理一项新任务,比如如何打开厨房柜子,研究人员经常使用强化学习——这是一种试错过程,在该过程中,代理会因采取更接近目标的行动而获得奖励。

在许多情况下,人类专家必须仔细设计奖励函数,这是一种激励机制,赋予代理人探索的动力。当智能体探索并尝试不同的动作时,人类专家必须迭代地更新奖励函数。这可能非常耗时、效率低下,并且难以扩展,尤其是当任务复杂且涉及许多步骤时。

来自麻省理工学院、哈佛大学和华盛顿大学的研究人员开发了一种新的强化学习方法,该方法不依赖于专门设计的奖励函数。相反,它利用从许多非专家用户那里收集的众包反馈来指导代理学习实现其目标。

虽然其他一些方法也尝试利用非专家反馈,但这种新方法使人工智能代理能够更快地学习,尽管来自用户的众包数据通常充满错误。这些嘈杂的数据可能会导致其他方法失败。

此外,这种新方法允许异步收集反馈,因此世界各地的非专家用户都可以为代理的教学做出贡献。

“当今设计机器人代理时最耗时且最具挑战性的部分之一是设计奖励函数。如今,奖励函数是由专家研究人员设计的——如果我们想教机器人执行许多不同的任务,这种范例是不可扩展的。我们的工作提出了一种扩展机器人学习的方法,通过众包奖励函数的设计,并使非专家也能提供有用的反馈。”麻省理工学院电气工程与计算机科学系 (EECS) 助理教授 Pulkit Agrawal 说道。领导麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的 Improbable AI 实验室。

未来,这种方法可以帮助机器人快速学习在用户家中执行特定任务,而无需主人向机器人展示每个任务的物理示例。机器人可以自行探索,并通过众包的非专家反馈来指导其探索。

“在我们的方法中,奖励函数引导智能体应该探索什么,而不是准确地告诉它应该做什么来完成任务。因此,即使人类监督有些不准确和嘈杂,智能体仍然能够探索,这有助于它更好地学习。”主要作者、Improbable AI 实验室的研究助理 Marcel Torne '23 解释道。

Torne 与他的麻省理工学院顾问 Agrawal 一起撰写了这篇论文。资深作者 Abhishek Gupta,华盛顿大学助理教授;以及华盛顿大学和麻省理工学院的其他人。该研究将于下个月的神经信息处理系统会议上公布。

噪音反馈

收集用户反馈以进行强化学习的一种方法是向用户展示两张代理实现的状态照片,然后询问用户哪个状态更接近目标。例如,也许机器人的目标是打开厨房橱柜。一张图像可能显示机器人打开了柜子,而第二张图像可能显示它打开了微波炉。用户会选择“更好”状态的照片。

之前的一些方法尝试使用这种众包的二元反馈来优化代理用于学习任务的奖励函数。然而,由于非专家可能会犯错误,因此奖励函数可能会变得非常嘈杂,因此代理可能会陷入困境而永远无法达到其目标。

“基本上,智能体会过于认真地对待奖励函数。它会尝试完美匹配奖励函数。因此,我们不是直接优化奖励函数,而是用它来告诉机器人它应该探索哪些区域,”Torne 说。

他和他的合作者将这个过程分解为两个独立的部分,每个部分都由自己的算法控制。他们将新的强化学习方法称为 HuGE(人类引导探索)。

一方面,目标选择器算法根据众包的人类反馈不断更新。反馈不用作奖励函数,而是指导代理的探索。从某种意义上说,非专家用户会留下面包屑,逐步引导代理实现其目标。

另一方面,智能体在目标选择器的指导下以自我监督的方式自行探索。它收集它尝试的操作的图像或视频,然后将其发送给人类并用于更新目标选择器。

这缩小了智能体探索的区域,使其进入更接近其目标的更有希望的区域。但如果没有反馈,或者反馈需要一段时间才能到达,代理将继续自行学习,尽管速度较慢。这使得反馈能够不频繁且异步地收集。

“探索循环可以继续自主进行,因为它只是探索和学习新事物。然后当你得到更好的信号时,它就会以更具体的方式进行探索。你可以让他们按照自己的节奏转动,”Torne 补充道。

而且由于反馈只是温和地指导代理的行为,因此即使用户提供了错误的答案,它最终也会学会完成任务。

更快的学习速度

研究人员在许多模拟和现实任务中测试了这种方法。在模拟中,他们使用 HuGE 有效地学习具有长动作序列的任务,例如以特定顺序堆叠块或在大型迷宫中导航。

在现实世界的测试中,他们利用 HuGE 训练机械臂绘制字母“U”并拾取和放置物体。在这些测试中,他们众包了来自三大洲 13 个不同国家的 109 名非专家用户的数据。

在现实世界和模拟实验中,HuGE 帮助智能体比其他方法更快地学习实现目标。

研究人员还发现,来自非专家的众包数据比由研究人员生成和标记的合成数据具有更好的性能。对于非专家用户来说,标记 30 张图像或视频只需不到两分钟。

“这使得这种方法在扩大规模方面非常有希望,”托恩补充道。

研究人员在最近的机器人学习会议上发表了一篇相关论文,他们增强了 HuGE,以便人工智能代理可以学习执行任务,然后自动重置环境以继续学习。例如,如果代理学习打开柜子,该方法还会指导代理关闭柜子。

“现在我们可以让它完全自主学习,而不需要人工重置,”他说。

研究人员还强调,在这种学习方法和其他学习方法中,确保人工智能代理与人类价值观保持一致至关重要。

未来,他们希望继续完善 HuGE,以便代理可以从其他形式的通信中学习,例如自然语言和与机器人的物理交互。他们也有兴趣应用这种方法来同时教授多个智能体。

这项研究的部分资金由 MIT-IBM Watson AI 实验室资助。


版权声明

本文仅代表作者观点,不代表本网站立场。
本文系作者授权本网站发表,未经许可,不得转载。

发表评论
热门文章
  • 使用众包反馈来帮助训练机器人

    使用众包反馈来帮助训练机器人
    为了教人工智能代理一项新任务,比如如何打开厨房柜子,研究人员经常使用强化学习——这是一种试错过程,在该过程中,代理会因采取更接近目标的行动而获得奖励。在许多情况下,人类专家必须仔细设计奖励函数,这是一种激励机制,赋予代理人探索的动力。当智能体探索并尝试不同的动作时,人类专家必须迭代地更新奖励函数。这可能非常耗时、效率低下,并且难以扩展,尤其是当任务复杂且涉及许多步骤时。来自麻省理工学院、哈佛大学和华盛顿大学的研究人员开发了一种新的强化学习方法,该方法不依赖于专门设计的奖励函数...
  • 康普顿未来智慧农场

    康普顿未来智慧农场
    康普顿未来农场,使用更少的水和1%的土地,即可实现与产统农业相同产量....
  • 拆解 OpenAI 的新董事会

    拆解 OpenAI 的新董事会
    在人工智能和技术领域掀起波澜的惊人事件中,人工智能领域的领先实体 OpenAI 最近的领导地位发生了重大转变。以萨姆·奥尔特曼 (Sam Altman) 戏剧性地重返首席执行官职位以及随之而来的董事会改组为标志,这些变化代表了该组织的关键时刻。OpenAI 以其在人工智能研究和开发方面的开创性工作而闻名,包括广泛认可的 ChatGPT 和 DALL-E 模型,站在人工智能进步的最前沿。因此,董事会的重组不仅仅是人员的变动,还标志着人工智能领域最具影响力的组织之一的方向、优先事...
  • 一种自动确定计算机游戏状态中可能动作的方法

    一种自动确定计算机游戏状态中可能动作的方法
    由于手动彻底测试视频游戏软件非常困难,因此需要拥有能够自动探索不同游戏功能的人工智能代理。此类代理的关键要求是玩家动作的模型,代理可以使用该模型来确定不同游戏状态下的可能动作集,以及对代理策略选择的游戏执行选定的动作。目前使用的典型游戏引擎不提供这样的动作模型,导致现有的工作要么需要人工手动定义动作模型,要么不精确地猜测可能的动作。在我们的工作中,我们通过为游戏中存在的用户输入处理逻辑开发最先进的分析方法来演示程序分析如何有效解决该问题,该分析可以使用离散动作空间自动建模游戏...
  • 在音频中将你的描述和内容分开模型AudioSep

    在音频中将你的描述和内容分开模型AudioSep
    语言查询音频源分离(LASS)是计算听觉场景分析(CASA)的新范例。LASS 旨在根据自然语言查询从音频混合物中分离出目标声音,这为数字音频应用程序提供了自然且可扩展的接口。最近的 LASS 工作尽管在特定源(例如乐器、有限类别的音频事件)上取得了有希望的分离性能,但无法在开放域中分离音频概念。在这项工作中,我们介绍了 AudioSep,这是一种使用自然语言查询进行开放域音频源分离的基础模型。我们在大规模多模态数据集上训练 AudioSep,并广泛评估其在音频事件分离、乐器...