为了教人工智能代理一项新任务,比如如何打开厨房柜子,研究人员经常使用强化学习——这是一种试错过程,在该过程中,代理会因采取更接近目标的行动而获得奖励。
在许多情况下,人类专家必须仔细设计奖励函数,这是一种激励机制,赋予代理人探索的动力。当智能体探索并尝试不同的动作时,人类专家必须迭代地更新奖励函数。这可能非常耗时、效率低下,并且难以扩展,尤其是当任务复杂且涉及许多步骤时。
来自麻省理工学院、哈佛大学和华盛顿大学的研究人员开发了一种新的强化学习方法,该方法不依赖于专门设计的奖励函数。相反,它利用从许多非专家用户那里收集的众包反馈来指导代理学习实现其目标。
虽然其他一些方法也尝试利用非专家反馈,但这种新方法使人工智能代理能够更快地学习,尽管来自用户的众包数据通常充满错误。这些嘈杂的数据可能会导致其他方法失败。
此外,这种新方法允许异步收集反馈,因此世界各地的非专家用户都可以为代理的教学做出贡献。
“当今设计机器人代理时最耗时且最具挑战性的部分之一是设计奖励函数。如今,奖励函数是由专家研究人员设计的——如果我们想教机器人执行许多不同的任务,这种范例是不可扩展的。我们的工作提出了一种扩展机器人学习的方法,通过众包奖励函数的设计,并使非专家也能提供有用的反馈。”麻省理工学院电气工程与计算机科学系 (EECS) 助理教授 Pulkit Agrawal 说道。领导麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的 Improbable AI 实验室。
未来,这种方法可以帮助机器人快速学习在用户家中执行特定任务,而无需主人向机器人展示每个任务的物理示例。机器人可以自行探索,并通过众包的非专家反馈来指导其探索。
“在我们的方法中,奖励函数引导智能体应该探索什么,而不是准确地告诉它应该做什么来完成任务。因此,即使人类监督有些不准确和嘈杂,智能体仍然能够探索,这有助于它更好地学习。”主要作者、Improbable AI 实验室的研究助理 Marcel Torne '23 解释道。
Torne 与他的麻省理工学院顾问 Agrawal 一起撰写了这篇论文。资深作者 Abhishek Gupta,华盛顿大学助理教授;以及华盛顿大学和麻省理工学院的其他人。该研究将于下个月的神经信息处理系统会议上公布。
噪音反馈
收集用户反馈以进行强化学习的一种方法是向用户展示两张代理实现的状态照片,然后询问用户哪个状态更接近目标。例如,也许机器人的目标是打开厨房橱柜。一张图像可能显示机器人打开了柜子,而第二张图像可能显示它打开了微波炉。用户会选择“更好”状态的照片。
之前的一些方法尝试使用这种众包的二元反馈来优化代理用于学习任务的奖励函数。然而,由于非专家可能会犯错误,因此奖励函数可能会变得非常嘈杂,因此代理可能会陷入困境而永远无法达到其目标。
“基本上,智能体会过于认真地对待奖励函数。它会尝试完美匹配奖励函数。因此,我们不是直接优化奖励函数,而是用它来告诉机器人它应该探索哪些区域,”Torne 说。
他和他的合作者将这个过程分解为两个独立的部分,每个部分都由自己的算法控制。他们将新的强化学习方法称为 HuGE(人类引导探索)。
一方面,目标选择器算法根据众包的人类反馈不断更新。反馈不用作奖励函数,而是指导代理的探索。从某种意义上说,非专家用户会留下面包屑,逐步引导代理实现其目标。
另一方面,智能体在目标选择器的指导下以自我监督的方式自行探索。它收集它尝试的操作的图像或视频,然后将其发送给人类并用于更新目标选择器。
这缩小了智能体探索的区域,使其进入更接近其目标的更有希望的区域。但如果没有反馈,或者反馈需要一段时间才能到达,代理将继续自行学习,尽管速度较慢。这使得反馈能够不频繁且异步地收集。
“探索循环可以继续自主进行,因为它只是探索和学习新事物。然后当你得到更好的信号时,它就会以更具体的方式进行探索。你可以让他们按照自己的节奏转动,”Torne 补充道。
而且由于反馈只是温和地指导代理的行为,因此即使用户提供了错误的答案,它最终也会学会完成任务。
更快的学习速度
研究人员在许多模拟和现实任务中测试了这种方法。在模拟中,他们使用 HuGE 有效地学习具有长动作序列的任务,例如以特定顺序堆叠块或在大型迷宫中导航。
在现实世界的测试中,他们利用 HuGE 训练机械臂绘制字母“U”并拾取和放置物体。在这些测试中,他们众包了来自三大洲 13 个不同国家的 109 名非专家用户的数据。
在现实世界和模拟实验中,HuGE 帮助智能体比其他方法更快地学习实现目标。
研究人员还发现,来自非专家的众包数据比由研究人员生成和标记的合成数据具有更好的性能。对于非专家用户来说,标记 30 张图像或视频只需不到两分钟。
“这使得这种方法在扩大规模方面非常有希望,”托恩补充道。
研究人员在最近的机器人学习会议上发表了一篇相关论文,他们增强了 HuGE,以便人工智能代理可以学习执行任务,然后自动重置环境以继续学习。例如,如果代理学习打开柜子,该方法还会指导代理关闭柜子。
“现在我们可以让它完全自主学习,而不需要人工重置,”他说。
研究人员还强调,在这种学习方法和其他学习方法中,确保人工智能代理与人类价值观保持一致至关重要。
未来,他们希望继续完善 HuGE,以便代理可以从其他形式的通信中学习,例如自然语言和与机器人的物理交互。他们也有兴趣应用这种方法来同时教授多个智能体。
这项研究的部分资金由 MIT-IBM Watson AI 实验室资助。
版权声明
本文仅代表作者观点,不代表本网站立场。
本文系作者授权本网站发表,未经许可,不得转载。
发表评论