美国陆军研究实验室和德克萨斯大学奥斯汀分校的研究人员已经为机器人或计算机程序开发了新的技术,可以通过与人类指导员的互动来学习如何执行任务。这项研究的结果将于2月2日至7日在路易斯安那州新奥尔良举行的人工智能发展协会会议上发表。
ARL和UT的研究人员考虑了一个人类以批评的形式提供实时反馈的具体案例。得克萨斯大学奥斯汀分校教授Peter Stone博士和他以前的博士生Brad Knox首次介绍了TAMER,即通过评估强化手动训练代理,ARL/UT团队开发了一种名为Deep TAMER的新算法。
它是使用深度学习的TAMER的一个扩展,深度学习是一类机器学习算法,其灵感大致来自大脑,为机器人提供了一种能力,通过与人类教练在短时间内观看视频流来学习如何执行任务。
根据陆军研究员加勒特·沃内尔博士的说法,该团队考虑了人类通过观察和提供批评来教代理如何行为的情况,例如,“做得好”或“做得不好”——类似于人训练狗表演魔术的方式。沃内尔说,研究人员扩展了该领域早期的工作,使目前通过图像看世界的机器人或计算机程序能够进行这种类型的训练,这是设计能够在现实世界中操作的学习代理的重要的第一步。
目前许多人工智能技术都要求机器人与环境进行长时间的互动,以学习如何以最佳方式执行任务。在这个过程中,代理可能执行的动作不仅可能是错误的,比如机器人撞到墙上,而且可能是灾难性的,比如机器人从悬崖边上跑下来。沃内尔说,人类的帮助将加快人工智能的速度,并帮助它们避免潜在的陷阱。
作为第一步,研究人员展示了Deep TAMER的成功,使用它与人类提供的15分钟反馈,训练一个代理在雅达利(Atari)保龄球游戏中表现得比人类更好——这一任务被证明即使是最先进的人工智能方法也很难完成。经过deep - tamer训练的特工表现出了超人的表现,超过了他们的业余训练师和一般情况下的人类雅达利高手。
在未来的一到两年内,研究人员有兴趣探索他们最新技术在更广泛的环境中的适用性:例如,除了雅达利保龄球之外的视频游戏和其他模拟环境,以更好地代表在现实世界中部署机器人时发现的代理类型和环境。
他们的研究成果将发表在AAAI 2018年会议论文集上。
“未来的军队将由士兵和自主队友并肩作战组成,”沃内尔说。“虽然人类和自动智能体都可以提前接受训练,但团队不可避免地会被要求在他们从未见过的新环境中执行任务,例如搜索和救援或监视。在这些情况下,人类非常擅长泛化他们的训练,但目前的人工智能代理还不行。”
Deep TAMER是其研究人员设想的一系列研究的第一步,该研究将使陆军中更多成功的人类自主团队成为可能。最终,他们想要的是能够快速安全地从人类队友那里学习各种风格的自主代理,比如演示、自然语言指导和批评。
了下:航空+国防

