在麻省理工学院3号楼的地下室里,一个机器人正在仔细考虑它的下一步行动。它轻轻地戳着积木塔,在不推倒积木塔的情况下寻找最好的积木,这是一个独立的、缓慢的、但惊人敏捷的叠叠乐游戏。
这个由麻省理工学院工程师开发的机器人,配备了一个柔软的钳子,一个力感应手腕袖口和一个外部摄像头,所有这些都用来观察和感觉塔和它的单个块。
当机器人小心地推一个物体时,电脑从相机和袖口接收视觉和触觉反馈,并将这些测量结果与机器人之前的动作进行比较。它还会考虑这些动作的结果——具体来说,以某种配置和一定力度推动的块是否被成功提取。然后,机器人实时“学习”是否继续推或移动到一个新的方块,以防止塔倒塌。
这款玩层层叠乐的机器人的细节今天发表在杂志上科学的机器人.麻省理工学院机械工程系沃尔特·亨利·盖尔职业发展助理教授阿尔贝托·罗德里格斯(Alberto Rodriguez)说,这个机器人展示了在以前的系统中难以实现的一些东西:快速学习执行任务的最佳方式的能力,不仅是通过如今普遍研究的视觉线索,还通过触觉和物理交互。
“与国际象棋或围棋等纯粹的认知任务或游戏不同,玩层层叠游戏还需要掌握身体技能,如探索、推、拉、放置和对齐棋子。它需要交互式感知和操作,你必须去哪里,触摸塔,学习如何和何时移动积木,”罗德里格斯说。“这很难模拟,所以机器人必须在现实世界中学习,通过与真实的层层叠塔互动。关键的挑战是利用有关物体和物理的常识,从相对较少的实验中学习。”
他说,研究人员开发的触觉学习系统可以用于叠叠乐以外的应用,特别是在需要仔细的物理交互的任务中,包括将可回收物品从垃圾填埋场的垃圾中分离出来,以及组装消费品。
罗德里格斯说:“在手机装配线上,几乎在每一个步骤中,对扣或螺纹螺丝的感觉来自力和触觉,而不是视觉。”“学习这些行为的模型是这种技术的主要领域。”
这篇论文的主要作者是麻省理工学院的研究生尼玛·法泽利。该团队还包括Miquel Oller、Jiajun Wu、Zheng Wu和麻省理工学院大脑和认知科学教授Joshua Tenenbaum。
这个玩层层叠的机器人展示了在以前的系统中很难实现的一些东西:快速学习完成一项任务的最佳方式的能力,不仅是通过如今普遍研究的视觉线索,还通过触觉和身体互动。(来源:麻省理工学院)
推和拉
在叠叠乐游戏(斯瓦希里语是“建造”的意思)中,54个矩形方块被堆叠成18层,每层3个方块,每层的方块垂直于下面的方块。游戏的目标是小心地取出一个方块并将其放置在塔的顶部,从而在不倾覆整个结构的情况下建造一个新关卡。
为了给机器人编程玩层层叠,传统的机器学习方案可能需要捕获在块、机器人和塔之间可能发生的一切——这是一项昂贵的计算任务,需要从成千上万的块提取尝试中获取数据。
相反,罗德里格斯和他的同事们受到人类认知和我们自己玩叠叠乐的方式的启发,寻找一种更有效的数据方式来让机器人学习叠叠乐。
该团队定制了一个行业标准的ABB IRB 120机械臂,然后在机器人够得着的范围内搭建了一个层层叠积木塔,并开始了一段训练期,在训练期间,机器人首先选择一个随机的块,并在块上的一个位置进行推压。然后,它施加了少量的力,试图将积木推出塔外。
对于每一次尝试,计算机记录相关的视觉和力的测量,并标记每次尝试是否成功。
机器人没有进行成千上万次这样的尝试——这将涉及几乎同样多的重建塔的次数——而是只训练了大约300次,类似的测量和结果的尝试被分组为代表特定块行为的集群。
例如,一组数据可能表示对难以移动的块的尝试,而不是对易于移动的块的尝试,或对移动时倾覆的塔的尝试。对于每个数据集群,机器人开发了一个简单的模型,根据当前的视觉和触觉测量来预测块的行为。
法泽利说,这种聚类技术极大地提高了机器人学习玩游戏的效率,它的灵感来自于人类聚类类似行为的自然方式:“机器人建立聚类,然后为每个聚类学习模型,而不是学习一个捕捉所有可能发生的事情的模型。”
叠加起来
研究人员在使用模拟器MuJoCo的计算机模拟游戏中,对他们的方法与其他最先进的机器学习算法进行了测试。在模拟器中获得的经验教训让研究人员了解了机器人在现实世界中的学习方式。
“我们向这些算法提供我们系统获得的相同信息,看看它们是如何以类似的水平学习叠叠乐的,”奥勒说。与我们的方法相比,这些算法需要探索更多数量级的塔来学习游戏。”
由于好奇他们的机器学习方法与真正的人类玩家相比如何,该团队与几名志愿者进行了一些非正式的试验。
奥勒说:“我们观察了一个人在塔倒之前能够提取多少块积木,差别并不是很大。”
但如果研究人员想让他们的机器人与人类选手进行竞争,还有一段路要走。除了物理互动,叠叠乐还需要策略,比如提取正确的方块,让对手很难在不推倒塔的情况下抽出下一个方块。
目前,该团队对开发机器人叠叠乐冠军不太感兴趣,而是更专注于将机器人的新技能应用到其他应用领域。
罗德里格斯说:“我们用手做很多事情时,通过力量和触觉提示来感觉‘正确的方法’。”“对于这样的任务,与我们类似的方法可以解决问题。”
这项研究部分得到了美国国家科学基金会和国家机器人计划的支持。
编者按:本文由Jennifer Chu撰写,经MIT News授权转载。
了下:机器人的报告,机器人•机械手•末端执行器

告诉我们你的想法!