当你雇佣新员工时,你可以让他们坐下来看一段关于如何做这项工作的教学视频。当你买一个新机器人时会发生什么?
康奈尔大学的研究人员正在教机器人看教学视频,并得出一系列执行任务的分步指令。你甚至不需要打开DVD播放器;这个机器人可以在YouTube上找到它需要的东西。这项工作的目标是,将来我们可能会有“个人机器人”来完成日常家务——做饭、洗碗、洗衣、喂猫——以及帮助老人和残疾人。
研究人员称他们的项目为“RoboWatch”,部分原因是大多数操作视频都有一个共同的底层结构。而且,有大量可用的原始资料。YouTube提供了18万个关于“如何做煎蛋饼”的视频和28.1万个关于“如何打领结”的视频。通过在同一个任务中扫描多个视频,一台计算机可以找到它们的共同点,并用自然语言将其简化为简单的分步指令。
为什么人们要发布这些视频?”研究生Ozan Sener说,他是12月16日在智利圣地亚哥举行的计算机视觉国际会议上发表的一篇关于视频解析方法的论文的主要作者。塞纳与斯坦福大学的同事合作,他目前是一位访问研究员。
塞纳指出,他们系统的一个关键特点是“无监督”。在以前的大多数工作中,机器人学习是通过让人解释机器人观察到的东西来完成的——例如,教机器人识别物体,方法是给它看物体的图片,而人则给它们贴上名字标签。在这里,一个有工作要做的机器人可以查找指令并自己找出它们。
面对一项陌生的任务,机器人的电脑大脑首先会向YouTube发送一个查询,以找到一组关于该主题的操作视频。该算法包括省略“异常值”的例程,即符合关键字但不具有指导意义的视频;例如,一个关于烹饪的问题,可能会带来动画特写Ratatoullie的片段,厨房用具的广告或者一些老式的三个臭小子的惯例。
电脑逐帧扫描视频,寻找经常出现的物体,并阅读伴随的旁白——使用字幕——寻找经常重复的单词。使用这些标记,它匹配不同视频中相似的片段,并将它们排列成一个序列。从该序列的副标题可以产生书面指令。在其他研究中,机器人已经学会了通过听人类的口头指令来执行任务。将来,维基百科等其他来源的信息可能会被添加进来。
从YouTube视频中学习到的知识可以通过RoboBrain获得,RoboBrain是一个在线知识库,任何地方的机器人都可以咨询帮助他们完成工作。
申请依据:M2M(机器对机器)




