设计的世界

  • 首页
  • 技术
    • 3 d CAD
    • 电子•电气
    • 紧固与连接
    • 工厂自动化
    • 线性运动
    • 运动控制
    • 测试与测量
    • 传感器
    • 流体动力
  • 学习
    • 电子书/技术提示
    • 工程周
    • 设计工程的未来
    • MC²运动控制教室
    • 播客
    • 视频
    • 在线研讨会
  • 飞跃奖
  • 领导
    • 2022年的投票
    • 2021年的赢家
  • 设计指南图书馆
  • 资源
    • 3D Cad模型
      • PARTsolutions
      • TraceParts
    • 数字问题
      • 设计的世界
      • EE世界
    • 工程领域的女性
  • 供应商清单

强化学习,YouTube教机器人新技巧

通过奥利弗·米切尔|2018年11月5日

分享

         

大卫·莱特曼(David Letterman)所说的“愚蠢的机器人把戏”(Stupid Robot Tricks)可能即将落幕,因为智能机器开始在各种各样的体力和智力追求上超越人类。2016年3月,谷歌旗下的DeepMind软件程序AlphaGo击败了当时的围棋冠军李世石。围棋是一种起源于3000多年前的中国游戏,据说比国际象棋复杂多了。李宗伟曾获得18个世界冠军,被认为是过去10年里最伟大的选手。如今,AlphaGo拥有世界排名冠军。

解析DeepMind团队如何能够跨越计算机科学家一度无法逾越的门槛,可以为了解机器人专家可用的工具提供入门知识。根据AlphaGo官网,传统的人工智能方法在所有可能的位置上构建搜索树,在围棋中没有机会。这是因为可能的走法太多了,而且很难评估每个可能的棋盘位置的力度。”

相反,研究人员将传统的搜索树方法与深度学习系统相结合。“一个神经网络,即‘政策网络’,会选择下一步的行动。另一个神经网络是‘价值网络’,它预测游戏的赢家。”然而,AlphaGo的关键是让人工智能通过严格的“强化学习”方法,从游戏数据库中与自己下棋数千次。

“我们向AlphaGo展示了大量强大的业余棋局,以帮助它发展自己对人类合理棋局的理解。然后我们让它与不同版本的自己玩了数千次,每次都从错误中学习,并逐步改进,直到它变得非常强大。”

到2017年10月,人工智能变得非常强大,它绕过了包含人类输入的专业和业余游戏的强化学习过程,只玩自己的早期版本。新程序AlphaGo Zero以100比0击败了几个月前击败世石的前一个程序,使其成为历史上最伟大的围棋棋手。Deep Mind现在希望将这种逻辑应用到“与围棋等游戏具有相似属性的大量结构化问题上,比如计划任务或需要按照正确顺序采取一系列行动的问题。例如蛋白质折叠、降低能源消耗或寻找革命性的新材料。”

强化身体技能的学习

强化学习技术并不局限于策略游戏。加州大学伯克利分校人工智能研究(BAIR)实验室的研究人员最近展示了一项用YouTube视频来训练人形人模仿动作。利用与AlphaGo类似的方法,BAIR团队开发了一个深度学习神经网络,该网络将在线看到的演员的动作近似为机器人的编程步骤。BAIR团队在其博客中写道:“每分钟有300小时的视频被上传到YouTube,令人震惊。”“不幸的是,对我们的机器来说,从这么大量的视觉数据中学习技能仍然是非常具有挑战性的。”

为了访问这些训练数据的宝库,今天的程序员被迫购买和运送笨重的动作捕捉(mocap)设备来创建自己的演示视频。BAIR的研究人员薛斌(Jason) Peng和Angjoo Kanazawa说:“动作捕捉系统也往往局限于有最小遮挡的室内环境,这可能会限制可以记录的技能类型。”为了应对这一挑战,彭和金泽着手创建一个无缝的AI平台,让无人系统通过解压缩数小时的在线视频剪辑来学习技能。

论文指出:“在这项研究中,我们提出了一个从视频(SFV)中学习技能的框架。通过结合最先进的计算机视觉和强化学习技术,我们的系统使模拟角色能够从视频剪辑中学习各种各样的技能。给定一个演员表演某些技能的单目视频,如侧手翻或后空翻,我们的角色能够学习在物理模拟中重现该技能的策略,而不需要任何手动姿势标注。”

强化学习身体技能

未来的发展

视频通过一个代理传送,该代理将动作分解为三个阶段:“姿势估计、动作重建和动作模仿。”第一阶段预测主体初始姿势后的帧。然后,“运动重建”将这些预测重组为“参考运动”。最后一个过程是用动画角色模拟数据,这些动画角色通过强化学习继续训练。SFV平台实际上是Peng和Kanazawa早期使用动作捕捉视频的系统DeepMimic的升级版。到目前为止,通过普通在线视频获得的20种不同技能的结果令人震惊,如下图所示:

Peng和Kanazawa希望未来可以利用这种模拟使机器在新环境中导航:“即使环境与原始视频中的环境非常不同,学习算法仍然开发出相当合理的策略来处理这些新环境。”该团队也对其对推动移动无人系统发展的贡献表示乐观,“总而言之,我们的框架真的只是采用了任何人在解决视频模仿问题时能想到的最明显的方法。关键在于将问题分解为更易于管理的组件,为这些组件选择正确的方法,并将它们有效地集成在一起。”

BAIR团队谦虚地承认,大多数YouTube视频仍然过于复杂,他们的人工智能无法模仿。奇怪的是,彭于晏和金泽把《江南style》作为其中一个障碍。“我们还有很多工作要做,”研究人员宣称,“我们希望这项工作将有助于激发未来的技术,使特工能够利用大量公开的视频数据,获得一系列真正惊人的技能。”

强化学习身体技能


了下:机器人报告,机器人•机械手•末端执行器


告诉我们你的想法!

相关文章阅读更多>

汽车雷达
汽车雷达的基础知识
软银Whiz清洁机器人可在日本以外的地方使用
CMR外科为Versius手术机器人筹集2.4亿美元
FarmWise在A轮融资1450万美元,用于可持续的机器人农业

设计指南库

“运动

新闻注册

运动控制教室

设计世界数码版

封面

浏览最新的问题的设计世界和背面的问题,易于使用的高质量的格式。剪辑,分享和下载与领先的设计工程杂志今天。

参加电子论坛

全球顶级的EE问题解决论坛,涵盖微控制器,DSP,网络,模拟和数字设计,射频,电力电子,PCB路由等

电子论坛

赞助内容

  • 指定阀汇的10个原因
  • 案例研究:3d打印工具如何节省数千小时和美元
  • WAGO的smartDESIGNER在线为项目提供无缝进展
  • 停止过度设计:如何用轻便的戒指节省时间和金钱
  • 5个原因:2065连接器是手工焊接的可靠替代品
  • 工业自动化中的灾难恢复从源代码控制开始

设计世界播客

2022年3月14日
添加剂如何在航空航天应用中“解开设计的手铐”
参见更多>
工程交易

工程交流是一个面向工程师的全球性教育网络社区。

今天就联系、分享和学习

设计的世界
  • 广告
  • 关于我们
  • 联系
  • 管理您的设计世界订阅
  • 订阅
  • 设计世界数字网络
  • 工程白皮书
  • 飞跃奖

版权所有©2022 WTWH Media LLC版权所有除非事先得到WTWH Media的书面许可,否则不得转载、分发、传输、缓存或以其他方式使用本网站的材料
隐私政策|广告|关于我们

搜索设计世界

  • 首页
  • 技术
    • 3 d CAD
    • 电子•电气
    • 紧固与连接
    • 工厂自动化
    • 线性运动
    • 运动控制
    • 测试与测量
    • 传感器
    • 流体动力
  • 学习
    • 电子书/技术提示
    • 工程周
    • 设计工程的未来
    • MC²运动控制教室
    • 播客
    • 视频
    • 在线研讨会
  • 飞跃奖
  • 领导
    • 2022年的投票
    • 2021年的赢家
  • 设计指南图书馆
  • 资源
    • 3D Cad模型
      • PARTsolutions
      • TraceParts
    • 数字问题
      • 设计的世界
      • EE世界
    • 工程领域的女性
  • 供应商清单
我们使用cookie来个性化内容和广告,提供社交媒体功能,并分析我们的流量。我们还与我们的社交媒体、广告和分析合作伙伴分享关于您使用我们网站的信息,这些合作伙伴可能会将这些信息与您提供给他们的其他信息或他们从您使用他们的服务中收集到的信息结合起来。如果您继续使用本网站,您同意使用我们的cookies。 好吧没有阅读更多