如今的机器学习(ML)系统通过实例进行学习,通过吸收大量人工分析人员单独标记的数据来生成所需的输出。随着这些系统的发展,深度神经网络(DNN)已经成为最先进的ML模型。DNN能够以更高的精确度为机器翻译、语音或物体识别等任务提供动力。然而,训练DNN需要大量的标记数据——通常是10个9或1010培训例子。减速和标记这座信息的过程昂贵且耗时。
除了积累标记数据的挑战之外,大多数ML模型都是脆弱的,当运行环境发生微小变化时,它们很容易崩溃。例如,如果房间的声学或麦克风传感器发生变化,语音识别或扬声器识别系统可能需要在一个全新的数据集上进行重新训练。调整或修改一个模型所花费的时间和精力几乎与从头创建一个模型一样多。
为了减少与训练和调整ML模型相关的前期成本和时间,美国国防部高级研究计划局(DARPA)推出了一个名为“少标签学习”(LwLL)的新项目。通过lll, DARPA将研究新的学习算法,这将大大减少训练或更新所需的信息量。
“LwLL下,我们正试图减少所需的数据量。那个从头开始构建一个模型,并减少适应模型所需的数据量从数百万到数百标签的例子,”韦德沈说,DARPA项目经理的信息创新办公室(I2O)领导LwLL程序。“这就是说,今天需要100万张图像来训练一个系统,将来只需要一张图像,或者需要大约100个标签示例来适应一个系统,而不是今天需要的数百万张。”
为了实现这一目标,lll研究人员将探索两个技术领域。第一个重点是构建有效学习和适应的学习算法。研究人员将研究和开发能够在不牺牲系统性能的前提下,通过既定的程序指标减少所需标记示例数量的算法。“我们鼓励研究人员在元学习、迁移学习、主动学习、k-shot学习和有监督/无监督适应等领域创造新的方法来解决这一挑战,”沈说。
第二种技术领域挑战研究团队正式表征机器学习问题,无论是在他们的决策困难方面,都是用来做出决定的数据的真正复杂性。“今天,很难了解我们在建造ML系统或模型的准确性水平范围内存在的基本限制有效。在LWLL下,我们希望找到ML中可能的理论限制,并使用该理论推动系统开发和能力的界限,“沉。
了下:工业自动化




