一种新的用于分析材料“配方”的机器学习系统使用了一种变分自动编码器,它将数据(左边的圆圈)压缩成更紧凑的形式(中间的圆圈),然后再将其重新扩展成原来的形式(右边的圆圈)。如果自动编码器被成功地训练,紧凑的表示将捕获数据最显著的特征。图片来源:切尔西·特纳/麻省理工学院
上个月,麻省理工学院的三位材料科学家和他们的同事发表了一篇论文,描述了一种新的人工智能系统它可以仔细阅读科学论文,并提取生产特定类型材料的“配方”。
该工作被设想为朝向系统的第一步,该系统可以发起理论上仅描述的材料的食谱。现在,在期刊中的一篇论文中npj计算材料, the same three materials scientists, with a colleague in MIT’s Department of Electrical Engineering and Computer Science (EECS), take a further step in that direction, with a new artificial-intelligence system that can recognize higher-level patterns that are consistent across recipes.
例如,新系统能够识别材料配方中使用的“前体”化学物质与所得产物的晶体结构之间的相关性。事实证明,它在文献中被记录了相同的相关性。
该系统还依赖于提供用于产生原始配方的自然机制的统计方法。在本文中,研究人员使用这种机制来推荐已知材料的替代食谱,并且建议与真正的食谱很好。
这篇新论文的第一作者是材料科学与工程研究生爱德华·金(Edward Kim)。高级作者是他的导师,Elsa Olivetti,材料科学与工程系(DMSE)大西洋里奇菲尔德能源研究助理教授。DMSE博士后Kevin Huang和X-Window联盟EECS职业发展助理教授Stefanie Jegelka也加入了他们的行列。
稀疏和稀缺
与过去10年许多表现最好的人工智能系统一样,麻省理工学院的研究人员的新系统是一个所谓的神经网络,它通过分析大量的训练数据来学习执行计算任务。传统上,使用神经网络生成材料配方的尝试遇到了两个问题,研究人员称之为稀疏和稀缺性。
任何材质的配方都可以用矢量表示,矢量本质上是一长串数字。每个数字都代表了配方的一个特征,比如特定化学物质的浓度,溶解它的溶剂,或者反应发生的温度。
由于任何给定的食谱都将仅使用文献中描述的许多化学品和溶剂中的一些,因此这些数字的大多数将为零。这就是研究人员的意思“稀疏”。
类似地,要了解如何改变反应参数 - 例如化学浓度和温度 - 可以影响最终产品,理想情况下,系统将在大量的示例中培训,其中这些参数变化。但对于一些材料 - 特别是更新的材料 - 文献可能只包含一些食谱。这是稀缺的。
“人们认为,机器学习需要大量数据,如果数据很少,就需要更多数据,”金说。“当你试图专注于一个非常具体的系统,你被迫使用高维数据,但你没有很多,你还能使用这些神经机器学习技术吗?”
神经网络通常被安排成层,每层由数千个简单的处理单元或节点组成。每个节点都与上下两层中的几个节点相连。数据被输入到底层,底层对数据进行操作并将其传递到下一层,下一层对数据进行操作并将其传递到下一层,以此类推。在训练过程中,不断地调整节点之间的连接,直到最后一层的输出一致地接近某些计算的结果。
稀疏、高维数据的问题是,对于任何给定的训练示例,底层的大多数节点都不接收数据。这将需要一个非常大的训练集,以确保网络作为一个整体看到足够的数据,以学习做出可靠的概括。
人为的瓶颈
麻省理工学院研究人员的网络的目的是将输入向量蒸馏成更小的向量,所有数字都对每个输入都有意义。为此,网络中的中间层只有几个节点 - 只有两个,在一些实验中。
培训的目标只是配置网络,以便其输出尽可能接近其输入。如果培训成功,那么中间层中的少数节点必须以某种方式代表输入向量中包含的大多数信息,但是以更大的压缩形式。这样的系统,其中输出尝试匹配输入,称为“autoencoders”。
自编码补偿了稀疏性,但为了处理稀缺性,研究人员不仅训练他们的网络制作特定材料的配方,还训练他们制作非常相似的材料的配方。他们采用了三种相似的方法,其中一种方法是在保持晶体结构的同时,尽量减少材料之间的差异——比如,用一个原子替换另一个原子。
在训练过程中,网络给示例菜谱的权重根据它们的相似度评分而变化。
扮演赔率
事实上,研究人员的网络不仅仅是一个自动编码器,而是一个所谓的变分自动编码器。这意味着,在训练过程中,评估网络的不仅要看其输出与输入的匹配程度,还要看中间层得到的值是否符合某种统计模型,比如熟悉的钟形曲线或正态分布。也就是说,在整个训练集上,中间层的值应该围绕中心值聚类,然后在各个方向上以规则的速度逐渐减少。
在训练了一个带有两节点中间层的变分自动编码器,以了解二氧化锰和相关化合物的配方后,研究人员构建了一个二维地图,描绘了两个中间节点对训练集中每个示例的值。
值得注意的是,使用相同前体化学物质的训练例子在地图上的相同区域,区域之间有明显的边界。同样的情况也发生在产生四种二氧化锰常见“晶型”或晶体结构的训练例子上。结合这两种映射,可以看出特定的前驱体和特定的晶体结构之间的相关性。
“我们认为这些区域是连续的,这很酷,”Olivetti说,“因为没有理由说这一定是真的。”
变形性自动编码也是研究人员系统生成新配方的原因。因为中间层上的值粘附在概率分布上,所以从随机分布挑选该值可能会产生合理的配方。
Jegelka说:“这实际上涉及了目前机器学习领域非常感兴趣的各种话题。”“使用结构化对象进行学习,允许与专家进行解释和交互,并生成结构化的复杂数据——我们整合了所有这些。”
Citrine Informatics的创始人和首席科学家布莱斯·梅雷迪格(Bryce Meredig)说:“‘可合成性’是一个例子,它是材料科学的核心概念,但却缺乏一个良好的基于物理学的描述。”Citrine Informatics是一家将大数据和人工智能技术应用于材料科学研究的公司。“因此,由于无法合成出预测的材料,用于新材料的计算屏幕多年来一直受到阻碍。Olivetti和同事们采用了一种新颖的、数据驱动的方法来绘制材料合成图,并为我们能够通过计算识别材料做出了重要贡献,这些材料不仅具有令人兴奋的特性,而且还可以在实验室中实际制作。”
该研究得到了国家科学基金会,加拿大自然科学和工程研究委员会,美国海军研究,麻省理工学院能源倡议和美国能源部基本能源科学计划。
提交:快速原型设计



