机器学习算法无需培训即可发现隐藏的科学知识
当然,可以使用计算机下达大师级国际象棋,但是它们可以做出科学发现吗?能源部劳伦斯伯克利实验室的研究人员表明,未经材料科学训练的算法可以扫描数百万篇论文的文本并发现新的科学知识。
由伯克利实验室能源存储和分布式资源部门的科学家Anubhav Jain领导的团队,收集了330万篇已出版的材料科学论文摘要,并将其输入到称为Word2vec的算法中。通过分析单词之间的关系,该算法能够提前几年预测出新的热电材料的发现,并提出迄今未知的材料作为热电材料的候选材料。
贾恩说:“在不谈及材料科学的情况下,它学到了元素周期表和金属的晶体结构等概念。” “这暗示了这项技术的潜力。但是,我们可能发现的最有趣的事情是,您可以使用此算法来解决材料研究中的空白,这是人们应该学习但到目前为止尚未学习的东西。”
研究结果发表在7月3日的《自然》杂志上。该研究的主要作者是“无监督词嵌入从材料科学文献中获取潜在知识”,作者是现任Google伯克利实验室博士后研究员Vahe Tshitoyan。伯克利实验室的科学家克里斯汀·佩尔森(Kristin Persson)和格布兰德·塞德(Gerbrand Ceder)与Ja那教徒一起领导了这项研究。
塞德说:“该论文确定了科学文献的文本挖掘可以发现隐藏的知识,而基于文本的纯文本提取可以建立基本的科学知识。”塞德说,他还曾在加州大学伯克利分校材料科学与工程系任职。
Tshitoyan表示,该项目的动机是难以理解大量已发表的研究成果。他说:“在每个研究领域,都有100多年的研究文献,而且每周都会有更多的研究出来。” “研究人员只能访问其中的一小部分。我们认为,机器学习是否可以在无监督的情况下做一些事情来利用所有这些集体知识,而无需人类研究人员的指导?”
“国王–皇后+男人=?”
该团队从1922年至2018年间在1000多种期刊中发表的论文中收集了330万个摘要。Word2vec提取了这些摘要中大约500,000个不同的词中的每个词,并将每个词转换为200维向量或200个数字的数组。
贾恩说:“重要的不是每个数字,而是使用数字来查看单词之间的相互关系。”该团队负责研究和设计用于能源应用的新材料,并结合了理论,计算和方法。数据挖掘。“例如,您可以使用标准向量数学减去向量。其他研究人员表明,如果您在非科学文本源上训练该算法,并采用“国王减去女王”的结果,那么您将获得与“男人减去女人”相同的结果。它会弄清楚这种关系,而无需您一言不发。”
类似地,在材料科学课本上接受训练时,该算法能够仅根据摘要中词语的位置以及它们与其他词语的共存来学习科学术语和概念的含义,例如金属的晶体结构。例如,就像它可以解决方程式“国王–皇后+人”一样,它可以弄清楚对于方程式“铁磁性– NiFe + IrMn”,答案将是“反磁性”。
当每个化学元素的向量投影到二维时,Word2vec甚至能够了解元素周期表中元素之间的关系。
提前几年预测发现
因此,如果Word2vec如此智能,它可以预测新颖的热电材料吗?优质的热电材料可以将热量有效地转化为电能,并且由安全,丰富且易于生产的材料制成。
伯克利实验室团队采用了该算法建议的最佳热电候选物,该算法根据其词向量与“热电”一词的相似性对每种化合物进行排名。然后,他们进行计算以验证算法的预测。
在前十项预测中,他们发现所有计算出的功率因数均略高于已知热电的平均值。前三名候选人的功率因数高于已知热电设备的95%。
接下来,他们测试了该算法是否只能通过给出最多2000年的摘要来“过去”进行实验。同样,在最高的预测中,以后的研究中出现了大量的预测–是材料的四倍。刚被随机选择。例如,迄今已发现使用截至2008年的数据训练的前五项预测中的三项,其余两项包含稀有或有毒元素。
结果令人惊讶。贾恩说:“老实说,我并不期望算法能对未来的结果如此预测。” “我曾经以为该算法可以描述人们以前所做的事情,但不能提出这些不同的联系。当我不仅看到这些预测,而且还看到这些预测背后的原因时,我感到非常惊讶,例如半霍斯勒结构,这是当今热电学中一种非常热的晶体结构。”
他补充说:“这项研究表明,如果更早地采用这种算法,可以想象到一些材料会提前几年被发现。” 随着研究的进行,研究人员将发布算法预测的前50种热电材料。如果人们想寻找更好的拓扑绝缘体材料,他们还将发布人们自己制作应用程序所需的单词embedding。
Jain接下来说,该团队正在开发一个更智能,更强大的搜索引擎,使研究人员能够以更有用的方式搜索摘要。
这项研究是由丰田研究所资助的。其他研究的共同作者是伯克利实验室的研究人员John Dagdelen,Leigh Weston,Alexander Dunn和Ziqin Rong,以及加州大学伯克利分校的研究员Olga Kononova。