东南教育网您的位置:首页 >机器人 >

我们如何确保机器学习是准确的

导读 科学家越来越依赖经过机器学习训练的模型来为复杂问题提供解决方案。但是,当模型使用的复杂算法不容易被询问或无法向人类解释他们的决定时

科学家越来越依赖经过机器学习训练的模型来为复杂问题提供解决方案。但是,当模型使用的复杂算法不容易被询问或无法向人类解释他们的决定时,我们怎么知道这些解决方案是值得信赖的呢?

这种信任在药物发现中尤其重要。例如,机器学习用于对数百万种潜在有毒化合物进行分类,以确定哪些可能是药物的安全候选者。

罗切斯特大学化学工程副教授 Andrew White在一篇 文章中说:“计算机科学中发生过一些引人注目的事故,模型可以很好地预测事物,但这些预测并不是基于任何有意义的东西。”采访 化学世界。

White 和他的实验室开发了一种新的“反事实”方法,该方法在《 化学科学》中有所描述,可用于任何基于分子结构的机器学习模型,以更好地了解模型如何得出结论。

反事实可以告诉研究人员“会改变预测的特征的最小变化,”主要作者、博士 Geemi Wellawatte 说。怀特实验室的学生。“换句话说,反事实是一个与原作相似的例子,但结果却不同。”

反事实可以帮助研究人员查明模型做出预测的原因以及预测是否有效。

本文确定了三个示例,说明如何使用称为 MMACE(Molecular Model Agonistic Counterfactual Explanations)的新方法来解释原因:

预测一种分子会渗透血脑屏障

预测小分子是可溶的

预计一种分子会抑制 HIV

该实验室必须克服开发 MMACE 的一些重大挑战。他们需要一种可以适应化学中广泛使用的机器学习技术的方法。此外,由于可能的候选分子数量众多,为任何给定场景寻找最相似的分子也具有挑战性。

White 实验室的合著者 Aditi Seshadri 通过建议该小组采用多伦多大学开发的 STONED(超快遍历、优化、新颖性、探索和发现)算法帮助解决了这个问题。STONED 有效地生成类似的分子,作为反事实生成的燃料。Seshadri 是 White 实验室的一名本科生研究员,能够通过名为“Discover”的罗切斯特暑期研究计划为该项目提供帮助。

White 说,他的团队继续改进 MMACE,例如,通过尝试其他数据库来搜索最相似的分子,并改进分子相似性的定义。

免责声明:本文由用户上传,如有侵权请联系删除!