DeepMind建立了可以预测蛋白质如何折叠的AI
Alphabet Inc.的DeepMind人工智能部门取得了另一项科学成就。
该小组今天早上透露,它已经建立了一个能够应对当今生物学最大挑战之一的AI系统:模拟蛋白质的形状。
该系统被称为AlphaFold,花费了不少于两年的时间。DeepMind决定在由美国国立普通医学科学研究所举办的CASP模拟竞赛中轻松击败其他97种算法后宣布该项目。
几乎在每个生物过程中都起作用的蛋白质是扭曲并折叠成各种形式的氨基酸链。蛋白质的形状是决定其行为的主要因素之一。对这些构型的更好理解可以使科学家们获得对被认为是蛋白质折叠错误引起的疾病的新见解,并发现可能对药物开发有用的分子。
根据DeepMind的说法,AlphaFold代表着实现这一目标的“重大进展”。该系统可以仅根据蛋白质包含的氨基酸来计算预测蛋白质将被摄取的成分,其准确度被Alphabet子公司描述为远高于现有方法。考虑到手动模拟平均大小的蛋白质的每种可能构型所花费的时间要比宇宙的寿命长,这可不是小事。
AlphaFold将任务分为两部分。首先,系统使用有关蛋白质组成氨基酸的信息来生成其默认(即展开)结构的三维模型。
DeepMind解释说:“我们的网络预测的特性是:(a)氨基酸对之间的距离以及(b)连接这些氨基酸的化学键之间的角度。” “我们训练了神经网络,以预测蛋白质中每对残基之间距离的独立分布。然后将这些概率合并为一个分数,以评估拟议的蛋白质结构的准确性。”
准备好3-D模型后,AlphaFold会确定最可能采取的蛋白质形状。通过利用所有蛋白质都倾向于折叠成可用的最节能形式的事实来做到这一点,这有助于缩小可能性。AI会尝试3-D模型的不同变体以生成更有效的版本,直到找到最佳形式为止。
“我们的第一种方法建立在结构生物学中常用的技术之上,并用新的蛋白质片段反复替换蛋白质结构的各个部分,” DeepMind说道。“第二种方法通过梯度下降来优化得分,梯度下降是机器学习中常用的一种数学技术,用于进行细微的增量改进,从而得到了高度精确的结构。”
据《卫报》报道,AlphaFold最初花费了两周时间来生成预测,但现在可以在几个小时内完成任务。通过准确预测提供的43种蛋白质中的25种,它击败了CASP模拟竞赛中测试的97种其他算法。亚军正确地预测只有三个。