新的机器学习方法可以加速生物工程
能源部劳伦斯·伯克利实验室(Berkeley Lab)的科学家们已经开发出一种使用机器学习的方法,可以极大地加速产生生物燃料的微生物的设计。他们的计算机算法从大量有关产生生物燃料的微生物途径中蛋白质和代谢产物的数据开始,但没有有关该途径实际运作方式的信息。然后,它使用来自先前实验的数据来学习该途径的行为。科学家使用该技术来自动预测已添加到大肠杆菌细菌细胞中的途径产生的生物燃料量。
这种新方法比目前预测途径行为的方法快得多,并且有望加快商业应用生物燃料以外的生物分子在许多应用中的开发速度,例如对抗抗生素抗性感染的药物和可抵抗干旱的农作物。 。
该研究于5月29日发表在《自然系统生物学与应用》杂志上。
在生物学中,途径是细胞中产生特定化合物的一系列化学反应。研究人员正在探索重新设计途径并将途径从一种微生物导入另一种途径的方法,以利用自然界的工具包来改善医学,能源,制造业和农业。而且由于有了新的合成生物学功能,例如基因编辑工具CRISPR-Cas9,科学家可以前所未有的精度进行这项研究。
DOE Agile BioFoundry小组负责人,DOE生物能源研究中心Joint BioEnergy Institute(EI)定量代谢模型主任,由DOE科学办公室资助的Hector Garcia Martin说:“但是开发过程中存在很大的瓶颈。”由伯克利实验室(Berkeley Lab)领导。这项研究是由扎克·科斯特洛(Zak Costello)(也是与敏捷生物基金会(Agile BioFoundry)和EI一起)在加西亚·马丁(Garcia Martin)的指导下进行的。两位研究人员也都在伯克利实验室的生物系统和工程部工作。
“很难预测重新设计后的路径将如何表现。故障排除占用了我们99%的时间。我们的方法可以大大缩短这一步骤,并成为指导生物工程工作的新方法。”加西亚·马丁补充说。
当前预测路径动力学的方法需要迷宫式的微分方程,这些微分方程描述了系统中各个组件如何随时间变化。学科领域的专家在几个月内开发了这些“动力学模型”,并且得出的预测并不总是与实验结果相符。
但是,机器学习使用数据来训练计算机算法来进行预测。该算法通过分析来自相关系统的数据来学习系统的行为。即使有足够的数据可以使用,这也使科学家能够快速预测该通路的功能,即使对该通路的机理了解甚少。
科学家在添加到大肠杆菌细胞的途径中测试了他们的技术。一种途径被设计来生产称为li烯的生物基喷气燃料;另一个生产称为异戊烯醇的汽油替代品。EI先前的实验产生了大量数据,这些数据与不同版本的途径在各种大肠杆菌菌株中的功能有关。一些菌株具有产生少量柠檬烯或异戊烯醇的途径,而其他菌株具有产生大量生物燃料的形式。
研究人员将这些数据输入他们的算法中。然后机器学习接手了:该算法自学了这些途径中代谢物的浓度如何随时间变化,以及这些途径产生了多少生物燃料。它通过分析来自两种实验性已知途径(产生少量和大量生物燃料)的数据来学习这些动态。
该算法使用此知识来预测该算法从未见过的第三组“神秘”路径的行为。它准确地预测了神秘途径的生物燃料生产概况,包括途径产生了中等量的燃料。此外,机器学习衍生的预测优于动力学模型。
“我们添加的数据越多,预测就越准确,”加西亚·马丁(Garcia Martin)说。“这种方法可以加快设计新生物分子的时间。今天的项目需要十年的时间,一个专家团队有一天可以由一名暑期学生来处理。”
这项工作是能源部能源效率和可再生能源办公室支持的能源部敏捷生物铸造工厂的一部分,以及能源部科学办公室支持的联合生物能源研究所的一部分。