人工智能专题| 复旦大学李剑锋教授:深度学习与蛋白质折叠预测的那些事儿

2024年诺贝尔化学奖授予戴维·贝克(David Baker)、德米斯·哈萨比斯(Demis Hassabis)和约翰·江珀(John M.Jumper),以表彰他们在蛋白质结构预测领域的开创性贡献。其中哈萨比斯和江珀开发的AlphaFold2人工智能模型,是一项基于深度学习和神经网络技术的算法,它可以从蛋白质的氨基酸序列预测蛋白质的三维结构。借助它,能够预测人类所知的2亿种蛋白质结构。

在2022年,复旦大学李剑锋教授团队就撰写了一篇综述,评述了近些年来蛋白质折叠预测的代表性进展,其中重点介绍了AlphaFold2的算法。

天然蛋白质通过调节一维氨基酸序列信息,能够精准地制备具有特殊的三维空间结构的蛋白质分子,实现特定的生理功能。而蛋白质结构预测希望代替大自然通过各种方法从一维序列信息推断其三维空间结构。蛋白质结构预测问题提出至今已困扰我们五十多年。近十多年来,新的预测方法手段不断涌现,特别是基于深度学习的AlphaFold算法近几年在世界著名的蛋白质折叠预测大赛中的突出表现赢得了广泛的关注。

在本综述中,复旦大学李剑锋教授研究团队结合团队多年的研究经历,侧重评述了近些年来蛋白质折叠预测的代表性进展。为了提升读者对该方向的整体认识,笔者介绍了蛋白质预测的基础概念,特别地介绍了序列比对、打分矩阵、PDB等概念;并概述了深度学习的原理与常用的神经网络及算法。接着总结了蛋白质预测的传统方法,侧重介绍了基于模板的预测方法和无模板方法。梳理了早期在蛋白质预测领域用到的基于数据驱动和深度学习的各类方法。最后重点介绍了AlphaFold2的算法,此算法目前预测准确率达到了中低分辨率的实验精度,也即它几乎解决了单域蛋白质预测的难题。笔者认为AlphaFold2算法中的许多技巧对高分子材料结构预测研究有极高的借鉴价值。最后,笔者梳理了当前蛋白质折叠预测与普通分子结构预测研究的难题和挑战,对这一快速发展方向和一段时间内可能的突破进行了展望。

image.png

上述工作以综述形式在《高分子学报》2022年“材料基因组专题”印刷出版,王天尧硕士是该论文的第一作者,李剑锋教授为通讯作者。

李剑锋,男,1980年生。1999~2010年于复旦大学高分子科学系获得学士、硕士、博士学位;2007~2009年在加拿大McMaster大学公派出国留学生;2012~2013年复旦大学高分子系讲师,2013~2019年复旦大学高分子系副教授。2019年至今,复旦大学高分子系教授。主要从事高分子缠结理论、机器学习在高分子物理中的应用、非平衡热力学方法、大脑理论模型构建等方面研究。

引用本文:

王天尧,李剑锋.

深度学习在蛋白质结构预测中的应用及启示.

高分子学报. 2022,53(6), 581-591.

Wang Tian-yao,Li Jian-feng.

Application of Deep Learning in Protein Structure Prediction and Its Inspirations.

Acta Polymerica Sinica.2022,53(6), 581-591.

doi:10.11777/j.issn1000-3304.2021.21401

原文链接:http://www.gfzxb.org/thesisDetails#10.11777/j.issn1000-3304.2021.21401

Leave a Reply

Your email address will not be published. Required fields are marked *

科研杂谈,如涉及版权问题请联系 [email protected]