21个物种的“阿尔法折叠2”结构模型中特征结构元素的空间。图片来源:《自然·结构与分子生物学》
科技日报实习记者 张佳欣
据最近发表在《自然·结构与分子生物学》上的论文,包括西班牙何塞·卡雷拉斯白血病研究所癌症免疫遗传学小组负责人爱德华·波尔塔博士在内的一个团队,比较了现有可用的新结构得出结论:“阿尔法折叠2”为任何给定物种贡献了额外25%的高质量蛋白质结构。
“阿尔法折叠2”是深度思维公司开发的一种神经网络,专门用于根据蛋白质的氨基酸序列精确解析蛋白质的3D结构。
“阿尔法折叠2”数据库已经发布了21种模式生物的典型蛋白质亚型的预测,几乎涵盖了365198个蛋白质中的每一个残基。这大约是蛋白质结构数据库(PDB)中实验结构数量的两倍,独特蛋白质数量的六倍。
许多蛋白质在癌症等疾病中发挥的关键作用已为人所知,但科学家缺乏对它们在分子水平上的功能的深入了解。这些结构信息将帮助科学家更好地了解这些蛋白质,了解它们可能在细胞内与哪些其他分子相互作用,并设计能够在它们改变时干扰其功能的新药。
“阿尔法折叠2”的功能也有局限性。团队发现,该算法在试图重建蛋白质复合体时存在问题。大多数蛋白质与其他蛋白质一起完成生物功能,因此极其需要预测不同蛋白质是如何粘在一起的。另一个局限性是它无法显示突变蛋白质的结构,突变通常会导致蛋白质功能异常,是癌症等许多疾病的原因。
尽管如此,团队认识到“阿尔法折叠2”将在未来几年极大地影响基础和生物医学研究。这不仅归功于它的直接贡献,即数千个新的可靠的3D蛋白质模型,而且还因为它开启了一个基于人工智能的计算工具的新时代,能够产生没有人能预料的结果。
事实上,这个时代已经开始了。最近,“脸书”母公司Meta的一个团队使用了其自然语言预测器的修改版本来“自动补全”蛋白质。这款名为ESMFold的人工智能工具似乎没有谷歌的同类工具那么准确,但速度要快60倍,并可以克服一些已知的“阿尔法折叠2”的局限性,例如处理突变的序列。
正如论文作者所言,“‘阿尔法折叠2’和即将到来的工具的应用将对生命科学产生革命性的影响”。