科技日报记者 张梦然
在今年诺贝尔化学奖表彰计算蛋白质设计领域的重大进展后,美国能源部阿贡国家实验室团队宣布开发出一种名为MProt-DPO的创新计算框架,该框架利用人工智能(AI)和世界顶尖的超级计算机,推动蛋白质设计取得新突破。这一成就标志着向AI自主科学发现迈出了重要一步。
MProt-DPO框架的关键在于其能将传统的蛋白质序列数据与实验结果、分子模拟及基于文本的叙述相结合。这一特性有望大幅加速蛋白质发现,特别是在疫苗开发和环保酶设计等领域。
蛋白质设计的核心挑战之一是从氨基酸序列预测蛋白质的三维结构及其功能。由于蛋白质的氨基酸组成极其复杂,即使是微小变化也会导致成千上万种不同的可能性。因此,传统实验方法难以高效完成。鉴于此,团队结合了大型语言模型(LLM)和超级计算机的强大算力。
团队利用了包括阿贡国家实验室的“极光”在内的多个顶级超级计算机。这些超算不仅支持模型训练和微调,还能够执行大规模的分子模拟,验证所设计蛋白质的稳定性和催化活性。MProt-DPO框架已经在多个平台上实现了超过1 exaflop(百亿亿次浮点运算)的持续计算,其中在“极光”上的峰值算力达到了5.57 exaflop。
MProt-DPO框架的算法使得AI模型可以从结果中学习,不断改进设计。这种方法类似于人类专家根据实验结果调整研究方向的过程,但速度更快,处理的数据量更大。
团队已在两项蛋白质设计任务上测试了MProt-DPO框架,分别是优化酵母蛋白HIS7的突变性能和提高苹果酸脱氢酶的催化效率。结果显示,AI设计的蛋白质表现良好,达到了预期效果。
团队称,新框架不仅能够从海量“候选者”中筛出有潜力的蛋白质,还能探索自然界中尚未存在的蛋白质。这促进了生物技术和医药领域的创新与发展,对于应对全球健康和环境问题具有重要意义。