跳动百科

研究人员使用生成人工智能设计新型蛋白质

郝素璧
导读 多伦多大学的研究人员开发了一种人工智能系统,该系统可以使用生成扩散来创建自然界中没有的蛋白质 - 与Midjourney和OpenAI的DALL-E等流

多伦多大学的研究人员开发了一种人工智能系统,该系统可以使用生成扩散来创建自然界中没有的蛋白质 - 与Midjourney和OpenAI的DALL-E等流行的AI图像创建平台背后的技术相同。

该系统将有助于推进生成生物学领域,该领域有望通过使全新治疗性蛋白质的设计和测试更加高效和灵活来加速药物开发。

“我们的模型从图像表征中学习,以非常高的速度产生全新的蛋白质,”多伦多大学Temerty医学院Donnelly细胞和生物分子研究中心教授Philip M. Kim说。“我们所有的蛋白质看起来都是生物物理真实的,这意味着它们折叠成结构,使它们能够在细胞内执行特定功能。

研究结果发表在《自然计算科学》杂志上,是同行评审期刊上的第一篇。去年夏天,Kim的实验室还通过开放访问服务器bioRxiv发布了该模型的预印本,此前还有去年12月的两个类似的预印本 - 华盛顿大学的RF Diffusion和Generate Biomedicines的Chroma。

蛋白质由氨基酸链制成,氨基酸链折叠成三维形状,决定蛋白质功能。这些形状经过数十亿年的演变,种类繁多,复杂且数量有限。

现在,随着对现有蛋白质如何折叠的更好理解,研究人员已经开始利用人工智能原理设计自然界中不产生的折叠模式。

Kim说,一个主要的挑战是想象可能的和功能性的折叠。

“很难预测哪些折叠将是真实的并在蛋白质结构中起作用,”艺术与科学学院Temerty医学和计算机科学学院分子遗传学系教授Kim说。“通过将基于生物物理学的蛋白质结构表示与图像生成空间的扩散方法相结合,我们可以解决这个问题。

研究人员称之为ProteinSGM的新系统来自现有蛋白质的大量图像状表示,这些蛋白质可以准确地编码其结构。

研究人员将这些图像输入到生成扩散模型中,该模型逐渐增加噪声,直到每个图像变成所有噪声。该模型跟踪图像如何变得更嘈杂,然后反向运行该过程,学习如何将随机像素转换为对应于完全新颖蛋白质的清晰图像。

Kim实验室的博士生,该论文的第一作者Jin Sub(Michael)Lee表示,优化该图像生成过程的早期阶段是创建ProteinSGM的最大挑战之一。

“一个关键的想法是蛋白质结构的正确图像状表示,这样扩散模型就可以学习如何准确地生成新的蛋白质,”Lee说,他来自温哥华,但在选择多伦多大学攻读博士学位之前,他在韩国获得了本科学位,在瑞士获得了硕士学位。

同样困难的是验证ProteinSGM产生的蛋白质。该系统产生许多结构 - 通常与自然界中发现的任何东西都不同。根据Lee的说法,根据标准指标,几乎所有它们看起来都是真实的,但研究人员需要进一步的证据。

为了测试他们的新蛋白质,Lee和他的同事首先求助于OmegaFold,这是DeepMind软件AlphaFold 2的改进版本。这两个平台都使用AI来预测基于氨基酸序列的蛋白质结构。

通过OmegaFold,研究小组证实,几乎所有的新序列都折叠成所需的蛋白质结构。然后,他们选择了一个较小的数字在试管中物理创建,以确认结构是蛋白质,而不仅仅是杂散的化合物链。

“通过OmegaFold的匹配和实验室的实验测试,我们可以确信这些是正确折叠的蛋白质。看到这些在自然界中不存在的全新蛋白质折叠得到验证真是令人惊讶,“Lee说。

Kim说,基于这项工作的下一步包括进一步开发用于抗体和其他具有最大治疗潜力的蛋白质的ProteinSGM。“这将是一个非常令人兴奋的研究和创业领域。

Lee希望看到生成生物学朝着蛋白质序列和结构的联合设计方向发展,包括蛋白质侧链构象。大多数研究都集中在骨架的产生上,骨架是将蛋白质结合在一起的主要化学结构。

“侧链配置最终决定了蛋白质功能,尽管设计它们意味着复杂性呈指数级增长,但通过适当的工程可能是可能的,”Lee说。“我们希望能找到答案。”