从计算机跨界生物学,坐了10年冷板凳后,他开创蛋白质预测新范式

作者丨刘杨楠

编辑丨海腰

图源丨分子之心官网

2024年,在世界政府峰会上,阿联酋人工智能部长问黄仁勋:“如果站在科技的前沿,人们到底应该学习什么?”

老黄的回答是:“人人都必须学会计算机的时代过去了,人类生物学才是未来。”这种制造反差的技巧,在脱口秀圈被称为“预期违背”。

实际上,英伟达一直在用实际行动为这个答案做铺垫。2023年以来,英伟达旗下投资部门NVentures至少投资了12家AI制药企业;今年3月的GTC期间,与医疗保健和生命科学相关的会议共有90场,在具体行业分布中排名第一。

全球科技巨头都保持着很好的默契。除英伟达外,谷歌、微软、亚马逊、Salesforce,以及国内的百度、阿里巴巴、腾讯、华为、字节跳动等科技巨头均在AI制药领域有大量布局。

在大模型浪潮带动下,国内AI制药领域的投融资态势也同样火热。据《财经》报道,在中国,2024年上半年发生AI制药融资22起,较前两年同期15起、16起明显回升;融资金额18.09亿元,亦较2023年同期增长11.6%。

9月13日,国内AI蛋白质设计企业分子之心宣布完成数亿元A轮融资,由谢诺投资、深创投联合领投,商汤国香资本、久奕投资跟投。分子之心成立于2022年1月,公司成立100天之际,便获红杉中国领投的数千万美元天使轮融资。过去两年,分子之心共获3轮融资,过往投资方包括合成生物学龙头企业凯赛生物、红杉中国、百度BV、联想创投等知名机构。

从计算机跨界生物学,坐了10年冷板凳后,他开创蛋白质预测新范式

分子之心能够获得投资者的青睐,离不开其创始人许锦波。

许锦波被誉为“AI预测蛋白质结构全球第一人”。他是麻省理工学院博士后,曾任美国芝加哥丰田计算技术研究所终身教授、基因测序巨头Illumina的Senior Fellow,多次荣获美国斯隆研究奖、美国自然科学基金早期职业奖、《PLoS Computational Biology》创新突破奖、国际计算生物学顶级会议 RECOMB 最佳论文奖和时间检验奖等国际顶级奖项。

2016年,许锦波开发的RaptorX-Contact方法,首次证明了深度学习可以大幅提高蛋白质结构预测的准确性,甚至开创了一种蛋白质结构预测的新范式。

但在取得这个划时代的成就前,许锦波大多时间,都辗转在巨大的静默里。

从计算机跨界生物学,坐了10年冷板凳后,他开创蛋白质预测新范式

计算机博士变身生物学“小白”

“我叫许锦波,我是个计算生物学家。”

在2022年4月的一次演讲中,许锦波这样介绍自己。当时分子之心已成立3个月,拿到了红杉中国领投的数千万美元天使轮融资。

计算生物学是一门十分年轻的交叉学科。简单来看,计算生物学就是利用数学模型、计算机模拟和统计方法来研究生物学问题,侧重于数据分析和理论方法的开发与应用,以理解生物系统的结构、动态行为和演化过程。

因此,“生物学家”与“计算生物学家”虽仅有两字之差,工作内容却是天差地别。生物学家基本每天都在摆弄各种试管、试剂;而计算生物学家每天要在虚拟世界构建算法、分析数据。

从计算机跨界生物学,坐了10年冷板凳后,他开创蛋白质预测新范式

许锦波在“科普中国-我是科学家”第37期“健康的防线”演讲中展示自己的工作台面

在许锦波人生的前27年里,几乎和生物学没有太多交集。

1991年,许锦波因曾在全国高中数学联赛中获江西赛区第一名,被临川一中保送至中国科学技术大学计算系。1999年,他获得中科院计算所硕士学位后,便赶赴加拿大继续深造,在滑铁卢大学攻读计算机博士学位。

2001年,当时的博导李明给了许锦波一个提议:“有一个很难的问题,就是研究蛋白质折叠,想不想做?”

早在20世纪初,科学家们就已经开始研究蛋白质的结构和功能,并且普遍认为蛋白质才是遗传信息的载体。直到1953年,科学家首次证明,DNA才是真正的遗传物质。

2001年,“人类基因组计划”取得最新突破,美、日、德、法、英、中等6国科学家和美国塞莱拉公司联合公布人类基因组图谱及初步分析结果。这次公布的人类基因组图谱更加准确、清晰、完整。科学家还发现,与蛋白质合成有关的基因只占整个基因组不到2%。

关于基因与蛋白质的关系,印度裔美国医生、科学家、作家悉达多·穆克吉曾在《基因传》一书中有很形象的表述:

“无论是细菌、大象、红眼果蝇还是王公贵族,生物信息始终以某种原始的方式在生命体系中有条不紊地流动:其中DNA经过转录形成RNA,然后RNA通过翻译合成蛋白质,并且最终由蛋白质构建结构并且执行功能,从而让基因展现出无穷无尽的生命力。”

然而,由于蛋白质结构繁杂且变化多端,自然界中的蛋白质能在几毫秒内自发折叠,无数生物学家在其中深耕几十年而无果。但尽管如此,考虑到蛋白质结构预测问题的难度和重要性,生物知识仅有高中水平的许锦波,还是决定接过导师给的课题,开始一篇一篇啃生物学论文。

“当时觉得这个问题很有趣,也非常重要,并且非常难,”他曾对媒体解释过投身蛋白质折叠预测的原因,“当我们选择研究课题的时候,通常要选择一些比较重要和困难的问题,因为如果这个问题不重要的话,就白花时间去研究了,没有人在乎;如果这个问题不那么难,可能几年之内就被别人做出来了,其实也没有多大意义”。

至于最终结果,许锦波没想太多,“如果一点结果都做不出来也没关系,到时候大不了去硅谷写代码,当码农”。

从计算机跨界生物学,坐了10年冷板凳后,他开创蛋白质预测新范式

蛋白质折叠预测的少数派

事实证明,许锦波不仅做出了成果,还由此开创了蛋白质折叠预测的新范式。

许锦波曾提及自己做科研的两个标准:做研究要有原始创新,要尽可能地做一些原创的、从0到1的工作;而从产业角度出发,要学以致用,研发出来的东西是否能解决真实的问题和重要的问题。

在这两条标准的指引下,他大胆选择了一条少有人走的路。

很长一段时间内,结构生物学家们用X射线晶体学、核磁共振波谱学(NMR)、冷冻电镜(Cryo-SEM)三种实验技术解析了很多蛋白质的结构。这个方法有许多弊端,例如,用时长、费用高,而且并非所有蛋白质的三维构型都能用这些实验技术解析。

因此,科学家们开始尝试用计算的方法,预测蛋白质结构。

1972年,诺贝尔化学奖得主、美国科学家克里斯蒂安·安芬森(Christian Anfinsen)提出了一个著名假设:蛋白质的3D折叠结构,完全取决于它的氨基酸序列。

通俗来讲,每一个氨基酸分子都由若干原子通过化学键链接而成,若干氨基酸分子又通过各种化学键链接构成蛋白质。因此,在安芬森的假设下,蛋白质结构预测的问题,就被“转化”为对氨基酸分子序列的预测。

而在氨基酸序列折叠的过程中,遵循着物理学的“最小能量原理”,即在没有外部干扰的情况下,一个系统会自然趋向于能量最低的状态,这也是系统最稳定的状态。因此,找到氨基酸序列折叠后形成的能量最低的构象,就可以预测蛋白质结构。

从计算机跨界生物学,坐了10年冷板凳后,他开创蛋白质预测新范式

然而,许锦波曾向媒体解释,这种方法存在两个弊端:“第一,一个蛋白质是一个非常大的体系,由成千上万个原子组成,对应一个非常巨大的搜索空间,构型是千变万化的。”另外,“虽然说大家普遍接受蛋白质折叠到最小能量状态,但能量函数到底是什么样的?我们本身就对能量函数的理解还不是特别好。”

于是,2006年,许锦波尝试跳出传统的“能量优化”思路,引入机器学习。当时,机器学习发展尚在早期,关注到这门新技术的人并不多,用机器学习来预测蛋白质结构的更是少数。

很快,许锦波发现机器学习仍有很大局限。传统的机器学习是直接把蛋白质的氨基酸序列映射到一个三维构型上,比基于物理或是统计的方法结果好一些,但预测准确性和效率都不理想。

因此,蛋白质预测一度成为“冷门”选项,很多人换了方向,而留下来继续研究的人一度连研究经费都很难申请。“过去这个领域一直比较冷清,特别是在2006年到2016年这10年间,当时大家都觉得这个问题是没办法做出来的,所以很多人都离开这个领域去做其他的问题了。”许锦波后来回忆道。

直到2012年,AI界拉开深度学习革命,许锦波再次成为“第一个吃螃蟹的人”。

2014年,许锦波开始带领团队尝试用深度学习解决这个问题。当时,生物学界很少有人关注到深度学习,以至于团队的学生对许锦波提出的任务很是不解,研究结果并不理想。

2016年,许锦波开始亲自写代码,带领团队开发出一种可以直接用来预测蛋白质三维结构的深度学习算法,也就是后来为人熟知的RaptorX-Contact方法,首次证明了深度学习在蛋白质结构预测问题上的可行性。由于使用了深度学习算法,研究人员只需给计算机输入氨基酸序列,告诉计算机这些序列对应的真实结构或者实验结构,就可以让计算机学会自主预测蛋白质结构。

从计算机跨界生物学,坐了10年冷板凳后,他开创蛋白质预测新范式

2018年,DeepMind继承许锦波团队的方法,开发了AlphaFold。CASP比赛创办者,现任马里兰大学细胞生物学和分子遗传学系教授的约翰·莫尔特曾评价道:“DeepMind在开发一种非常有效的方法方面做得很好。然而,这项工作背后的概念和方法并非凭空而来,关键技术是深度学习方法的应用。毫无疑问,DeepMind直接建立在许锦波的工作之上。”

2年后,DeepMind推出AlphaFold 2,用注意力机制网络取代卷积神经网络处理蛋白质序列,揭示了蛋白质内部氨基酸之间的空间关联,并在第14届CASP上刷新了预测精度的最高记录。

或许有人会问,许锦波教授是第一个将卷积神经网络用于蛋白质结构预测的人,为什么没能将传奇延续到注意力机制网络的技术范式中?

资源是一个主要门槛。由于注意力机制网络需要消耗大量计算资源,而算力资源和顶尖人才大多聚集在微软、谷歌等科技巨头手中,高校及其他研究机构很难获得高密度的人才和算力资源。

“学术界没有人有这么多资源去做这件事情。”许锦波曾坦言,团队也曾在2020年尝试将注意力机制网络简化,尝试让它在现有的计算资源上跑起来,“我们没有几百块GPU”。此外,许锦波认为,AlphaFold 2真正令人吃惊的地方在于,“他们能够一下子调动30个人去做这个事情,能够把它实现得非常好”。

与此同时,就像OpenAI推出ChatGPT后,国内很多企业重现ChatGPT一样,当时国内很多企业也试图重现AlphaFold 2的效果。但许锦波对此并不太认同,他曾呼吁,重复实现DeepMind的AlphaFold 2不应成为其他团队的目标,“这个领域仍然有一系列问题真正需要我们去解决”。

从计算机跨界生物学,坐了10年冷板凳后,他开创蛋白质预测新范式

AI颠覆蛋白质结构预测只是一个开始

2021年9月,许锦波回国,希望能“做出一些真正有用的东西”。

例如,能否把一个抗体优化得更好,使得它能够跟抗原结合更好?或设计一个自然界不存在的蛋白,用它来做药或工业生产?要解决这些问题,便涉及到比蛋白质结构预测更进一步的蛋白质设计。

蛋白质设计和蛋白质预测几乎是一对镜像。

2003年,华盛顿大学大卫·贝克(David Baker)团队设计出了第一个原本并不存在于自然界中的蛋白质——Top7。

和许锦波相似,大卫也是生物学领域的“跨界者”,进入生物领域前,他的专业是哲学。大学期间,一堂生物课点燃了大卫对蛋白质折叠的热情。

1996年,大卫已经成为华盛顿大学生物化学系助理教授,他和学生共同开发了一款名为Rosetta的程序,为之后从头设计蛋白质埋下了伏笔——已知氨基酸序列,Rosetta能够找到能量最低的蛋白质三维结构,那么如果已知最终的蛋白质结构,Rosetta是否能倒推出形成这一结构所需的蛋白组件呢?

在这个思路下,Top7诞生了。可惜的是,Top7只完成了上述从蛋白质结构到氨基酸序列的倒推,却没有实际功能。

这也是蛋白质设计比蛋白质预测更难的原因。一种蛋白质结构所对应的氨基酸序列可能有成百上千亿种可能,要结合产业需要“按需定制”,难度可想而知。

从计算机跨界生物学,坐了10年冷板凳后,他开创蛋白质预测新范式

2022年1月成立的分子之心,便瞄准了更难,但应用空间更大的蛋白质设计。

许锦波曾对媒体表示,公司只有一个小团队继续研究蛋白质结构预测,更大的重心放在蛋白质设计上。

目前,分子之心研发了AI蛋白质优化和设计平台MoleculeOS,该平台能够用AI帮助生物工作者快速发现、改造、甚至从头设计具备特定功能的蛋白质,加速实验室成果的产业转化。

许锦波介绍,目前,MoleculeOS已应用于产业中,面向药物设计、生物制造等领域的需求,进行多肽、抗体、酶和小蛋白的研究和设计,“用生成而非发现的方法设计出具有特定功能的蛋白质产品,变革药物设计和合成生物学产业模式,开启可编程药物、可编程生物制品定向进化新时代”。

在2023世界人工智能大会上,分子之心又推出了首个AI蛋白质生成大模型“达尔文(NewOrigin)”。分子之心曾向媒体透露,NewOrigin可“针对产业应用需求在几小时内、甚至是分钟级‘定制’具有特定功能的蛋白质”。

此外,分子之心还推出了蛋白质动态结合设计算法,突破了AlphaFold等算法只能做蛋白质静态结构预测的局限,规避目前主流算法和大模型大量存在的假阳性问题。

不过,对于所有生命科学赛道的初创公司而言,在实验室里完成从0到1的进化只是第一步,接下来的产业化进程无疑是更复杂,甚至关乎企业生死。

目前,蛋白质设计的产业化进程还存在诸多显性难题,例如,采用大模型技术所带来的计算成本如何解决;以及从实验室走向产线还需要面临一系列监管、工艺、质量控制等流程。

这个难题,或许还需要无数生物科技从业者来解答。

而许锦波的答案是:

“AI颠覆蛋白质结构预测只是一个开始,我希望打造出中国生物经济时代的基础设施。”