大数据文摘作品
作者:AsherMullard
编译:余志文、小鱼、姜范波
如何使用机器学习和大数据帮助化学家在浩瀚的化学宇宙里搜索更好的药物
年,Sunovion制药公司给经验丰富的员工们布置了一个不寻常的任务。在马萨诸塞州马尔堡的公司总部,化学家们被要求以玩游戏的方式看看谁可以发现新的药物。在他们的工作站有数百个化学结构的网格,其中只有十个标有生物效应信息。专家使用他们多年积累的化学结构和生物学知识不断筛选可能成为候选药物的分子。参加比赛的11名选手中有10名绞尽脑汁数小时,只有1人却在毫秒间完成了任务——因为他使用了一个算法。
Exscientia公司化学信息学主管WillemvanHoorn是该计算机程序的创始人,Exscientia是一家使用人工智能(AI)来寻找新药物的创业公司。该公司总部设在英国邓迪,Exscientia公司期望和制药公司Sunovion展开新的合作伙伴关系,这个风险很高。Hoorn说:“我可能会声名扫地”。在经历了二十回合的比赛之后,他终于松了一口气。他的算法至少可以证明已经掌握了一些化学极客艺术;比赛中只有一个化学药物专家打败了他的算法。
Exscientia和Sunovion继续合作开发寻找新的精神病药物。Sunovion计算机化学总监斯科特·布朗(ScottBrown)说:“这次比赛真的有助于获得化学研究决策人员对AI这种方法的认可。”
越来越多的工业和学术团体正在转向使用计算机来探索浩瀚的化学领域。Exscientia只是其中之一。根据化学家估计,可以设计种具有药物特征的化合物——就是说,这些小分子的数目,比太阳系中原子的数目还要多。化学家期望算法能够对数百万种化合物的性质进行分类、特征分析和比较,以帮助研究人员更快速、经济地找到最佳候选药物。支持者认为,这些策略可以使药物更安全,减少临床试验的失败率,并能够发现新的治疗类别。它们也可以帮助探索那些没有被发现的或原来被认为没有价值的化学领域。
但是许多药物化学家仍然对这种假设持怀疑态度,不相信化学成分的复杂性可以降低到仅仅几行代码。即使是AI的倡导者也承认,许多尝试都是徒劳的:计算机生成的化合物很难被制造出来,如3个或4个原子组成的环,或者反应基团太多而引发安全问题。vanHoorn说:“当研究人员不了解该领域时,强行执行某些计算方法可能会产生严重影响,“他们提交的这些化合物只能付诸一笑。”但他说,人性化的专家可以辅助这些热心肠的数字设计师。“如果计算机科学家们会和那些真正懂化学的人进行合作,我认为其中一些想法可能会奏效。”
化学空间探索
要想畅游化学的宇宙世界,最好得有一本化学知识地图。
年,瑞士伯尔尼大学的化学家让·路易斯·雷蒙德(Jean-LouisReymond)开始用电脑绘制一幅尽可能大的化学地图。十六年来,他建造了世界上最大的小分子数据库,这是一个由亿个化合物组成的巨大虚拟集合。这个名为GDB-17的数据库包含了由多达17个原子组合成的所有可能的化学有机分子——这是雷蒙德的计算机可以处理的极限。雷蒙德表示:“编译数据库中的化合物清单现在只需要一台计算机工作10多个小时。”
为了找到一个合理的起点,雷蒙德提出了一种分类方法。
这个方法的灵感来自于周期表,他将化合物分成多维空间,其中相邻化合物具有相关性质。由42个特征确定元素位置,例如每个化合物具有多少个碳原子。
对于每种已经上市的药物,会有数以百万计的化合物与之几乎相同——只是可能在某个地方多了一个氢键或者其他的地方多了个双键。其中有些可能比已经获得了许可的药物具有更好的作用。在没有帮助的情况下,化学家不可能发现所有这些异构体。雷蒙德说:“只用笔和纸来获得这些异构体是几乎不可能的。”
但是,通过化合物之间的相似性搜索,雷蒙德和他的团队可以找到已知药物具有治疗潜力的“近邻”。以特定药物作为起点,他们在短短3分钟内梳理了数据库所有的亿个化合物,来寻找让人信服的候选化合物。在证明原理的实验中,雷蒙德从结合烟碱乙酰胆碱受体的分子开始,这种受体在治疗神经-肌肉疾病方面是很有效的靶标。雷蒙德团队编制了种相关化合物的列表并合成了其中的三个,发现有两个可以有效地激活受体,且可用于治疗老年人肌肉萎缩。雷蒙德表示,这种方法就像使用地质地图找*金一样。他说:“你需要一些方法来选择你要开挖的地方”
另一种方法好比使用电脑来地毯式地搜索*金的位置,而不用担心起始位置。
在药物的寻找过程中,这意味着需要通过大规模的化学数据库来进行电脑模拟,以发现可以结合特定蛋白质的小分子。首先,研究人员必须使用X射线晶体衍射来获取蛋白质的结构,以确定其结合位点的形状。然后,使用分子对接算法,计算化学家可以在化合物集合中筛选到任何位点的最佳配体。
随着计算机运算能力的与日俱增,这些算法的性能也得到了提升。年,由加州大学旧金山分校的化学家布莱恩·肖西切(BrianShoichet)领衔,展示了这种方法在寻找新一类止痛药方面的潜力。该小组筛选了多万种市售化合物,从而找到可选择性激活μ-阿片样物质受体信号以减轻疼痛,但不会干扰紧密相关的β-抑制蛋白质信号通路的候选药物(这被认为与阿片样物质副作用相关,包括降低呼吸频率和便秘)。研究人员迅速将巨大的化合物库减少到23个。
在实验室,有七个候选药物达到了期望的效果。进一步的实验将其中的一种发展成药物,并命名为PZM21。它是一种在不激活β-抑制素的情况下作用于μ-阿片受体的化合物。肖西切作为联合创始人,总部位于加州旧金山的生物技术公司Epiodyne,目前正在根据研究结果开发更安全的止痛药。肖西切计划使用相同的方法来寻找其他与G蛋白偶联受体(GPCRs)结合的化合物,G蛋白偶联受体(GPCRs)家族占据了药物靶标的的40%。
他的团队也对一千万种化合物的虚拟星云进行了类似的实验,这些化合物从未被制造过,但应该比较容易合成。药物制造商也在测试这种方法:总部设在马萨诸塞州剑桥的生物技术公司NimbusTherapeutics在其对接筛选中,将以前需要耗费巨大才能从土壤等自然环境中提取到的化合物特征整合到虚拟化合物中。决策者们仍然在观望这种方法能否发现真正的药物,但该公司首席执行官唐·尼科尔森(DonNicholson)说,至少有一个药物设计程序“是我们原型的来源”。
虚拟筛选的初步结果撼动了肖西切关于化学空间的核心假设之一:只有在已建立的、药物丰富的区域,虚拟筛选值得一看。已知化合物星系中,具有生物活性的化合物已然泛滥,以至于有些人认为在别处寻找是浪费时间。肖西切说,“在我的职业生涯中,我深信这样的推理。即使没有足够的证据来支撑,它也是有意义的”。但是,尚未发表的对1亿种化合物进行筛选的结果,激发了他对化学空间尚未开发领域的兴趣。“我开始认为这些星系遍地*金。”
硅片的洞察力
虽然这些数据搜索方法经过试验和测试,但这个过程中,计算机只能遵循脚本指令。计算药物学的最新前沿是机器学习,在这个过程中,算法利用数据和经验进行自我学习,从而知道哪些化合物与哪些靶标结合,找到人眼看不见的模式。大约有十几家公司涌现出来,与大型制药公司合作开发药物搜索算法。
AndrewHopkins,Exscientia的首席执行官,对这些算法的强大功能举了一个有力的例子。一个化合物,从发现、优化到临床前测试,平均需要4.5年,为了获得一个有希望的化合物(即使它走向市场的机会依然渺茫),化学家经常需要合成几千种化合物。Exscientia的方法——使用各种算法,包括给Sunovion研发主管留下深刻印象的那一种——将会把时间表缩短到仅仅一年,而且会减少药物发现过程中需要考虑的化合物的数量。
“人类和人工智联手,可以超越任何人,但是也能超越任何算法”
年,Exscientia完成了为期12个月的由日本住友制药举办的项目,大有制药是Sunovion的母公司,总部在日本大阪。研究人员训练了他们的AI工具用来寻找能够同时调节两个G蛋白偶联受体的小分子,结果发现,为了确定一个好的候选复合物,他们需要合成不超过种化合物。Hopkins说,他们找到的药物现在正在用于精神疾病的临床实验。五月份以来,Exscientia已经和总部在巴黎的赛诺菲,以及总部在英国的葛兰素史克签署了价值数亿美元的合同。
BrandonAllgoo是一家总部在加州圣布鲁诺的药物设计公司Numerate的首席技术官。他说,除了发现候选药物,机器学习算法也可以帮助药物开发人员尽早决定放弃哪种化合物;如果一个化合物在几个月后的*性或吸收测试中失败,那么它的制造和测试就毫无意义。有了AI,“只需要一毫秒就能知道它应该参加还是退出,”Allgood说,曾经接受宇宙学训练的他,如今用人工智能工具来研究化学宇宙。今年,Numerate与制药公司已经达成两项交易,其中包括总部在法国叙雷讷的施维雅,交易内容是通过临床试验将AI发现的药物用于心力衰竭和心律失常。
产业投资蓬勃发展,但很多计算方法仍然需要证明。与其他数据库相比,雷蒙德的收集硕大无比,但它也仅仅包括了化学宇宙的极小部分(见化学宇宙)。尽管在他的数据库中有亿种化合物,他仍如同一位天文学家,试图数清夜空中所有星星却只是成功记录下其中一个,他的收集还有很长的路要走。依赖于蛋白质与药物匹配的筛选,产生最好的结果需要精确的晶体结构,而生成这些数据需要时间、金钱和专业知识。这些方法也很难处理运动中的蛋白质,而且对算法推荐也难以做出合适的评分。对于机器学习算法而言,在分析与它们所建立的训练数据集一样的化合物时表现出色,当遇到的从未见过的化合物时,表现非常糟糕。更重要的是,程序运行过程是一个黑盒,并不能解释为什么它们预测的化合物将是一个较好的选择。
许多计算方法也有一个令人讨厌的习惯,即推荐那些在实验室里很难合成的复合物。针对推荐的复合物,化学家必须费力地找出可行的配方,这个过程可能花费几个月或更长的时间。即便如此,也无法保证生成的分子马上就可以使用。雷蒙德的算法总体而言只有5-10%的时候能正确预测一个化合物的活性,,这意味着化学家必须合成多达20个化合物,才能找到一个符合预期的化合物。雷蒙德说,“我想说,我们探索化学空间的瓶颈是敢于制造化合物的能力。”为此,他最近把入围化学宇宙并且容易合成的分子减少到了万以下,即便如此,这些分子仍然包含了广泛的性能。
MarkMurcko,马萨诸塞州剑桥RelayTherapeutics公司的首席科学官,认为计算化学家应该少