药物研发的过程漫长而复杂。随着医药数据的持续增长,AI技术在药物研发诸多阶段都展现出了很好的应用前景,有望引领药物研发新范式。近期,华东理工大学/临港实验室李洪林团队与浙江大学朱峰团队受邀在中国工程院院刊《Engineering》上发表了题为“**Artificial Intelligence in Pharmaceutical Sciences **”的文章。该文系统综述了人工智能技术在药靶发现、小分子与抗体药物设计、临床前研究、药物合成、药物制剂与释放和辅助临床试验设计等方向上的前沿应用。

医药数据的累积为AI在药物发现中的应用奠定了基础,但数据的体量与质量仍然是影响AI药学研究的主要因素之一。因此,该文首先系统综述了与蛋白、基因、药物和疾病相关的公共数据平台,与药物、蛋白和疾病相关的组学数据仓库,用于药物与靶点相互作用研究的数据库和用于小分子和生物大分子编码的工具等重要数据资源。在药物研发的不同阶段,由于实验方法、技术、目的的不同,产生的数据结构、体量、维度与内容也不尽相同。通过高通量测序技术可获得基因表达矩阵,而通过高通量筛选技术可获得分子活性数据。这两类数据不仅可以用于发现差异表达基因和挖掘活性分子,也可以用于指导药物靶点的发现。而不同的AI模型也对输入数据的格式和类型有不同的要求。所以,针对不同的研究问题需要采取合适的医药数据表征方式。因此,该文还进一步从机器学习的基本概念和常用模型入手,介绍了其在药物研发各阶段(药物靶点发现、药物设计、药物合成、药物制剂与释放、临床前研究、临床试验设计等)中的应用(如下图所示)。AI技术对药物研发的全过程支撑,有望破解双十魔咒,引领医药产业创新的范式变革。

该文还简述了AI在药靶和药物发现中的具体应用流程(如下图所示)。首先从公共数据平台或者实验获得的数据中收集所研究问题所需的全部数据。然后将数据集划分为训练集、验证集和测试集。接下来,不同格式和类型的数据被编码为向量或矩阵的形式,用于模型训练。根据要研究的问题,选择或建立合适的模型来执行预测任务。采用不同的评估方法从多个维度对建立的模型进行性能评估,以此来调整模型以及模型参数等,直到模型达到令人满意的性能。最后对于模型预测出来的结果进行讨论和分析。

该文最后指出,当前AI方法在数据质量和可解释性方面还存在问题。算法构建在很大程度上还依赖于对高质量数据的储备。目前,对复杂生物系统来说,获取高质量数据仍然是一个非常困难的问题,且将这些数据处理成具有高置信度的标准数据非常昂贵。同时,数据质量低、批次效应、数据不平衡以及临床数据涉及病人隐私等问题进一步限制了AI在药学领域的应用。除此之外,药物发现有一套完整的知识逻辑,如分子的作用机制、分子的代谢机制、生物途径的调节机制等。为了确保药物的安全和有效,必须细致研究药物作用的相关生物过程:药物的物理化学特性以及它在体内与哪些蛋白质结合,如何结合,引发哪些生物反应,以及如何代谢等问题。AI不能仅给出预测的输出,呼吁各研究机构能够尽可能公开高质量数据并期望计算机技术的进一步发展推动对可解释性问题的突破性解决。

谨以该文纪念已故中国科学院院士、临港实验室和上海药物所蒋华良教授。

原文链接:https://doi.org/10.1016/j.eng.2023.01.014 **参考文献 **

[1] Lu M, Yin J, Zhu Q, et al. Artificial Intelligence in Pharmaceutical Sciences. Engineering, 2023. doi:https://doi.org/10.1016/j.eng.2023.01.014.

成为VIP会员查看完整内容
42

相关内容

AI技术中的机器学习、深度学习、自然语言处理等技术能够提高制药数据、信息的处理效率,对于药物研发过程中的新药发现,可以代替研究人员有限的知识储备和想象力,发现原来很难、甚至不可能发现的靶点,这也是AI在制药领域最大的价值点,AI还可以预测候选药物的性能如药物的吸收、代谢、毒性、不良反应等,缩小后期实验范围,降低临床失败概率,大幅降低新药研发的时间、资金成本。机器学习和深度学习算法已在多个药物发现过程中实施,例如肽合成、基于结构的虚拟筛选、基于配体的虚拟筛选、毒性预测、药物监测和释放、药效团建模、定量构效关系、药物重新定位、多药理学和理化活性。过去的证据加强了人工智能和深度学习在该领域的实施。此外,新颖的数据挖掘、管理和管理技术为最近开发的建模算法提供了关键支持。总之,人工智能和深度学习的进步为合理的药物设计和发现过程提供了绝佳的机会,最终将影响人类。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【硬核书】数据科学,282页pdf
专知会员服务
89+阅读 · 2022年11月29日
Cell子刊综述|深度生成模型重塑药物研发
专知会员服务
7+阅读 · 2022年10月31日
Cancer Cell综述|AI用于肿瘤学中的多模态数据集成
专知会员服务
34+阅读 · 2022年10月13日
数据与机器学习,人工智能报告
专知会员服务
97+阅读 · 2022年2月21日
AI药物研发发展研究报告(附报告)
专知会员服务
85+阅读 · 2022年2月11日
【硬核书】数据科学,282页pdf
专知
21+阅读 · 2022年11月29日
概述自动机器学习(AutoML)
人工智能学家
18+阅读 · 2019年8月11日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年7月3日
Arxiv
0+阅读 · 2023年7月3日
Advances and Open Problems in Federated Learning
Arxiv
18+阅读 · 2019年12月10日
AutoML: A Survey of the State-of-the-Art
Arxiv
67+阅读 · 2019年8月14日
Transfer Adaptation Learning: A Decade Survey
Arxiv
37+阅读 · 2019年3月12日
VIP会员
相关VIP内容
【硬核书】数据科学,282页pdf
专知会员服务
89+阅读 · 2022年11月29日
Cell子刊综述|深度生成模型重塑药物研发
专知会员服务
7+阅读 · 2022年10月31日
Cancer Cell综述|AI用于肿瘤学中的多模态数据集成
专知会员服务
34+阅读 · 2022年10月13日
数据与机器学习,人工智能报告
专知会员服务
97+阅读 · 2022年2月21日
AI药物研发发展研究报告(附报告)
专知会员服务
85+阅读 · 2022年2月11日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员