目录

Sci Data | 非肽类大环化合物渗透性数据库

Sci Data | 非肽类大环化合物渗透性数据库

导读

近日,瑞典乌普萨拉大学Jan Kihlberg 课题组在 Scientific Data 发表了题为A membrane permeability database for nonpeptidic macrocycles的论文。乌普萨拉大学化学系Vasanthanathan Poongavanam 副教授 (Docent) 和 Jan Kihlberg 教授为论文共同通讯作者,硕士研究生冯秋实为论文第一作者,Danjo De Chavez博士为参与作者。

Lipinski类药五规则作为一种高效筛选类药分子的定量准则,规定了类药分子应具备的特征:分子量小于500、氢键给体不超过5个、氢键受体不超过10个、油水分配系数对数值不超过5。然而,近期研究表明,约半数与人类疾病相关的靶点难以被传统的、符合五规则的小分子药物所干预。虽然大分子生物制剂为此提供了替代方案,但生物制剂无法穿透细胞且不适合口服给药,这限制了其对许多细胞内靶点的应用价值。

在Lipinski化学空间之外的"超越五规则"(beyond Ro5,bRo5)化学空间中,大环化合物因其独特优势而备受关注。这类由12个及以上原子构成的大环结构化合物能够与传统难治靶点产生有效相互作用。然而,大环化合物在溶解度、细胞渗透性和代谢稳定性等关键口服生物利用度指标方面仍面临挑战。

鉴于细胞渗透性的实验测定往往耗时且成本高昂,计算机模拟方法提供了更具成本效益的预测途径。在此研究中,该课题组通过收集科学文献、专利和生物活性数据库的数据,建立了一个符合FAIR原则(Findable, Accessible, Interoperable, and Reusable,即可查找、可访问、可互操作、可重用)的全面数据库,包含4216个大环化合物的5638条细胞渗透性实验数据。该数据库可作为机器学习和深度学习预测模型的训练数据集。此外,该研究团队还引入了"酰胺比率"(Amide Ratio, AR)这一创新性分子描述符,首次实现了大环化合物的定量分类。这一免费在线资源将显著促进新型大环药物的开发设计。

/img/db/1.png

数据收集

研究团队从三个主要来源收集数据:科学文献、专利文献和综合性化学数据库。首先研究团队利用PubMed和Google Scholar,结合"macrocycle"和 “permeability"或者特定的渗透性测量模型(PAMPA,Caco-2, MDCK 和 RRCK)为关键词进行文献检索,并利用同样的检索方式在Google Patents搜索引擎收集来自发明专利的非肽类大环化合物的渗透性数据。除此之外,该团队还使用了ChEMBL数据库的官方Python接口(ChEMBL API Python client)进行自动化批量数据收集。为确保数据质量,研究人员对所有收集的数据进行了严格的人工审查和标准化处理,包括删除混合物和无机物、结构标准化以及数据单位统一等步骤。

/img/db/2.png

数据分析

数据库各子项分析

最终建立的数据库包含5638条来自不同实验方法的膜渗透性数据,其中84%来自科学文献、4%来自专利文献、11%来自ChEMBL数据库。数据库中的渗透性数据主要来自五类实验方法。其中PAMPA占比最高,达67%(3767条),值得注意的是91%的PAMPA渗透性数据来自同一篇文献。Caco-2细胞实验数据占26%(1502条),包含顶端到基底(PappAB)和基底到顶端(PappBA)两个方向的表观渗透系数(Papp),以及加入转运体抑制剂后的相应值(PappAB+Inh. 和PappBA+Inh.)。通过计算外排比(ER = Papp BA/Papp AB),可评估化合物是否存在主动外排以及外排的程度。MDCK细胞实验贡献了264条数据,主要用于评估被动和主动跨膜转运特性。

分子特性分析

研究团队对数据库中的大环化合物进行了全面的分子性质分析。首先,利用 TMAP(Tree-MAP)对不同渗透性模型测得的化合物数据进行了可视化分析。其次,统计结果显示,虽然约半数化合物的分子量超过 500 Da,但大多数化合物在极性(氢键给体 HBD、氢键受体 HBA、拓扑极性表面积 TPSA)和脂溶性(cLogP)方面仍符合 Lipinski 规则的界限。数据库中约 9% 的化合物属于’超越五规则’空间,这些分子可能在调节难治靶点方面具有独特优势。

/img/db/3.png

肽类与非肽类大环化合物的划分

在此之前,学界一直缺乏一个标准化的定量指标来描述大环化合物的肽类特征。为解决这一问题,研究团队提出了"酰胺比率”(AR)这一全新的分子描述符。首先考虑大环中的酰胺键数量(Number of Amide Bond, nAB),每个酰胺键(包括普通的NH-酰胺键和N-烷基化的酰胺键)都由三个原子(-C-N-Cα-)构成。 然后将上述结果除以大环的环大小(Macrocycle Ring Size, MRS),即大环中所有原子的总数。故AR的计算公式为:AR = (nAB × 3)/MRS

基于AR值的分布特征,大环化合物可分为三类:非肽类(AR < 0.3)、半肽类(0.3 ≤ AR ≤ 0.7)和肽类(AR > 0.7)。PCA(Principal component analysis,主成分分析)结果验证了这一分类方法的合理性,不同类型的化合物在化学空间中呈现出明显的分布差异。 /img/db/5.png

网页数据库

研究团队开发了功能完善的在线数据库平台(https://swemacrocycledb.com/)。在浏览模块中,用户可以根据分子唯一ID、名称、实验模型类型、分子量等单个或组合条件筛选感兴趣的数据集,并以CSV格式导出。当用户点击特定分子ID时,系统会在新窗口中显示该分子的详细信息,包括名称、结构、渗透性数据和分子描述符,同时展示该分子的所有可用渗透性数据,以及具有相同"大环骨架"的类似化合物清单,这有助于用户探索结构相关分子。在下载模块中,用户可以下载完整数据集或自定义筛选的数据子集,导出的CSV文件不仅包含分子结构、细胞渗透性数据和分子描述符,还提供分子的肽类特征分类和原始数据来源信息。在统计模块中,平台支持对整体数据集及三个主要渗透性子集的细胞渗透性数据和分子描述符进行统计分析,并提供直观的数据可视化展示。这些功能的有机结合使得该数据库不仅方便用户查找和获取所需数据,还能帮助用户深入理解大环化合物的结构-性质关系,为药物设计提供有力支持。 /img/db/4.png

讨论与前瞻

然而,该数据库目前仍存在一些局限性。首先,由于缺乏可靠的计算方法来处理结构多样的大环化合物,目前数据库中并未包含3D结构信息和3D分子特征。此外,数据收集截止于2023年7月,这意味着之后发表的相关研究数据尚未被收录。为解决这些问题,研究团队计划定期更新数据库内容,并在网站运行后及时修正发现的错误。总而言之,该研究为从事大环化合物研究的科研人员提供了宝贵的参考资源,同时还提出了一种收集和整理生物活性数据的方法论,从而充分发挥机器学习方法在药物研发项目中的潜力。

课题组简介

瑞典乌普萨拉大学Jan Kihlberg 课题组长期致力于探索传统药物领域之外的研究和药物发现。该课题组特别关注突破传统 Lipinski 类药五规则的限制,探索新的化学空间。研究发现这类化合物具有独特的细胞渗透性和口服生物利用度特征。该课题组在分子构象灵活性和氢键调控方面取得重要突破,为药物研发提供了新思路。该课题组在该领域发表的开创性论文(J. Med. Chem. 2014, 57, 278-295)已获得广泛引用和认可。


参考资料

Feng, Q., De Chavez, D., Kihlberg, J. et al. A membrane permeability database for nonpeptidic macrocycles. Sci Data 12, 10 (2025). https://doi.org/10.1038/s41597-024-04302-z