Sci Data | 非肽类大环化合物渗透性数据库
Sci Data | 非肽类大环化合物渗透性数据库 导读 近日,瑞典乌普萨拉大学Jan Kihlberg 课题组在 Scientific Data 发表了题为A membrane permeability database for nonpeptidic macrocycles的论文。乌普萨拉大学化学系Vasanthanathan Poongavanam 副教授 (Docent) 和 Jan Kihlberg 教授为论文共同通讯作者,硕士研究生冯秋实为论文第一作者,Danjo De Chavez博士为参与作者。
Lipinski类药五规则作为一种高效筛选类药分子的定量准则,规定了类药分子应具备的特征:分子量小于500、氢键给体不超过5个、氢键受体不超过10个、油水分配系数对数值不超过5。然而,近期研究表明,约半数与人类疾病相关的靶点难以被传统的、符合五规则的小分子药物所干预。虽然大分子生物制剂为此提供了替代方案,但生物制剂无法穿透细胞且不适合口服给药,这限制了其对许多细胞内靶点的应用价值。
在Lipinski化学空间之外的"超越五规则"(beyond Ro5,bRo5)化学空间中,大环化合物因其独特优势而备受关注。这类由12个及以上原子构成的大环结构化合物能够与传统难治靶点产生有效相互作用。然而,大环化合物在溶解度、细胞渗透性和代谢稳定性等关键口服生物利用度指标方面仍面临挑战。
鉴于细胞渗透性的实验测定往往耗时且成本高昂,计算机模拟方法提供了更具成本效益的预测途径。在此研究中,该课题组通过收集科学文献、专利和生物活性数据库的数据,建立了一个符合FAIR原则(Findable, Accessible, Interoperable, and Reusable,即可查找、可访问、可互操作、可重用)的全面数据库,包含4216个大环化合物的5638条细胞渗透性实验数据。该数据库可作为机器学习和深度学习预测模型的训练数据集。此外,该研究团队还引入了"酰胺比率"(Amide Ratio, AR)这一创新性分子描述符,首次实现了大环化合物的定量分类。这一免费在线资源将显著促进新型大环药物的开发设计。
数据收集 研究团队从三个主要来源收集数据:科学文献、专利文献和综合性化学数据库。首先研究团队利用PubMed和Google Scholar,结合"macrocycle"和 “permeability"或者特定的渗透性测量模型(PAMPA,Caco-2, MDCK 和 RRCK)为关键词进行文献检索,并利用同样的检索方式在Google Patents搜索引擎收集来自发明专利的非肽类大环化合物的渗透性数据。除此之外,该团队还使用了ChEMBL数据库的官方Python接口(ChEMBL API Python client)进行自动化批量数据收集。为确保数据质量,研究人员对所有收集的数据进行了严格的人工审查和标准化处理,包括删除混合物和无机物、结构标准化以及数据单位统一等步骤。
数据分析 数据库各子项分析 最终建立的数据库包含5638条来自不同实验方法的膜渗透性数据,其中84%来自科学文献、4%来自专利文献、11%来自ChEMBL数据库。数据库中的渗透性数据主要来自五类实验方法。其中PAMPA占比最高,达67%(3767条),值得注意的是91%的PAMPA渗透性数据来自同一篇文献。Caco-2细胞实验数据占26%(1502条),包含顶端到基底(PappAB)和基底到顶端(PappBA)两个方向的表观渗透系数(Papp),以及加入转运体抑制剂后的相应值(PappAB+Inh. 和PappBA+Inh.)。通过计算外排比(ER = Papp BA/Papp AB),可评估化合物是否存在主动外排以及外排的程度。MDCK细胞实验贡献了264条数据,主要用于评估被动和主动跨膜转运特性。
分子特性分析 研究团队对数据库中的大环化合物进行了全面的分子性质分析。首先,利用 TMAP(Tree-MAP)对不同渗透性模型测得的化合物数据进行了可视化分析。其次,统计结果显示,虽然约半数化合物的分子量超过 500 Da,但大多数化合物在极性(氢键给体 HBD、氢键受体 HBA、拓扑极性表面积 TPSA)和脂溶性(cLogP)方面仍符合 Lipinski 规则的界限。数据库中约 9% 的化合物属于’超越五规则’空间,这些分子可能在调节难治靶点方面具有独特优势。
肽类与非肽类大环化合物的划分 在此之前,学界一直缺乏一个标准化的定量指标来描述大环化合物的肽类特征。为解决这一问题,研究团队提出了"酰胺比率”(AR)这一全新的分子描述符。首先考虑大环中的酰胺键数量(Number of Amide Bond, nAB),每个酰胺键(包括普通的NH-酰胺键和N-烷基化的酰胺键)都由三个原子(-C-N-Cα-)构成。 然后将上述结果除以大环的环大小(Macrocycle Ring Size, MRS),即大环中所有原子的总数。故AR的计算公式为:AR = (nAB × 3)/MRS