/img/logo.png

Sci Data | 非肽类大环化合物渗透性数据库

Sci Data | 非肽类大环化合物渗透性数据库 导读 近日,瑞典乌普萨拉大学Jan Kihlberg 课题组在 Scientific Data 发表了题为A membrane permeability database for nonpeptidic macrocycles的论文。乌普萨拉大学化学系Vasanthanathan Poongavanam 副教授 (Docent) 和 Jan Kihlberg 教授为论文共同通讯作者,硕士研究生冯秋实为论文第一作者,Danjo De Chavez博士为参与作者。 Lipinski类药五规则作为一种高效筛选类药分子的定量准则,规定了类药分子应具备的特征:分子量小于500、氢键给体不超过5个、氢键受体不超过10个、油水分配系数对数值不超过5。然而,近期研究表明,约半数与人类疾病相关的靶点难以被传统的、符合五规则的小分子药物所干预。虽然大分子生物制剂为此提供了替代方案,但生物制剂无法穿透细胞且不适合口服给药,这限制了其对许多细胞内靶点的应用价值。 在Lipinski化学空间之外的"超越五规则"(beyond Ro5,bRo5)化学空间中,大环化合物因其独特优势而备受关注。这类由12个及以上原子构成的大环结构化合物能够与传统难治靶点产生有效相互作用。然而,大环化合物在溶解度、细胞渗透性和代谢稳定性等关键口服生物利用度指标方面仍面临挑战。 鉴于细胞渗透性的实验测定往往耗时且成本高昂,计算机模拟方法提供了更具成本效益的预测途径。在此研究中,该课题组通过收集科学文献、专利和生物活性数据库的数据,建立了一个符合FAIR原则(Findable, Accessible, Interoperable, and Reusable,即可查找、可访问、可互操作、可重用)的全面数据库,包含4216个大环化合物的5638条细胞渗透性实验数据。该数据库可作为机器学习和深度学习预测模型的训练数据集。此外,该研究团队还引入了"酰胺比率"(Amide Ratio, AR)这一创新性分子描述符,首次实现了大环化合物的定量分类。这一免费在线资源将显著促进新型大环药物的开发设计。 数据收集 研究团队从三个主要来源收集数据:科学文献、专利文献和综合性化学数据库。首先研究团队利用PubMed和Google Scholar,结合"macrocycle"和 “permeability"或者特定的渗透性测量模型(PAMPA,Caco-2, MDCK 和 RRCK)为关键词进行文献检索,并利用同样的检索方式在Google Patents搜索引擎收集来自发明专利的非肽类大环化合物的渗透性数据。除此之外,该团队还使用了ChEMBL数据库的官方Python接口(ChEMBL API Python client)进行自动化批量数据收集。为确保数据质量,研究人员对所有收集的数据进行了严格的人工审查和标准化处理,包括删除混合物和无机物、结构标准化以及数据单位统一等步骤。 数据分析 数据库各子项分析 最终建立的数据库包含5638条来自不同实验方法的膜渗透性数据,其中84%来自科学文献、4%来自专利文献、11%来自ChEMBL数据库。数据库中的渗透性数据主要来自五类实验方法。其中PAMPA占比最高,达67%(3767条),值得注意的是91%的PAMPA渗透性数据来自同一篇文献。Caco-2细胞实验数据占26%(1502条),包含顶端到基底(PappAB)和基底到顶端(PappBA)两个方向的表观渗透系数(Papp),以及加入转运体抑制剂后的相应值(PappAB+Inh. 和PappBA+Inh.)。通过计算外排比(ER = Papp BA/Papp AB),可评估化合物是否存在主动外排以及外排的程度。MDCK细胞实验贡献了264条数据,主要用于评估被动和主动跨膜转运特性。 分子特性分析 研究团队对数据库中的大环化合物进行了全面的分子性质分析。首先,利用 TMAP(Tree-MAP)对不同渗透性模型测得的化合物数据进行了可视化分析。其次,统计结果显示,虽然约半数化合物的分子量超过 500 Da,但大多数化合物在极性(氢键给体 HBD、氢键受体 HBA、拓扑极性表面积 TPSA)和脂溶性(cLogP)方面仍符合 Lipinski 规则的界限。数据库中约 9% 的化合物属于’超越五规则’空间,这些分子可能在调节难治靶点方面具有独特优势。 肽类与非肽类大环化合物的划分 在此之前,学界一直缺乏一个标准化的定量指标来描述大环化合物的肽类特征。为解决这一问题,研究团队提出了"酰胺比率”(AR)这一全新的分子描述符。首先考虑大环中的酰胺键数量(Number of Amide Bond, nAB),每个酰胺键(包括普通的NH-酰胺键和N-烷基化的酰胺键)都由三个原子(-C-N-Cα-)构成。 然后将上述结果除以大环的环大小(Macrocycle Ring Size, MRS),即大环中所有原子的总数。故AR的计算公式为:AR = (nAB × 3)/MRS

InDraw: 用AI把化学结构图片转换成SMILES

前言 鲁迅先生曾经说过:发化学文章不给SMILES等于没有发过。鲁迅:我没说过 但是很多文章里面的化学结构的Supporting Information 里面确实不给SMILES。涉及到全合成或者一大堆手性的化合物如果我们想要自己在ChemDraw里面画出来就极度痛苦。 InDraw for web 是一个在线化学结构式绘制软件,最牛X的是他可以把化学图片结构式识别成SMILES(或者其他软件可读)的格式。 实例 复制一张看起来就很劝退的结构式图片,黏贴在画板里面。选择 AI 图像识别 识别完成后,右键,选择想要的格式,搞定! 注意 ⚠️ 在使用之前务必人工校对! 用于识别的图片并非尺寸越大越好,保证背景干净就行。

使用ChEMBL Python API 搜索化合物信息

前言 ChEMBL 算是各位化学从业者喜闻乐见的数据库。(因为他不要钱) 但是如果我们想要批量收集我们想要的内容,用网页版挨个寻找属实有点麻烦了。那么,有没有什么方法能够批量 且自动获取我们想要的分子信息呢? 其实除了我们熟知的ChEMBL网页 , ChEMBL 还贴心的提供了可以用Python 搜索的 ChEMBL web service client 服务。只要我们在Python代码中输入想要的关键词,就可以批量搜索到我们想要的内容然后保存为CSV 文件用于后续处理。(比如赛博炼丹) 应用实例 一位励志发JACS的同学希望收集ChEMBL上杂环化合物Heterocyclic compound的 溶解度Solubility数据,我们应该怎么找呢? 示例代码: 首先 安装chembl_webresource_client 包 1 ! pip install chembl_webresource_client 然后运行这一段代码 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 import csv from chembl_webresource_client.

使用RDKit生成无背景的化学结构式--附Python代码

前言 笔者发现传统的用RDKit画图画出来有白色背景,放在PowerPoint里面很不爽。参考了这一篇文献找到了代码。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 from rdkit import Chem from rdkit import rdBase from rdkit.Chem import Draw from rdkit.Chem.Draw import rdMolDraw2D from rdkit.Chem import rdDepictor rdDepictor.SetPreferCoordGen(True) from rdkit.Chem import rdMolDescriptors from rdkit.Chem import rdFMCS from rdkit import DataStructs import io from PIL import Image def show_png(data): bio = io.BytesIO(data) img = Image.