同程网站建设分析,word制作网页教程,网站建设与管理的心得,怎么创建网站域名赛题介绍
链接#xff1a;Bohrium 案例广场 (dp.tech)
中枢神经系统类疾病长期以来存在着重要的临床未满足需求。据统计#xff0c;在当前人口老龄化趋势下#xff0c;阿兹海默#xff08;AD#xff09;、帕金森病#xff08;PD#xff09;等神经退行性疾病和脑癌、中…赛题介绍
链接Bohrium 案例广场 (dp.tech)
中枢神经系统类疾病长期以来存在着重要的临床未满足需求。据统计在当前人口老龄化趋势下阿兹海默AD、帕金森病PD等神经退行性疾病和脑癌、中风等疾病的治疗费用将达到数万亿美元由此产生巨额的医疗保健支出。因此获得高质量、有效的中枢神经系统药物在当前被普遍视为具有重要的科学和商业价值。
随着AI for science的兴起AI可以在大规模化合物库中筛选具有潜在治疗作用的药物基于计算机模拟的方法预测药物的药理活性、毒性和药代动力学特性。通过这种方式AI可以筛选出最有前景的药物候选者并优化其化学结构以提高安全性和有效性。
本次学习赛将提供一批分子信息数据选手需要以AI方法对分子是否可作为CNSCentral Nervous System药物进行检测实现AI助力下的CNS药物筛选和研发工作。
原理简介
中枢神经系统(CNS)包括大脑和脊髓负责处理和调控身体的各种功能。非中枢神经系统non-CNS则包括神经元以外的组织如内分泌系统和免疫系统等。
由于血脑屏障及其上各类转运体的存在中枢神经系统用药通常需要满足一些特定的特征。药物化学家会根据特定的指标来判断一个药物是否具有成为中枢神经系统药物的潜力如分子量和拓扑极性表面积TPSA不能过大N原子和极性H原子数量不能过多溶剂可及表面需在特定范围内等。这些特征为药物发现和优化阶段中判断分子作为CNS药物的潜力提供了启示。
SMILES 分子表达式中包含了丰富的信息。我们可以利用 SMILES 表达式构建 CNS 药物预测的机器学习模型并可帮助研究人员深入理解中枢神经系统CNS药物和非中枢神经系统non-CNS口服药物在众多理化性质方面的差异。这将有助于加速 CNS 药物的筛选和研发过程。
赛题教程
请点击下方链接进入本次学习赛的课程主页本赛题的一系列教程学习资料会陆续上传请大家关注。
教程链接https://nb.bohrium.dp.tech/courses/detail/2718054507
赛题理解及科学知识补充
背景知识 研发一款成功上市的药物需要大约10年的时间花费10亿美金平均研发25款药物只有1款能成功提交到药监局所以迫切希望AI能辅助药物的设计 靶点导致疾病发生的问题的根源通常是生物体内某些蛋白质出现了功能的失活或失调
人们通过设计药物去有效的调节这些靶点的生物功能
对于AD阿茨海默这类疾病大部分靶点分布在脑部、脊椎等中枢神经系统 吸收、分布、代谢、排泄、毒性
本次赛题研究的血脑屏障BBB对应着distribution也就是药物能否顺利的送入中枢神经系统这是药物能否成为CNS药物的关键 QSAR QSAR模型的建立需要分子的结构和分子的某些性质并没有加入任何和这个靶点相互作用的信息
分子结构的表示 赛题背后的逻辑是比较不同化合物根据这些化合物的相似性去判断新的化合物与哪些类型的化合物性质相似 对于人来说系统命名法等方法方便人们去理解但是对于计算机就不是这回事了 对于计算机来说SMILES是常用的表示分子结构的方法 上图是各种分子结构的表示方法
分子特征的表示 常见的定量分子描述符 常见的定性分子描述符 ECFP分子指纹计算流程 参考文献解读 baseline
# 需要挂载 bohr CNS 数据集
DIR_PATH /bohr/ai4scup-cns-5zkz/v3/
!pip install lightgbm numpy pandas rdkit scikit-learnimport lightgbm as lgb
import numpy as np
import pandas as pdfrom rdkit import Chem # 导入RDKit中的Chem模块用于分子对象转换
from rdkit.Chem.rdMolDescriptors import GetMorganFingerprintAsBitVect # 从RDKit中导入GetMorganFingerprintAsBitVect函数用于生成分子指纹位向量转换from sklearn.model_selection import train_test_split # 从scikit-learn中导入train_test_split函数用于拆分数据集
from sklearn.metrics import fbeta_score # 从scikit-learn中导入fbeta_score函数用于 F2 Score 计算raw_data pd.read_csv(f{DIR_PATH}/mol_train.csv)
test_data pd.read_csv(f{DIR_PATH}/mol_test.csv)# 拆分训练数据为训练集与验证集验证集占比 20%设定固定随机种子
train_data, valid_data train_test_split(raw_data, test_size0.2, random_statehash(Datawhale) % 2023
)def smile2fingerprint(smile: str):将 SMILE 分子式表示为指纹数据参数:smile (string): SMILE 分子式返回:fp (Explict BitVect): 分子式的 Morgan 指纹位向量molecular Chem.MolFromSmiles(smile) # 将字符串转换为分子式对象finger_print GetMorganFingerprintAsBitVect(molecular, 5, nBits1024) # 获得分子式的 Morgan 指纹位向量return finger_print# 批量将位向量转换为特征矩阵形状为 (n, 1024)n 代表数据个数1024 在位向量转换时指定
train_X np.array([smile2fingerprint(smile) for smile in train_data[SMILES]])
valid_X np.array([smile2fingerprint(smile) for smile in valid_data[SMILES]])
test_X np.array([smile2fingerprint(smile) for smile in test_data[SMILES]])# 将数据特征矩阵转换为 LightGBM 指定格式(特征向量对应标签)
lgb_train lgb.Dataset(train_X, labeltrain_data[TARGET])
lgb_valid lgb.Dataset(valid_X, labelvalid_data[TARGET])# 设定 LightGBM 训练参查阅参数意义https://lightgbm.readthedocs.io/en/latest/Parameters.html
lgb_params {objective: binary, # 指定任务类别为二分类seed: hash(Datawhale) % 2023, # 设定随机种子verbose: -1, # 禁用输出可选
}# 训练模型参数依次为导入模型设定参数、导入训练集、设定模型迭代次数100、导入验证集
model lgb.train(lgb_params, lgb_train, num_boost_round100, valid_setslgb_valid)threshold 0.5 # 模型输出的是类别概率设定概率的判断阙值# 用验证集进行模型预测选择训练中最好的一次
valid_pred model.predict(valid_X, num_iterationmodel.best_iteration)
# 生成预测标签结果如果概率大于阈值则为 1否则为 0
valid_result [1 if x threshold else 0 for x in valid_pred]
# 计算验证集 F2 Score 分数
valid_score fbeta_score(valid_data[TARGET], valid_result, beta2)
print(fValid Score: {valid_score})# 预测测试集数据并获得预测结果
pred model.predict(test_X, num_iterationmodel.best_iteration)
result [1 if x threshold else 0 for x in pred]submission pd.DataFrame()
submission[SMILES] test_data[SMILES]
submission[TARGET] result
submission.to_csv(./submission.csv, indexFalse)
把finger_print GetMorganFingerprintAsBitVect(molecular, 5, nBits1024)中的5改成2上了一点点分
特征工程与可视化
pass
Uni-Mol及进阶版Baseline
pass
图神经网络
pass