当前位置: 首页 > news >正文

网站部分版块显示正在建设庄河建网站

网站部分版块显示正在建设,庄河建网站,网站建设需要些什么软件,网站每年服务费目录 一、实验介绍 二、实验环境 1. 配置虚拟环境 2. 库版本介绍 3. IDE 三、实验内容 0. 导入必要的工具包 1. 定义一些阈值和参数 2. 读取数据 normal_data.csv部分展示 tumor_data.csv部分展示 3. 绘制箱型图 4. 删除表达量低于阈值的基因 5. 计算差异显著的基…目录 一、实验介绍 二、实验环境 1. 配置虚拟环境 2. 库版本介绍 3. IDE 三、实验内容 0. 导入必要的工具包 1. 定义一些阈值和参数 2. 读取数据 normal_data.csv部分展示 tumor_data.csv部分展示 3. 绘制箱型图 4. 删除表达量低于阈值的基因 5. 计算差异显著的基因 6. 初始化结果数据表格 7. 进行秩和检验和差异倍数计算 8. 可视化分析 9. 代码整合 一、实验介绍 本实验完成了基因差异分析包括数据读取、数据处理 绘制箱型图、删除表达量低于阈值的基因、计算差异显著的基因、差异分析进行秩和检验和差异倍数计算等成功识别出在正常样本与肿瘤样本之间显著表达差异的基因并对其进行了进一步的可视化分析箱型图、差异倍数fold分布图、热力图和散点图。 基因差异分析是研究不同条件下基因表达差异的重要手段能够帮助我们理解生物体内基因调控的变化及其与表型特征的关联。本实验旨在探索正常样本与肿瘤样本之间基因表达的差异并识别差异显著的基因。 二、实验环境 本系列实验使用了PyTorch深度学习框架相关操作如下基于深度学习系列文章的环境 1. 配置虚拟环境 深度学习系列文章的环境 conda create -n DL python3.7  conda activate DL pip install torch1.8.1cu102 torchvision0.9.1cu102 torchaudio0.8.1 -f https://download.pytorch.org/whl/torch_stable.htmlconda install matplotlib conda install scikit-learn 新增加 conda install pandas conda install seaborn conda install networkx conda install statsmodels pip install pyHSICLasso 注本人的实验环境按照上述顺序安装各种库若想尝试一起安装天知道会不会出问题 2. 库版本介绍 软件包本实验版本目前最新版matplotlib3.5.33.8.0numpy1.21.61.26.0python3.7.16scikit-learn0.22.11.3.0torch1.8.1cu1022.0.1torchaudio0.8.12.0.2torchvision0.9.1cu1020.15.2 新增 networkx2.6.33.1pandas1.2.32.1.1pyHSICLasso1.4.21.4.2seaborn0.12.20.13.0statsmodels0.13.50.14.0 3. IDE 建议使用Pycharm其中pyHSICLasso库在VScode出错尚未找到解决办法…… win11 安装 Anaconda2022.10pycharm2022.3/2023.1.4配置虚拟环境_QomolangmaH的博客-CSDN博客https://blog.csdn.net/m0_63834988/article/details/128693741 三、实验内容 0. 导入必要的工具包 import numpy as np import pandas as pd import scipy import matplotlib.pyplot as plt import seaborn as sns from scipy.stats import zscore from scipy.stats import ranksums from pyHSICLasso import HSICLasso from sklearn.preprocessing import LabelEncoder 1. 定义一些阈值和参数 p_cutoff 0.001 FC_cutoff 3 num_cutoff 10 p_cutoff 是判断差异显著性的 p 值阈值。FC_cutoff 是判断差异的倍数阈值。num_cutoff 是基因表达量筛选的阈值。 2. 读取数据 ndata pd.read_csv(normal_data.csv, index_col0, header0) tdata pd.read_csv(tumor_data.csv, index_col0, header0) 从文件 normal_data.csv 和 tumor_data.csv 中读取正常样本和肿瘤样本的基因表达数据。 normal_data.csv部分展示 TCGA-BL-A13J-11A-13R-A10U-07TCGA-BT-A20N-11A-11R-A14Y-07TCGA-BT-A20Q-11A-11R-A14Y-07TCGA-BT-A20R-11A-11R-A16R-07TCGA-BT-A20U-11A-11R-A14Y-07TCGA-BT-A20W-11A-11R-A14Y-07TCGA-BT-A2LA-11A-11R-A18C-07TCGA-BT-A2LB-11A-11R-A18C-07TCGA-CU-A0YN-11A-11R-A10U-07TCGA-CU-A0YR-11A-13R-A10U-07TCGA-GC-A3BM-11A-11R-A22U-07TCGA-GC-A3WC-11A-11R-A22U-07TCGA-GC-A6I3-11A-11R-A31N-07TCGA-GD-A2C5-11A-11R-A180-07TCGA-GD-A3OP-11A-11R-A220-07TCGA-GD-A3OQ-11A-21R-A220-07TCGA-K4-A3WV-11A-21R-A22U-07TCGA-K4-A54R-11A-11R-A26T-07TCGA-K4-A5RI-11A-11R-A28M-07?10000000000000000000?22.55213.89335.459416.458334.42645.221911.34638.2564.30548.747121.00843.183706.012817.762140.84528.308813.72161.5099?38.51195.730510.44177.68119.0621.35343.421925.75141.48346.54719.65152.64725.312110.733719.36419.13819.527318.536414.4093?4117.4995103.9108148.8251100.9537162.7054128.9808118.3924124.8423180.5137131.3118127.6985145.632795.2855119.1427149.7972128.4473142.8571128.644139.1199?5619.5833738.4077679.3286786.70361132.5581032.8771158.651143.321687.4096690.5882697.5129697.37611551.793556.22011018.907646.4851895.4832903.8232836.9674?60000000000000000000?7128.3422115.4856119.258120.6965120.930254.794582.700491.372966.5702153.5294259.3317272.8863291.500794.4976250.6016253.2622313.5504270.6093187.172?80.7376000.39570.77520.547900.463800000000.3332000?900000000000000.398700000 tumor_data.csv部分展示 TCGA-BT-A42F-01A-11R-A23W-07TCGA-C4-A0EZ-01A-21R-A24X-07TCGA-C4-A0F0-01A-12R-A10U-07TCGA-C4-A0F1-01A-11R-A034-07TCGA-C4-A0F6-01A-11R-A10U-07TCGA-C4-A0F7-01A-11R-A084-07TCGA-CF-A1HR-01A-11R-A13Y-07TCGA-CF-A1HS-01A-11R-A13Y-07TCGA-CF-A27C-01A-11R-A16R-07TCGA-CF-A3MF-01A-12R-A21D-07TCGA-CF-A3MG-01A-11R-A20F-07TCGA-CF-A3MH-01A-11R-A20F-07TCGA-CF-A3MI-01A-11R-A20F-07TCGA-CF-A47S-01A-11R-A23W-07TCGA-CF-A47T-01A-11R-A23W-07TCGA-CF-A47V-01A-11R-A23W-07TCGA-CF-A47W-01A-11R-A23W-07TCGA-CF-A47X-01A-31R-A23W-07TCGA-CF-A47Y-01A-11R-A23W-07TCGA-CF-A5U8-01A-11R-A28M-07?100.367100000000002.1101000000.57370?23.76137.328105.35982.80936.477713.93723.568440.37629.09149.08534.74093.9742.39047.021111.2489019.57226.34546.4641?32.89595.52180.663604.5452.89226.81445.397541.06653.62386.080612.13348.68657.80335.667717.39535.188717.411218.324713.092?4117.7889443.1501144.144692.6276136.3486238.55791.604211.2791100.480927.5497101.9194105.91878.537120.6983212.084670.1299106.1415150.7324103.2415149.5243?51754.6361546.3974391.827868.8195685.42011752.1671229.951456.665966.06551691.1261220.8531279.2292167.0481399.5921939.577978.75961754.7171110.2251262.7651477.273?600000000000000000000?7192.1065306.195515.926866.9972157.381932.169973.471749.6115426.9924745.960348.8152402.5713229.9982266.8196120.8459472.8729135.8491640.3191553.0694511.0994?802.9371000.7354000.59771.16351.059600.803500.50970.60420.485501.45034.58980.5285?900000000000000000000 3. 绘制箱型图 ndata.iloc[1000:1010, ].transpose().plot(kindbox, titleNormal Sample Gene Boxplot, rot30) plt.tick_params(labelsize10) plt.savefig(Normal_Sample_Gene_box_plot, bbox_inchestight) plt.show() 绘制正常样本中部分基因的箱型图并保存为图片文件。 4. 删除表达量低于阈值的基因 ndata ndata.iloc[29:, :] tdata tdata.iloc[29:, :] 删除正常样本和肿瘤样本中表达量低于阈值的基因。 5. 计算差异显著的基因 gene_sig ndata[ndata.mean(axis1) num_cutoff].index.intersection(tdata[tdata.mean(axis1) num_cutoff].index) Ndata ndata.loc[gene_sig] Tdata tdata.loc[gene_sig] 选择正常样本和肿瘤样本中表达量高于阈值的基因并保存为新的数据。 6. 初始化结果数据表格 p_value [1.] * len(Ndata) log2FoldChange [] label [0] * len(Ndata) result pd.DataFrame([p_value, log2FoldChange, label]) result result.transpose() result.columns [p_value, log2FC, label] result.index Ndata.index.tolist() p [] 创建一个结果数据表格包含 p 值、log2 fold change 和标签并初始化为默认值。 7. 进行秩和检验和差异倍数计算 for i in Ndata.index:p1 ranksums(Tdata.loc[i], Ndata.loc[i], alternativegreater)[1]p2 ranksums(Tdata.loc[i], Ndata.loc[i], alternativeless)[1]p3 ranksums(Tdata.loc[i], Ndata.loc[i])[1]result.loc[i, log2FC] np.log2(np.average(Tdata.loc[i]) / np.average(Ndata.loc[i]))p.append(p3)if (p1 p_cutoff):result.loc[i, p_value] p1if result.loc[i, log2FC] np.log2(FC_cutoff):result.loc[i, label] 1if (p2 p_cutoff):result.loc[i, p_value] p2if result.loc[i, log2FC] -np.log2(FC_cutoff):result.loc[i, label] -1 对每个基因进行秩和检验计算 p 值和差异倍数并根据设定的阈值确定差异显著的基因并给予标签。 8. 可视化分析 print(finished) plt.hist(result[log2FC], bins10, colorblue, alpha0.6, edgecolorblack) plt.title(fold change) plt.show() 9. 代码整合 import numpy as np import pandas as pd import scipy import matplotlib.pyplot as plt import seaborn as sns from scipy.stats import zscore from scipy.stats import ranksums from pyHSICLasso import HSICLasso from sklearn.preprocessing import LabelEncoderp_cutoff 0.001 FC_cutoff 3 num_cutoff 10# 读取数据ndata normal data,tdata tumor data ndata pd.read_csv(normal_data.csv, index_col0, header0) tdata pd.read_csv(tumor_data.csv, index_col0, header0)# 箱型图 # 中位数 # QL称为下四分位数表示全部观察值中有四分之一的数据取值比它小 # QU称为上四分位数表示全部观察值中有四分之一的数据取值比它大 # IQR称为四分位数间距是上四分位数QU与下四分位数QL之差其间包含了全部观察值的一半。 # 异常值通常被定义为小于QL1.5IQR或大于QU1.5IQR的值。 ndata.iloc[1000:1010, ].transpose().plot(kindbox, titleNormal Sample Gene Boxplot, rot30) plt.tick_params(labelsize10) plt.savefig(Normal_Sample_Gene_box_plot, bbox_inchestight) plt.show()# delete gene expression num ndata ndata.iloc[29:, :] tdata tdata.iloc[29:, :] gene_sig ndata[ndata.mean(axis1) num_cutoff].index.intersection(tdata[tdata.mean(axis1) num_cutoff].index) Ndata ndata.loc[gene_sig] Tdata tdata.loc[gene_sig] p_value [1.] * len(Ndata) # log2 fold change的意思是取log2这样可以可以让差异特别大的和差异比较小的数值缩小之间的差距 log2FoldChange [] label [0] * len(Ndata)result pd.DataFrame([p_value, log2FoldChange, label]) result result.transpose() result.columns [p_value, log2FC, label] result.index Ndata.index.tolist() p []# 秩和检验(也叫Mann-Whitney U-test)检验两组数据是否来自具有相同中位数的连续分布检验它们是否有显著差异。 # ’less‘ 基于 x 的分布小于基于 y 的分布 # ‘greater’ x 的分布大于 y 的分布。for i in Ndata.index:p1 ranksums(Tdata.loc[i], Ndata.loc[i], alternativegreater)[1]p2 ranksums(Tdata.loc[i], Ndata.loc[i], alternativeless)[1]p3 ranksums(Tdata.loc[i], Ndata.loc[i])[1]result.loc[i, log2FC] np.log2(np.average(Tdata.loc[i]) / np.average(Ndata.loc[i]))p.append(p3)if (p1 p_cutoff):result.loc[i, p_value] p1if result.loc[i, log2FC] np.log2(FC_cutoff):result.loc[i, label] 1if (p2 p_cutoff):result.loc[i, p_value] p2if result.loc[i, log2FC] -np.log2(FC_cutoff):result.loc[i, label] -1print(finished) # 查看差异倍数fold分布 plt.hist(result[log2FC], bins10, colorblue, alpha0.6, edgecolorblack) plt.title(fold change) plt.show()# result.to_csv(result.csv) up_data_n Ndata.loc[result.query((label 1)).index] up_data_t Tdata.loc[result.query((label 1)).index] down_data_n Ndata.loc[result.query((label -1)).index] down_data_t Tdata.loc[result.query((label -1)).index] data pd.concat([pd.concat([up_data_n, up_data_t], axis1), pd.concat([down_data_n, down_data_t], axis1)], axis0) deg_gene pd.DataFrame(data.index.tolist()) deg_gene.to_csv(deg_gene.csv) z1 zscore(np.log2(data1), axis0)sns.heatmap(dataz1, cmapcoolwarm, xticklabelsFalse) plt.savefig(heatmap_plot, bbox_inchestight) plt.show()p -np.log10(p) ax sns.scatterplot(xlog2FC, yp,huelabel,hue_order(-1, 0, 1),palette(#377EB8,grey,#E41A1C),dataresult) ax.set_ylabel(-log(pvalue), fontweightbold) ax.set_xlabel(FoldChange, fontweightbold)plt.savefig(deg_p_fc_plot, bbox_inchestight) plt.show()
http://www.yutouwan.com/news/77025/

相关文章:

  • 网站开发技术代码asp网站安装到空间
  • 青岛网站建设哪个好建筑工地网站
  • 网站是自己做还是让别人仿山东做网站公司
  • 苏州高新区建设局网站网站制作 网站开发
  • 一个用vue做的网站大气网站后台界面
  • 济南怎样做网站推广网站建设费专用票
  • 网站建设范本网站建设越来越便宜
  • 怎么做网站评估手机网站被自动跳转
  • 池州市网站建设优化成都灯光设计公司
  • 南京市环保局官方南京做网站单位网站建设需要哪些技术
  • 三河市建设厅公示网站优化公司组织结构
  • 免费制作网站用什么做济南 建网站
  • 杭州如何设计网站首页关键字挖掘机爱站网
  • 三三网是什么网站网上怎么开自己的网店呀
  • 做电脑网站与手机上的一样吗湖南建设厅网站不良记录
  • 网站编辑注意问题网络营销包括哪些
  • 郑州网站设计推荐南海网站设计
  • 做响应式网站兼容哪几个尺寸花生壳做网站速度
  • 手机怎样做刷赞网站《基层建设》官方网站
  • 济南网页开发公司seo建站网络公司
  • seo网站推广方案策划书手机如何创建网页链接
  • 网站建设商务合同范本360搜索推广官网
  • 网站开发后端菜鸟教程广西网站建设价钱
  • 页网站企业资质查询平台
  • 充值网站怎么做的网上祭奠类网站怎么做
  • 自己做的网站如何赚钱吗建在线教育网站需要多少钱
  • 网上做视频赚钱的网站深圳设计公司vi设计模板
  • 网站内容建设 内容审核流程现货行情分析软件app
  • 网站建设业务员的工作总结及计划四川seo关键词工具
  • 黄石有哪些做视觉网站的公司wordpress的播放器