TCPA数据库简介 TCPA数据库通过整合来自TCGA和几个独立的肿瘤研究项目的RPPA芯片数据,提供了一个肿瘤蛋白质谱数据中心。TCPA包含两个独立的Web应用程序,第一个着眼于患者肿瘤的RPPA数据,其包含癌症基因组图谱中32种癌症类型越8000个样本,另外约500个来自独立患者队列的样本。第二个应用侧重于癌细胞系的RPPA数据,包含19个谱系的>665个独立细胞系。
对于每个数据集,TCPA提供level3和level4数据,level3数据代表来自独立批次的归一化数据,level4数据代表多个批次的合并数据。 1、进入TCPA(The Cancer Proteome Atlas)数据库官网,下载蛋白数据
2、从官网下载的数据,有些会有缺失值,在导入分析之前,我们需要对数据进行补缺 3、样本临床数据下载,这里我们可以通过TCGA官网下载对应的临床数据,因为TCGA和TCPA的样本和临床是相同的,下载的是xml格式,需要整理成表格数据,把样本的生存时间,生存状态,年龄,性别,分级,分期,TMN分期都提取出来,做后续分析 4、蛋白表达量和生存数据合并,合并之后,就可以根据生存信息和表达量做生存分析,这里根据两种方法计算生存,KM方法和COX方法 5、绘制火山图,横坐标是log2(HR),纵坐标是-log10(pvalue),筛选条件pvalue<0.05,黑色点代表跟预后无关的点,红色代表高风险蛋白,黑色代表低风险蛋白 6、蛋白预后模型构建,用预后相关的蛋白构建模型,在用模型计算每个样本的风险值,然后根据中位值对每个样本进行风险划分 7、生存曲线绘制,绘制关键蛋白的生存曲线 风险生存曲线绘制,根据风险值绘制风险生存曲线 风险曲线 8、独立预后分析 单因素独立预后分析,将临床性状和风险值一个一个输入,跟生存时间和生存状态进行比较,得到pvalue和HR值,HR值大于1,说明该因素是高风险因素,HR值小于1,说明该因素是低风险因素 多因素独立预后分析,将所有的临床和风险值一次性输入,跟生存时间和生存状态进行比较,这个时候会考虑因素之间的关系 9、多指标ROC曲线,横坐标假阳性率,纵坐标真阳性率,把临床和风险值绘制ROC曲线,AUC值是曲线下的面积,AUC值越大,说明该因素用来预测病人的生存准确性是越高的,AUC值大于0.7,说明准确性比较高
10、蛋白共表达分析,相关系数,pvalue值作为筛选条件,cor大于0,说明是正相关,cor小于0,说明是负相关
11、桑基图绘制,就是对共表达蛋白进行可视化,左边是预后相关的蛋白,右边是与预后相关相关的蛋白 责任编辑:伏泽 作者申明:本文版权属于生信自学网(微信号:18520221056)未经授权,一律禁止转载! |