知识的价值不在于占有,而在于使用。

生信自学网-速科生物-生物信息学数据库挖掘视频教程

当前位置: 主页 > 生信数据库 >

TCPA蛋白质数据库简介(TCPA数据库/RPPA蛋白质组学

时间:2020-01-31 11:35来源:生信自学网 作者:乐伟 点击:
TCPA蛋白质数据库简介(TCPA数据库/RPPA蛋白质组学)

TCPA数据库简介

TCPA数据库通过整合来自TCGA和几个独立的肿瘤研究项目的RPPA芯片数据,提供了一个肿瘤蛋白质谱数据中心。TCPA包含两个独立的Web应用程序,第一个着眼于患者肿瘤的RPPA数据,其包含癌症基因组图谱中32种癌症类型越8000个样本,另外约500个来自独立患者队列的样本。第二个应用侧重于癌细胞系的RPPA数据,包含19个谱系的>665个独立细胞系。

对于每个数据集,TCPA提供level3level4数据,level3数据代表来自独立批次的归一化数据,level4数据代表多个批次的合并数据。

 

1、进入TCPAThe Cancer Proteome Atlas)数据库官网,下载蛋白数据

2、从官网下载的数据,有些会有缺失值,在导入分析之前,我们需要对数据进行补缺

 

3、样本临床数据下载,这里我们可以通过TCGA官网下载对应的临床数据,因为TCGATCPA的样本和临床是相同的,下载的是xml格式,需要整理成表格数据,把样本的生存时间,生存状态,年龄,性别,分级,分期,TMN分期都提取出来,做后续分析

4、蛋白表达量和生存数据合并,合并之后,就可以根据生存信息和表达量做生存分析,这里根据两种方法计算生存,KM方法和COX方法

5、绘制火山图,横坐标是log2(HR),纵坐标是-log10(pvalue),筛选条件pvalue<0.05,黑色点代表跟预后无关的点,红色代表高风险蛋白,黑色代表低风险蛋白

6、蛋白预后模型构建,用预后相关的蛋白构建模型,在用模型计算每个样本的风险值,然后根据中位值对每个样本进行风险划分

7、生存曲线绘制,绘制关键蛋白的生存曲线

风险生存曲线绘制,根据风险值绘制风险生存曲线

风险曲线

8、独立预后分析

单因素独立预后分析,将临床性状和风险值一个一个输入,跟生存时间和生存状态进行比较,得到pvalueHR值,HR值大于1,说明该因素是高风险因素,HR值小于1,说明该因素是低风险因素

多因素独立预后分析,将所有的临床和风险值一次性输入,跟生存时间和生存状态进行比较,这个时候会考虑因素之间的关系

9、多指标ROC曲线,横坐标假阳性率,纵坐标真阳性率,把临床和风险值绘制ROC曲线,AUC值是曲线下的面积,AUC值越大,说明该因素用来预测病人的生存准确性是越高的,AUC值大于0.7,说明准确性比较高

10、蛋白共表达分析,相关系数,pvalue值作为筛选条件,cor大于0,说明是正相关,cor小于0,说明是负相关

 

11、桑基图绘制,就是对共表达蛋白进行可视化,左边是预后相关的蛋白,右边是与预后相关相关的蛋白
精品课程推荐:
《中药复方网络药理学联合GEO》
《单细胞测序分析》
《TCGA单基因发文套路挖掘》




 


加生信自学网群
责任编辑:伏泽
作者申明:本文版权属于生信自学网(微信号:18520221056)未经授权,一律禁止转载!
BioWolf二维码生成器
------分隔线----------------------------
GEO芯片数据库挖掘生信视频教程
推荐内容
TCGA数据库挖掘文章套路生信视频教程
中药复方网络药理学文章套路生信视频教程