知识的价值不在于占有,而在于使用。

生信自学网-速科生物-生物信息学数据库挖掘视频教程

当前位置: 主页 > TCGA >

TCGA数据库生存分析绘制5年生存曲线

时间:2017-10-31 15:01来源:原创 作者:森莘 点击:
TCGA数据库挖掘,可以做表达量差异分析,临床分析,结合表达和临床可以做生存分析,生存分析为了探索和了解影响生存时间长短的因素,或平衡某些因素影响后,研究某个或某些因素
TCGA数据库分析,如果做了基础分析,可以得到几个数据表格;分别是基因表达量,做了差异分析之后得到的差异基因,提取了临床数据的可以得到临床数据,当然临床数据有简单的,也有复杂一些的,最简单的是从metadata文件提取,可以得到生存时间和生存状态,以及样本代号3列;如果是学习了如何用XML文件提取临床数据,那么可以得到常用的16列临床数据,包括生存时间,生存状态,TNM分期,分级等临床信息。TCGA数据库是以表达量见长的,对于治疗方式和术后等临床信息,一般都不全,所以希望分析更多癌症临床的学员,可以考虑使用SEER数据库,SEER数据库是癌症临床数据库,包括非常全的临床数据,是临床医学的重点研究数据库。
TCGA生存曲线绘制
那么有了表达量文件,有了差异基因,又有了临床信息,把这些信息结合在一起,就可以分析单个基因的生存曲线了。那么如何才能把某个差异基因的表达量和临床数据结合起来的,这里需要我们用到样本代号作为切入点,临床数据也有样本代号,表达量文件也有样本代号。
当然这个步骤可以使用excel操作,也可以学习编程,编程是一劳永逸的事情,但是切不可窃取别人的劳动成果,购买了生信自学网的视频,得到了课件和代码,自己学习是可以的,这个不是分享的时候,我们生信自学网的课程和代码都是有版权的,希望大家尊重知识原创。
接下来,就可以绘制生存曲线了,生存曲线常用的软件,有R和SPSS,R功能强大,可以做数据处理和绘图多个分析,SPSS上手容易,但始终无法处理序列和文本文件,所以有时间建议学习下R。当然如果是学习生信自学网的课程,是无需编程基础的,直接学习,把代码放在R里面跑就可以了,准备好输入文件就OK了。
生存概率

生存曲线(survival curve):以观察(随访)时间为横轴,以生存率为纵轴,将各个时间点所对应的生存率连接在一起的曲线图。
生存曲线是一条下降的曲线,分析时应注意曲线的高度和下降的坡度。平缓的生存曲线表示高生存率或较长生存期,陡峭的生存曲线表示低生存率或较短生存期。
TCGA数据库生存曲线,用到的R包是survival包

1. 生存时间(survival time) 
生存时间:从研究起始到终点事件之间所经历的时间跨度,度量单位可以是小时、日、月、年等。研究起始、终点事件、时间单位应在研究设计阶段明确。 
2. 删失(censoring) 
生存结局(status)分为“死亡”与删失两类,“死亡”是感兴趣的终点事件,其他终点事件或生存结局都归类为删失(censoring)(也称截尾或终检)。举例来说,如果要研究两种治疗组直肠癌患者预后的差异,研究的终点事件是因直肠癌死亡;那么,因车祸的死亡,心梗发生的死亡,存活,失访的患者的生存结局都是:删失。在生存分析的图中,删失数据都统一用“+”显示。 
 


加生信自学网群
责任编辑:伏泽
作者申明:本文版权属于生信自学网(微信号:18520221056)未经授权,一律禁止转载!
BioWolf二维码生成器
------分隔线----------------------------
GEO芯片数据库挖掘生信视频教程
推荐内容
TCGA数据库挖掘文章套路生信视频教程
中药复方网络药理学文章套路生信视频教程