QQ登录

只需一步,快速开始

使用微信账号登录

查看: 3119|回复: 4

TCGA数据库讲解与数据下载

  [复制链接]

该用户从未签到

4

主题

16

帖子

68

积分

注册会员

Rank: 2

积分
68
发表于 2017-9-7 21:19:37 | 显示全部楼层 |阅读模式
生信自学课堂
本帖最后由 xiaozhang 于 2017-9-8 06:56 编辑

TCGA (The cancer genome atlas)是一个非常重要的癌症数据库,其主要收录各种人类癌症(包括亚型在内的肿瘤)的临床数据,基因组变异,mRNA表达,miRNA表达,甲基化等数据,是癌症研究者很重要的数据来源。

TCGA官网


一、数据等级
TCGA存储的数据可分为三个级别:
Level 1: 原始的测序数据(fasta,fastq等)
Level 2:比对好的bam文件
Level 3:为经过处理及标准化的数据
Level 1和Level 2文件很大,若要下载可使用官方提供的小工具:GDC Data Transfer Tool,然后自己重新比对来call mutation, 或者提取count data做差异表达分析(不适合懒人操作,且大多数人很难拿到权限,下面会说)。


二、数据权限
Level 1和Level 2数据为controlled-access(限制下载),Level 3有部分是controlled-access,其余是开放下载,若你想下载的数据level显示“Unauthorized”,则表示不能直接下载,需要先向TCGA申请使用权限。
比如:
理论上,限制下载的数据可以通过申请dbgap账号获得下载权限,但是申请这个账号需要NIH/NCI资格审核,且需要提供eRA account ID(在美国申请grant对应的ID),所以一般只有国外PI才可能申请通过。所以对小白来说这个基本是行不通的,小编建议还是乖乖下载3级数据。


三、三级数据下载
TCGA-3级数据下载网站主要有两个:
① TCGA官方的
优点:数据最全,更新最快
缺点:每个样本是一个单独的文件,如果下载某一个癌症的RNA数据,要下载好几百个文件,然后合并

回复

使用道具 举报

该用户从未签到

4

主题

16

帖子

68

积分

注册会员

Rank: 2

积分
68
 楼主| 发表于 2017-9-7 21:27:10 | 显示全部楼层
生信自学课堂

下载方法介绍:

  • 在主页搜索想要下载的癌症类型
  • 以表达数据为例,可见LUAD共有515个case有RNA-Seq数据,点击进入。
  • 左边可以对样本进行筛选,点击右侧数字可以下载表达数据(Exp),临床数据(Clinical)和Annotation(注释信息,可以找到样本ID对应的case,control情况)。
  • 注意表达数据根据分为了HTSeq-Counts,HTSeq-FPKM,HTSeq-FPKM-UQ三种类型,Counts是数据后台没有处理的原始表达量,而FPKM和FPKM-UQ是两种数据标准化处理后的数据,一般差异表达下载counts,下载所有样本后合并,用DESeq即可。
  • FPKMFPKM-UQ计算方法:


方法二:

Firehose服务器:gdac.broadinstitute.org


优点:数据也来源于 portal.gdc.cancer.gov,但是将同一种癌症、同种类型的数据合并到了一起,超级方便,一键下载,无需合并数据。


下载方法介绍:

  • 点击LUAD对应的Data-Browse
  • 稍等片刻,会弹出LUAD项目所有样本合并后的3级数据,需要什么数据点击文本即可下载,非常方便快捷。当然也可以下载临床数据等,各取所需了。



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复 支持 反对

使用道具 举报

该用户从未签到

9

主题

20

帖子

67

积分

注册会员

Rank: 2

积分
67
发表于 2017-9-7 21:39:24 | 显示全部楼层
生信自学课堂
为什么不用gdc用具下载,搞得这么复杂
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

客服热线
18520221056(微信) 周一至周日:09:00 - 22:00
公司官网:http://www.biowolf.cn

速科生物是一家融生信创新、设计、技术开发、服务为核心的生物公司,生信自学网专注于生信培训周边课程开发和代码设计,坚持为客户打造高品质的精品课程和培训服务。

Powered by 生信自学网 © 2016-2019 江西速科生物

QQ|生信自学论坛 ( 赣ICP备19001400号-1 )

GMT+8, 2019-7-16 06:00 , Processed in 0.170711 second(s), 33 queries .

快速回复 返回顶部 返回列表