生信自学论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: TCGA GEO R
查看: 1257|回复: 2

TCGA CNV分析方法

  [复制链接]

9

主题

20

帖子

57

积分

注册会员

Rank: 2

积分
57
发表于 2017-9-13 14:16:09 | 显示全部楼层 |阅读模式
生信自学网课程
明白什么是CNV
对正常人来说,基因组应该是二倍体的,所以凡是测到非2倍体的地方都是CNV。但是CNV本身就是人群遗传物质多样性的体现,所以对癌症样本来说,是需要过滤掉正常人体内的germline的CNV,得到somatic的CNV。

CNV(copy-numbervariant)是指拷贝数目变异,也称拷贝数目多态性(copy-number polymorphism,CNP),是一个大小介于1kb至3MB的DNA片段的变异,在人类及动植物基因组中广泛分布,其覆盖的核苷酸总数大大超过单核苷酸多态性(SNP)的总数,极大地丰富了基因组遗传变异的多样性。按照CNV是否致病可分为致病性CNV、非致病性CNV和不明临床意义CNV。

TCGA的CNV测量及计算
TCGA里面主要是通过Affymetrix SNP6.0 array这款芯片来测拷贝数变异!

值得注意的是,并不是只有TCGA利用了SNP6.这个芯片数据,著名的CCLE计划也对一千多细胞系处理了SNP6.0芯片,数据也是可以下载的。

对SNP6.0的拷贝数芯片来说,通常是用PICNIC等软件处理原始数据,就可以得到的segment记录文件,每个样本一个结果,下面是示例结果:

表明了某条染色体的某个区域内,SNP6.0芯片设计了多少个探针,芯片结果的拷贝数值是多少(这个区域的拷贝数用Segment_Mean)。

通常二倍体的Segment_Mean值为0,可以用-0.2和0.2来作为该区域是否缺失或者扩增。

具体数据处理流程见NIH的TCGA官网: https://docs.gdc.cancer.gov/Data/BioinformaticsPipelines/CNVPipeline/

参考文献:http://mcr.aacrjournals.org/content/12/4/485.long

TCGA的CNV数据下载
众所周知,TCGA的数据的开放程度分成了4个等级,一般人都是下载level 3 的数据,对CNV数据也是如此。

我比较喜欢去broad institute下载TCGA的数据,所有的文件都以目录的形式存放着:

  • https://gdac.broadinstitute.org/runs/stddata__latest/
  • https://gdac.broadinstitute.org/runs/analyses__latest/


如果要下载level3的数据,就用 stddata__latest 这个url即可,打开可以看到里面列出了所有的癌症种类,假如我们感兴趣的是BRCA,就直接点击进入,用下面的url即可。

  • https://gdac.broadinstitute.org/runs/analyses__latest/data/BRCA/20160128/


打开url可以看到非常多的文件,这里我们感兴趣的是snp6芯片的拷贝数结果,而且一般是基于hg19版本的。


如果要下载其它癌症种类,只需要改变url里面的BRCA即可。 如果要下载其它类型的数据,只需要改变-A 后面的匹配规则即可,其实就是打开上面url看到的几十个文件的文件名的规律。

  • '*snp_6*hg19*Level_3*'


几分钟就下载完数据啦,然后你就会看到下面两个截然不同的:

  • Merge_snp__genome_wide_snp_6__broad_mit_edu__Level_3__segmented_scna_hg19__seg
  • Merge_snp__genome_wide_snp_6__broad_mit_edu__Level_3__segmented_scna_minus_germline_cnv_hg19__seg


其中minus了germline的CNV的就是我们想要的癌症相关的somatic CNV咯!

拿到CNV做什么?

首先两个segment文本文件已经可以直接载入IGV查看所有BRCA样本的CNV情况啦,如下所示:

CNV深度分析注释基因
前面我们下载的CNV都是基于基因组区域的,比如1号染色体的61735起始坐标到1510801终止坐标。在IGV里面倒是可以看出一些pattern,但是人们感兴趣的往往是这些位置上面到底有哪些基因。接下来就可以对基因进行各种下游分析。

既然是对基因组片段做基因注释,那么首先就需要拿到基因的坐标信息咯,我是在gencode数据库里面下载,然后解析成下面的bed格式的,如下:


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

9

主题

20

帖子

57

积分

注册会员

Rank: 2

积分
57
 楼主| 发表于 2017-9-13 14:17:22 | 显示全部楼层
生信自学网课程
然后要把我们下载的CNV文本文件,转为bed格式的,就是把列的顺序调换一下:

避免重复造轮子,我就用我擅长的bedtools解决这个需求吧,命令很简单,如下:

  • bedtools intersect -a Features.bed  -b  ~/reference/gtf/gencode/protein_coding.hg19.position  -wa -wb  \
  • | bedtools groupby -i - -g 1-4 -c 10 -o collapse


注释结果,我挑了几个可以看的给大家,可以看到,每个CNV片段都注释到了对应的基因,有些特别大的片段,会被注释到非常多的基因。

找somatic CNVs

仔细看上面IGV的pattern你会发现某些染色体的某些片段经常会扩增或者缺失,这个现象就是人们想研究是recurrent CNV regions,当然不会用肉眼看咯,这时候需要用GISTIC这个软件。 找到了recurrent CNV regions同样是需要进行基因注释,才能进行下游分析咯。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

0

主题

6

帖子

14

积分

新手上路

Rank: 1

积分
14
发表于 2017-9-21 10:01:38 | 显示全部楼层
生信自学网课程
这个分析很有价值,收藏
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|生信自学网论坛 ( 粤ICP备14097033号 )

GMT+8, 2018-10-23 22:32 , Processed in 0.129413 second(s), 20 queries .

Powered by biowolf.cn

© 2001-2017 BioWolf

快速回复 返回顶部 返回列表