知识的价值不在于占有,而在于使用。

生信自学网-速科生物-生物信息学数据库挖掘视频教程

当前位置: 主页 > GEO >

提取GEO表达谱芯片的数据矩阵

时间:2017-06-05 13:51来源:原创 作者:BioWolf 点击:
之前的课程我们讲解了如何从GEO数据库检索芯片数据,这节课给大家讲解如何从下载的数据中提取需要的矩阵文件。 下载的数据是压缩包格式,首先解压,得到soft文件,然后用UI文本编

之前的课程我们讲解了如何从GEO数据库检索芯片数据,这节课给大家讲解如何从下载的数据中提取需要的矩阵文件。

下载的数据是压缩包格式,首先解压,得到soft文件,然后用UI文本编辑器打开这个文件,里面有注释信息和我们需要的样本矩阵。从ID_REF开始是我们需要的矩阵数据,包括基因,样本,和表达数据,这些表达数据一般是取过log2的,也有特殊情况,正常情况,数值比较小的话,一般10以下,是取过log2的,如果数值很大就是没有取过log2的。
芯片介绍
接下来需要在EXCEL里面对这个文件进行编辑,导入到EXCEL里面也需要一些技巧,因为有些基因导入到EXCEL里面会变成月份,这个可能基因命名的人也没有预料到。所以不能直接把soft文件拖入到EXCEL里面,这里有一个技巧,可以先新建一个EXCEL文件,比如有20个样本,那我们选取25列,右键属性,选择文本,这样,我们把UI编辑器里面的soft文件复制,然后黏贴到EXCEL里面就可以避免基因变成月份的情况了。
ID矩阵
ID矩阵截图

导入到EXCEL里面后,把相关注释信息删除掉,保留基因列,样本表达列。这里我们发现有些不是基因,是探针所在的染色体,这些行对于我们后续分析没有什么作用,在这里可以把这些探针删除。怎么样找到这些染色体呢?可以直接把这一列排序,就可以看到。
矩阵文件

处理到这一步,我们把基因列,样本表达列,所有基因的行,复制出来保存到一个新的txt文件,就得到我们下节课需要用到的矩阵文件。得到一个行名是基因名,列名是样本名的矩阵。下节课我们会给大家讲解如何做差异表达分析,R脚本相关R包。


加生信自学网群
责任编辑:伏泽
作者申明:本文版权属于生信自学网(微信号:18520221056)未经授权,一律禁止转载!
BioWolf二维码生成器
------分隔线----------------------------
GEO芯片数据库挖掘生信视频教程
推荐内容
TCGA数据库挖掘文章套路生信视频教程
中药复方网络药理学文章套路生信视频教程