QQ登录

只需一步,快速开始

使用微信账号登录

查看: 2148|回复: 1

提取文献数据小工具

  [复制链接]

该用户从未签到

9

主题

25

帖子

61

积分

注册会员

Rank: 2

积分
61
发表于 2017-9-14 06:05:57 | 显示全部楼层 |阅读模式
生信自学课堂
用Engauge Digitizer软件提取文献中的数据

Engauge这是一款开源软件,用于从文献曲线图或地图中提取数据。软件无需安装,解压文件后,双击图标即可使用,“usermanual”文件夹应该是帮助文件(英文版),还有一个“sample”文件夹提供很多例子。下面是简单的操作步骤(以曲线图为例):

1. 导入一张曲线图(File→Import或按钮1),也可以把曲线图以图片形式拷贝,粘贴(Edit→Paste As New)到软件中。软件支持的图片格式有Bmp、Gif、Jpg、Png、Pnm、Xpm。

    其中按钮3、2分别表示“保存当前文件(保存成dig文件)”和“打开一个dig文件”。按钮5为“帮助”,再单击按钮5之后,再单击面板上不明白的地方,系统会弹出相应的“帮助”。
    2. 定坐标轴。(Digitize→Axis Point或按钮7),光标变成十字形,分别在坐标轴原点、X-轴最大值和Y-轴最大值处点击,在弹出的对话框中输入该点的坐标值。按钮8是极坐标。
    按钮6有“选择”作用,选中后按“Delete”键可以删除选中点。

    3. 描点。选择curve point(按钮9)或 segment fill(按钮10)描点。curve point 是逐点选择,而 segment fill 自动选择。
    4. 导出数据。点击按钮4,把描出的点导出来(可以导成txt或者dat文件,扩展名要自己写)就完成了。

特性:

  • 对线图进行自动曲线追踪
  • 自动匹配散点图
  • 自动匹配坐标轴
  • 曲线追踪中自动去掉坐标网格
  • 处理各种坐标系(笛卡尔坐标系、极坐标系、线性坐标系及对数坐标系)
  • 支持多种平台 (Linux, Mac OSX, Windows)
  • 支持多种图形文件格式(BMP, GIF, JPEG, PNG and XPM)
  • 可导出到多种软件(Microsoft Excel, OpenOffice CALC, gnuplot, gnumeric, MATLAB and Mathematica)

案例与问题:

用engauge digitizer提取曲线上的点代表的数据之后,在把提取的K-M图上的数据根据07年tierney中的那个excel表进行提取HR时,出现了卡壳现象:
1.因为生存曲线图一般都是两条以上曲线(实验组和对照组),在带入07年tierney中的那个excel表提取HR时,需要在一个统一的时间点中,那么在提取数据时怎么样保证两条曲线提取数据时他们横坐标(即时间点)是一样的呢?
2. 用engauge digitizer提取曲线上的数据带入07年tierney那个excel表中,我也大概能求出一个HR值,但是不清楚自己求出的对不对,哪位牛人可以 指点下啊? (3a)_Curve_Data_with_n(risk)和(2a)_Curve_Data在使用上是不是只能取50个点呢? (1)_Summary_Data这个sheet是不是没有啥用啊?

处理方案:
step1:取图


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

该用户从未签到

9

主题

25

帖子

61

积分

注册会员

Rank: 2

积分
61
 楼主| 发表于 2017-9-14 06:07:01 | 显示全部楼层
生信自学课堂
黑色线代表某因素阳性的,红色线代表某因素阴性的。(50%只是代表判别这一因素阳性的分类标准,大家不用理会它)
step2:导入软件,图上取点

step3:

看下取点的数据,从这一步看出只能取一个曲线上的点,不能显示两条曲线的点。。。。
step4:
导出数据

这一步我觉得挺bug的,虽然导出时解决了同时导出同一时间点的问题,但是还是在曲线水平段出现生存曲线值稍微上升的点,,我个人认为需要手动解决修改这些 点,比如85.。。这个问题的出现应该是取点软件取点比较敏感和人工取点不可能这么精确决定的。我通过也试过egauge digitizer的自动取点(虽然避免了手工取点不精确的问题,但是取的点太多了,,后面的用parmar的表值放不下),我也试用getdata digitizer软件取点,这个软件我发现有放大取点部分使取点准确地功能,但是我还没有用getdata digitizer找到在两条曲线上取同一时间点方法。请那位牛人知道赐教?
step5:导入incorporating1745-6215-8-16-S1那个表

得出来这次估计的HR值是3.2
以上就是我的过程。

小技巧:如何取点更准备?

取点如何尽可能准确?(又能保证两条曲线在多条曲线上横坐标的时间点是一样的,同时也可以带入cal methods for incorporating1745-6215-8-16-S1.excel表中自动计算?)
建议采用Photoshop扩大图片,提高像素,再进行分析,就可以达到目的,取值会更准确了。

类似软件:

GetData Graph Digitizer
Graph Digitizer Scout
windig

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

客服热线
18520221056(微信) 周一至周日:09:00 - 22:00
公司官网:http://www.biowolf.cn

速科生物是一家融生信创新、设计、技术开发、服务为核心的生物公司,生信自学网专注于生信培训周边课程开发和代码设计,坚持为客户打造高品质的精品课程和培训服务。

Powered by 生信自学网 © 2016-2019 江西速科生物

QQ|生信自学论坛 ( 赣ICP备19001400号-1 )

GMT+8, 2019-8-23 14:29 , Processed in 0.173345 second(s), 25 queries .

快速回复 返回顶部 返回列表