zoukankan      html  css  js  c++  java
  • 对性染色体进行关联分析

    欢迎来到"bio生物信息"的世界

    1 前言

    早期的研究普遍只做常染色体的全基因组关联分析,很少做性染色体的。

    主要原因是性染色体的遗传模式比较复杂,存在X染色体失活,而且男女效应值不大一样。

    其次,也不是所有的表型都是男女有差异的。

    再然后,也没有很好的工具计算性染色体的关联分析。

    随着遗传学的研究发展,现在有很多工具是允许计算性染色体的关联分析。

    下面简单介绍一个常见的工具SNPTEST

    网址:https://mathgen.stats.ox.ac.uk/genetics_software/snptest/snptest.html

    2 SNPTEST支持什么分析

    SNPTEST支持很多分析

    比如,

    二分类、单个或者多个连续型表型的关联分析

    贝叶斯、加性模型、显性模型、隐性模型、常规模型、杂合子模型

    对一个或多个协变量、SNP位点进行条件分析

    变量间的交互作用分析

    性染色体关联分析

    3 如何使用SNPTEST对性染色体进行关联分析

    3.1 下载、安装(以CentOS6.6为例)

    对于linux系统而言,建议选择动态链接版本(文件写着dynamic)

    wget http://www.well.ox.ac.uk/~gav/resources/snptest_v2.5.4-beta3_CentOS6.6_x86_64_dynamic.tgz

    tar zxvf snptest_v2.5.4-beta3_CentOS6.6_x86_64_dynamic.tgz

    3.2 准备输入文件

    输入文件需要两种类型。一种是表型文件,以.sample后缀,一种是基因型文件。

    3.2.1 表型文件.sample的准备

    下图是表型文件的格式

    M6agmV.md.png

    第一行是表型的title,第二行是对每一列的数据说明。

    注意,头两行是必须的,不然会报错。

    先讲第一行的格式:

    第一列和第二列是样本的family ID 和个体ID。

    第三列是missing,指的是样本的缺失率,这一列可以通过plink的--missing参数获得。

    第四列到第七列都是协变量。(红色框框)

    第八列到第十一列都是表型。(蓝色框框)

    最后一列是性别。(绿色框框)

    再讲第二行的格式:

    第二行的0 0 0 D D C C P P B B D又是什么呢

    前三个0 0 0不需要修改,直接照着写。

    红色框框D D C C 指的是协变量的类型为离散型(D)和连续型(C)

    蓝色框框P P B B指的是表型的类型为连续型(P)和二分类(B)

    绿色框框D指的是性别为离散型(D)

    3.2.2 基因型文件的准备

    基因型文件支持三种格式。

    第一种:GEN 或 gzipped GEN 格式,以.gen 或 .gen.gz结尾

    第二种:BGEN格式,以.bgen结尾

    第三种:plink格式,以.bed结尾

    3.3 做性染色体的关联分析

    输入如下命令:

    ./snptest

    -data ./example/cohort1_0X.bed ./example/cohort1.sample ./example/cohort2_0X.bed ./example/cohort2.sample

    -o ./example/ex.out

    -method newml

    -frequentist 1

    -pheno bin1

    解释一下这些参数的意思。

    -data后面跟的是一个或多个队列的基因型文件(.bed)和表型文件(.sample),这里列举了两个队列。在实际的分析中,可以只分析一个,也可以同时分析多个队列。

    -o指的是输出的文件路径(./example/)和文件名(ex.out)。

    -method指的是所用的方法。

    -frequentist指的是用的模型。模型可选加性模型、显性模型、隐性模型、常规模型、杂合子模型。分别用1,2,3,4,5表示。 1=Additive, 2=Dominant, 3=Recessive, 4=General and 5=Heterozygote

    -pheno指的是所分析的表型列名。

    3.4 可能出现的报错

    报错1:!! Error: (genfile::DuplicateIndividualError) A duplicate sample occurs on line 4 of the file

    解决方法:这个报错说明ID_1的字段是一样的。需要将ID_1的每个样本修改为独一无二的字符。可以与ID_2保持一致。

    报错2:!! Error: the number of individuals (xxx) in the sample file differs from the number (yyy) in the genotypes file

    解决方法:将基因型文件(.bed)的顺序和数量与表型文件(.sample)的顺序和数量保持一致

    报错3:二分类表型识别不了

    解决方法:将二分类表型修改撑0,1编码,SNPtest识别不了1,2

  • 相关阅读:
    20.Valid Parentheses
    67.Add Binary
    String、StringBuilder、StringBuffer
    15句乔布斯经典语录(中英文)
    几个高逼格 Linux 命令!
    几个高逼格 Linux 命令!
    24 个必须掌握的数据库面试问题!
    24 个必须掌握的数据库面试问题!
    chrome开发者工具各种骚技巧
    chrome开发者工具各种骚技巧
  • 原文地址:https://www.cnblogs.com/chenwenyan/p/11884827.html
Copyright © 2011-2022 走看看