zoukankan      html  css  js  c++  java
  • fastx_toolkit软件使用说明

    高通量测序数据下机后的原始fastq文件,包含4行,其中一行为质量值,另外一行则为对应序列,我们都了解高通量的数据处理首先要进行质量控制,这些过程包括去接头、过滤低质量reads、去除低质量的3’和5’端,去除N较多的reads等,而针对高通量测序数据的质控软件也有很多,在这里给大家介绍一款“老牌子”的质控工具fastx_toolkit,它是一个软件包,包含了多个质控命令,下面我们就逐个讲解其参数及使用:

    1. fastq_quality_converter [-h] [-a] [-n] [-z] [-i INFILE] [-f OUTFILE]直观观察质量值
      [-h]         =打印帮助
      [-a]         = 输出ASCII的质量得分(默认).
      [-n]         = 输出质量值数据.
      [-z]         = GZIP压缩输出.
      [-i INFILE]  = 输入fasta/fastq格式的文件.
      [-o OUTFILE] = 输出fasta/fastq文件.

    2.  fastq_masker [-h] [-v] [-q N] [-r C] [-z] [-i INFILE] [-o OUTFILE]屏蔽低质量碱基
      [-q N]     =质量门限值,质量值低于这个门限值的将被mask掉,默认值为10
      [-r C]       = 用C替代低质量的碱基,默认用N来替代
      [-z]          = 输出用GZIP压缩.
      [-i INFILE]  = 输入FASTA文件
      [-o OUTFILE] = 输出文件
      [-v]         = 详细-报告序列编号,如果使用了-o则报告会直接在STDOUT,如果没有则输入到STDERR

    3. fastq_quality_filter [-h] [-v] [-q N] [-p N] [-z] [-i INFILE] [-o OUTFILE]过滤低质量序列
      [-q N]       = 最小的需要留下的质量值
      [-p N]       = 每个reads中最少有百分之多少的碱基需要有-q的质量值
      [-z]         =压缩输出
      [-v]       =详细-报告序列编号,如果使用了-o则报告会直接在STDOUT,如果没有则输入到STDERR

    4. fastq_quality_trimmer [-h] [-v] [-t N] [-l N] [-z] [-i INFILE] [-o OUTFILE] 修剪reads的末端
      [-t N]       = 从5'端开始,低与N的质量的碱基将被修剪掉
      [-l N]       = 修建之后的reads的长度允许的最短值
      [-z]         = 压缩输出
      [-v]       =详细-报告序列编号,如果使用了-o则报告会直接在STDOUT,如果没有则输入到STDERR

    5. fastq_to_fasta [-h] [-r] [-n] [-v] [-z] [-i INFILE] [-o OUTFILE]fastq转换成fasta   [-r]         =  序列用序号重命名
      [-n]         = 保留有N的序列,默认不保留
      [-z]         = 压缩输出

    6. fastx_trimmer [-h] [-f N] [-l N] [-t N] [-m MINLEN] [-z] [-v] [-i INFILE] [-o OUTFILE]从3'开始到5'哪些部分保留

      [-f N]       = 从第几个碱基开始保留,默认第一个
      [-l N]       = 后面从第几个碱基开始保留,默认全部碱基都保留.
      [-t N]       =序列尾部修剪掉N个碱基.
      [-m MINLEN]  = 修剪掉长度小于MINLEN的序列.

    7.  fastx_quality_stats [-h] [-N] [-i INFILE] [-o OUTFILE]fastq文件的质量值进行统计
      [-i INFILE]      = 输入fastq文件
      [-o OUTFILE] = 输出的文本文件名字
      [-N]                 =使用新的输出格式,默认使用老格式
    老格式输出文件:下面一行代表输出文件的一列
           column=1到36
           count   = 这列有多少碱基
           min       = 这列的碱基质量最小值
           max     = 这列的碱基质量最大值
           sum     = 这列的碱基质量的总和
           mean   =这列的碱基质量平均值
           Q1       = 1/4碱基质量值
           med     = 碱基质量值的中位数
           Q3      = 3/4碱基质量值.
           IQR     = Q3-Q1
           lW      = 'Left-Whisker' value (for boxplotting).
           rW      = 'Right-Whisker' value (for boxplotting).
           A_Count =本列A的数目
           C_Count = 本列C的数目.
           G_Count = 本列G的数目.
           T_Count = 本列T的数目.
           N_Count =本列N的数目.
           max-count =碱基数目的最大值
    新的输出格式:
    循环数
    最大数目
    对每个循环的碱基 (ALL/A/C/G/T/N):
                   count   = 本列碱基的数目
                   min       = 本列碱基质量的最小值
                   max     = 本列碱基质量的最大值.
                   sum     = 本列碱基质量的综合.
                   mean    = 本列碱基质量的平均值
                   Q1      = 1/4碱基质量值
                   med    = 碱基质量值的中位数
                   Q3      = 3/4碱基质量值
                   IQR     = Q3-Q1
                   lW      = 'Left-Whisker' value (for boxplotting).
                   rW      = 'Right-Whisker' value (for boxplotting).

    8. fastq_quality_boxplot_graph.sh [-i INPUT.TXT] [-t TITLE] [-p] [-o OUTPUT]绘制碱基质量分布盒式图
     [-p]         =产生.PS文件,默认产生png图像
     [-i INPUT.TXT]=输入文件为 fastx_quality_stats的输出文件
     [-o OUTPUT]  =输出文件的名字
     [-t TITLE]        =输出图像的标题

    9. fastx_nucleotide_distribution_graph.sh [-i INPUT.TXT] [-t TITLE] [-p] [-o OUTPUT]绘制碱基分布图
     [-p]          =产生.PS文件,默认产生png图像.
     [-i INPUT.TXT] =输入文件为 fastx_quality_stats的输出文件
     [-o OUTPUT]   =输出文件的名字.
     [-t TITLE]       =输出图像的标题

    10. fastx_clipper [-h] [-a ADAPTER] [-D] [-l N] [-n] [-d N] [-c] [-C] [-o] [-v] [-z] [-i INFILE] [-o OUTFILE] 去掉接头序列
      [-a ADAPTER] =接头序列(默认为CCTTAAGG)
      [-l N]       = 忽略那些碱基数目少于N的reads,默认为5
      [-d N]       = 保留接头序列后的N个碱基默认  -d 0
      [-c]         = 放弃那些没有接头的序列.
      [-C]         = 只保留没有接头的序列.
      [-k]         = 报告只有接头的序列.
      [-n]         = 保留有N多序列,默认不保留
      [-v]         =详细-报告序列编号
      [-z]         =压缩输出.
      [-D]       = 输出调试结果.
      [-M N]   =要求最小能匹配到接头的长度N,如果和接头匹配的长度小于N不修剪
      [-i INFILE]  = 输入文件
      [-o OUTFILE] = 输出文件



    http://blog.sciencenet.cn/blog-1509670-848270.html 

  • 相关阅读:
    sharepoint 2010 无法停止爬网 金大昊(jindahao)
    自定义搜索核心结果 金大昊(jindahao)
    fast search 爬网倒计时 金大昊(jindahao)
    workspace 限制 金大昊(jindahao)
    权限级别“打开项目”影响搜索结果 金大昊(jindahao)
    sharepoint 多服务器部署错误 金大昊(jindahao)
    大列表读取 金大昊(jindahao)
    sharepoint web servcie 金大昊(jindahao)
    SharePoint:pdf加密(RMS)方案 金大昊(jindahao)
    Infopath form to HTML using csharp 金大昊(jindahao)
  • 原文地址:https://www.cnblogs.com/zkkaka/p/6146293.html
Copyright © 2011-2022 走看看