zoukankan      html  css  js  c++  java
  • 外显子分析:cutadapt,去除序列adapter详细解析

    外显子测序时带有adapt接头,因此我们需要去除adapt接头,cutadapt的作用是去除adapt接头,一般用到如下命令:

    cutadapt -a AACCGGTT -o output.fastq input.fastq
    

    “-a”参数表明后面跟着的“AACCGGTT”是我们想要去除的adapt接头,如果你的外显子接头为其他序列,请将“AACCGGTT”改为你想去除的adapt接头;

    “-o”参数后面跟着的是输出文件“output.fastq”;

    “input.fastq”指的是输入文件;

    输入文件必须是以下三种格式文件:

    • FASTA (文件名后缀: .fasta.fa.fna)
    • FASTQ (后缀: .fastq.fq)
    • 以上任何一种, 但压缩为 .gz (甚至 .bz2 和 .xz 都是允许的).

    如果输入文件以.gz 为后缀的话,则去除adapt的命令为:

    cutadapt -a AACCGGTT -o output.fastq.gz input.fastq.gz
    

    如果通过“-o”没有输出指定文件,也可以用以下命令输出文件:

    cutadapt -a AACCGGTT input.fastq > output.fastq
    

    下图是用不同参数去除不同的adapt,左列是对adapt的描述,右列是我们去除该行对应的adapt时选择的参数:  

    图来源(https://cutadapt.readthedocs.io/en/stable/guide.html)

    下图是去除不同adapt时,剪切掉的序列范围模式图:

    图来源(https://cutadapt.readthedocs.io/en/stable/guide.html)

    对于不同的adapter和命令,去除效果如下:

    "-a ADAPTER"去除ADAPTER后面所有的序列,即使是不完整的ADAPTER也可以去除,如ADAP

    "-g ADAPTER"去除ADAPTER之前所有的序列,包括ADAPTER自己,即使是不完整的ADAPTER也可以,如DAPTER、TER

    “-a ADAPTER$”在adapter上加$只能去除有完整的ADAPTER,且该ADAPTER在3’末端,后面不加任何其他序列,如下图第三列用该参数时不能被去除。

    “-a FIRST...SECOND”该参数能去除首末端分别有FIRST和SECOND的adapter,即使是不完整的SECOND adapter也是允许的,如第二列。然而,当序列没有FIRST首端adapter序列时,则无法去除。

    Ps:如果一条序列含有多个相同的adapter,则系统默认处理最左边的adapter,如“cccccADAPTERgggggADAPTERttttt”,当搜寻3‘ adapter时,序列修剪成“ccccc”,当搜寻5’ adapter时,序列修剪成“gggggADAPTERttttt”。

  • 相关阅读:
    SQL2000中创建作业(定时查询,更新)(转)
    Windows下如何安装MongoDB
    开发高性能的MongoDB应用—浅谈MongoDB性能优化(转)
    大数据时代的数据存储,非关系型数据库MongoDB(一)(转)
    Memcached在Windows下的配置和使用(转)
    mysql中去重 distinct 用法
    k8s install
    3.Docker与LXC、虚拟化技术的区别——虚拟化技术本质上是在模拟硬件,Docker底层是LXC,本质都是cgroups是在直接操作硬件
    2.LXC和namespace介绍
    python类中两个列表实例如何相加或相减
  • 原文地址:https://www.cnblogs.com/chenwenyan/p/6265324.html
Copyright © 2011-2022 走看看