zoukankan      html  css  js  c++  java
  • 统计fasta序列条数

    1.统计大于号开始的行数或seqkit 工具

    # 通过搜索>的数量
    grep -c '^>' myFasta.fasta
    1397492
    #seqkit统计提取,速度也是很快的
    seqkit stats t.fa -T | grep -v file | cut -f 4
    1397492
    # 统计 1-100bp 范围长的序列数
    cat t.fa | seqkit seq -m 1 -M 100 | seqkit stat -T | grep -v file | cut -f 4
    

    Total sequence length 5,759,798,599
    Total ungapped length 5,759,798,599
    Number of contigs 1,397,492
    Contig N50 9,587
    Contig L50 174,483
    Total number of chromosomes and plasmids 0
    Number of component sequences (WGS or clone) 1,397,492

    2.fastq序列条数统计

    压缩格式解压,统计行数除以4

    # 通常以fastq.gz格式压缩
    zcat  input.fastq.gz | awk 'NR%4==2{c++} END{print c}'
    
    # 推荐下面的方法 pigz 会比gzip快10倍
    pigz -dc input.fastq.gz | awk 'NR%4==2{c++} END{print c}'
    
    # 如果不是压缩格式
    cat input.fastq | awk 'NR%4==2{c++} END{print c}'
    
    生物学学渣,转行中,目前在研究生物信息及数据挖掘。如有问题或建议,请多多赐教。
  • 相关阅读:
    酒店预订2
    酒店预订1
    软件2
    酒店预定系统
    系统软件构成
    用例图
    软件构成
    业务用例名
    业务用例结果查询
    业务用例导师交流
  • 原文地址:https://www.cnblogs.com/huangyinger/p/10420774.html
Copyright © 2011-2022 走看看