zoukankan      html  css  js  c++  java
  • 弗雷塞斯 从生物学到生物信息学到机器学习 转录组入门(3):了解fastq测序数据

    sra文件转换为fastq格式
    1
    fastq-dump -h
    --split-3
    也就是说如果SRA文件中只有一个文件,那么这个参数就会被忽略。如果原文件中有两个文件,那么它就会把成对的文件按*_1.fastq,*_2.fastq这样分开。如果还出现了第三个文件,就意味着这个文件本身是未成配对的部分。可能是当初提交的时候因为事先过滤过了一下,所以有一部分数据被删除了。
     
    --gzip
    输出文件压缩成gzip格式(通常gzip仅用来压缩单个文件。多个文件的压缩归档通常是首先将这些文件合并成一个tar文件,然后再使用gzip进行压缩,最后生成的.tar.gz或者.tgz文件就是所谓的“tar压缩包”或者“tarball”
     
    --bzip2
    输出文件压缩成bzip2格式(bzip2比传统的gzip或者ZIP的压缩效率更高,但是它的压缩速度较慢)
     
    1
    ls *.sra|while read id;do(fastq-dump --split-3 $id);done
    我们的数据是Illumina的双端测序,所以用fastq-dump --split-3命令来把sra格式数据转换为fastq。
     
    总共有7个测序数据,所以最好是同步改名,用-A参数,为了节省空间,用--gzip压缩。
    1
    2
    perl -F' ' -alne 'if($F[7]=~/SRR/){$F[6]=~s/s/_/g;$F[13]=~s/s|#/_/g;$F[13]=~s/(|)//g;print "$F[7] $F[6]_$F[13]"}' SraRunTable.txt > Rename.txt
    perl -F' ' -alne 'print "fastq-dump --split-3 --gzip -A $F[1] $F[0].sra"' Rename.txt > sratofq.sh<br>bash sratofq.sh
     
    数据校验及备份存放
     
    在此最开始之前应该做个md5sum数据传输完整性验证;或者拿到自己的数据后,压缩后生产MD5文件,然后备份保存
    1
    md5sum *.fastq.gz | tee md5sum.txt
    验证MD5值
    1
    md5sum -c md5sum.txt

    -c选项来对文件md5进行校验。校验时,根据已生成的md5来进行校验。生成当前文件的md5,并和之前已经生成的md5进行对比,如果一致,则返回OK,否则返回错误信息

    质控FastQC
     
    1
    2
    3
    4
    mkdir rna_seq/work && cd rna_seq/work
    ln ../data/* .  # 建立软连接
    mkdir 1_FastQC_Raw_Data
    ls *.gz|while read id;do(fastqc $id -o 1_FastQC_Raw_Data -t 3);done
    问题:
    FastQC报告中哪些是值得关注的?
    注意事项:
    1、数据质控是一个综合的评价标准,其中主要指标为碱基质量与含量分布,如果这两个指标合格了,后面大部分指标都可以通过。如果这两项不合格,其余都会受到影响。
    2、其中一些指标并不适合所有数据。要根据具体数据类型,具体分析。
  • 相关阅读:
    使用aws和tomcat搭建服务器过程中的一些坑.
    10
    9
    8
    7
    6
    5
    hihoCoder 1582 Territorial Dispute 【凸包】(ACM-ICPC国际大学生程序设计竞赛北京赛区(2017)网络赛)
    hihoCoder 1584 Bounce 【数学规律】 (ACM-ICPC国际大学生程序设计竞赛北京赛区(2017)网络赛)
    hihoCoder 1578 Visiting Peking University 【贪心】 (ACM-ICPC国际大学生程序设计竞赛北京赛区(2017)网络赛)
  • 原文地址:https://www.cnblogs.com/xiaojikuaipao/p/7753060.html
Copyright © 2011-2022 走看看