zoukankan      html  css  js  c++  java
  • 生信概念之

    1.contig:A contig (from contiguous) is a set of overlapping DNA segments that together represent a consensus region of DNA

    从reads拼接出来的更长的序列。


    2.k-mer:k-mers refer to all the possible subsequences (of length k) from a read obtained through DNA Sequencing

    k-mer是指将reads分成包含k个碱基的字符串,一般长短为m的reads可以分成m-k+1个k-mers,这个概念主要在从头组装中用到。


    3.转录组中的基因表达定量:

    用归一化(normalization)概念将RNA_seq的结果相对定量。

    常用的两个定量名词:raw count data 和 RPKM/FPKM

    RPKM/FPKM是cufflinks的归一化方法。

    Raw count data是DESeq/edgeR 要求输入的内容,其程序内部有自己的一套归一化方法。
    RPKM/FPKM是归一化的计量。DESeq/edgeR 要求输入的是raw counts,因为这些程序有自己的一套归一化方法。
    DESeq/edgeR 是更适合于 外显子/基因 表达的分析,Cufflinks 适合于 differential isoform analysis 。如果你只关心差异化的基因,则选择 htseq-count --> EdgeR/DESeq
    如果你关心的是isoform level analysis,则可以选择Cufflinks/Cuffdiff 。

    4.测序深度(问题,深度通过配对结果计算?)
    以人的基因组为例,总共3G bp, 如果总测序量是90G(90bp*1G reads),则基因组上每个位点平均被覆盖30次,叫做30X覆盖;注意这不意味着每个位点都有30次覆盖,实际上是一个分布;测序深度越大,得到的数据越多,理论上其分析出来的数据准确度也越高。
    转录组的话,由于每个基因表达量差别很大,所以讨论100倍覆盖其实没有意义.
    是的,转录组不讲测序深度,因为转录组的表达量不一样,谈不上平均测序深度。主要看饱和曲线,饱和曲线区域饱和,就表明大部分的转录组被测到,再加大测序量,被测到的转录组数量也不会明显增加。 重测序和基因组这种DNA测序,才提到测序深度的问题。

    测序覆盖度:目标序列真正测到的比例。比如你要测的序列是100bp,但测序结果只显示了90bp,覆盖度为90/100=90%。没有测到的序列称为gap。

                          一个人的基因组测序,覆盖度为98.5%,那么说明该基因组还有1.5%的区域通过我们的组装和分析无法得到。

    "fold-coverage" of a shotgun sequencing experiment::number of reads * read length / target size

    "breadth-of-coverage" of an assembly: assembly size / target size

    average "depth-of-coverage" of an assembly: number of reads * read length / assembly size

    5.关于gene-level 和 transcript -level expression analysis
    gene-level expression analysis的结果是每个基因的表达量。

    transcipt-level expression analysis 的结果是来自于同一个基因的不同剪切体的表达量。this can only be calculated when using a tool that assigns reads across isoforms for a given gene.

    6.关于过滤(raw data vs clean data):
    理论上转录组测序不应该做人为过滤,特别是在做表达量分析大时候会引入偏差,Illumina公司的标准里根本就没有raw data 和clean data这种概念,Illumina公认标准的PF data.

    参考文章:

    http://blog.chinaunix.net/uid-28759878-id-4046427.html

    http://blog.sina.com.cn/s/blog_670445240101kaba.html

    拒绝低效率勤奋,保持高效思考
  • 相关阅读:
    CShop Project 082: 获取分页数据模型并传递到页面上
    CShop Project 08: 展示不同类型的商品
    CShop Project 08: 开发商品分类的查询和展示
    119 类和数据类型
    118 对象的绑定方法
    117 对象的属性查找顺序
    116 定制对象独有特征
    115 类和对象
    114 面向对象编程介绍
    113 面向对象程序设计的由来(了解)
  • 原文地址:https://www.cnblogs.com/timeisbiggestboss/p/7105988.html
Copyright © 2011-2022 走看看