zoukankan      html  css  js  c++  java
  • fastqc结果中的Per sequence GC content, Sequence Duplication Levels 和 Overrepresented sequences

    C含量分布图 Per sequence GC content

    这个图理论上应该符合正态分布(也就是钟形曲线),除非有过表达的序列( over-represented sequences)[也就是在正态分布的基础上有一个尖尖的峰],或者存在其他物种的污染[也就是多个峰]

    从这个图中可以看到,这个应该是符合过表达序列的情况,说明要么存在序列污染,要么是有个特别高表达的基因

    重复序列数 Sequence Duplication Levels

    这个图可以帮助判断文库的复杂程度,如果PCR扩增次数太多或者起始扩增底物太少,都会降低文库的复杂度。

    这个图中可以看到,似乎有大量的重复序列,也就是说文库复杂程度低,可能与某个基因的过表达有关

    过表达序列表 Overrepresented sequences

    这个表的作用也非常重要!

    它展示了长度至少20bp,数量占总数0.1%以上的reads碱基组成,它可以帮助判断污染(比如:载体、接头序列)

    如果上面的GC含量分布图"挂了",这个表可以帮助我们判断来源,如果是已知的载体或者接头,它会列出来;如果不是,可以复制序列去blast。

    比如这里就可以去复制表达最多的第一条序列去blast,然后发现它其实是一个基因,于是可以验证之前的猜想:基因过表达


    来源:


  • 相关阅读:
    [板子]用线段树解决ST表问题
    [POJ2528]Mayor's posters(离散化+线段树)
    [板子]Kruskal
    [板子]segTree
    js实现工具函数中groupBy数据分组
    关于爬虫
    jsencrypt vue相关的rsa加密
    less 循环模拟sass的for循环效果
    vue 自动生成菜单
    vue中form 表单常用校验封装(async-validator)
  • 原文地址:https://www.cnblogs.com/bio-mary/p/12187542.html
Copyright © 2011-2022 走看看