zoukankan      html  css  js  c++  java
  • 生物信息常用软件使用

    1. 屏蔽载体序列
    cross_match.manyreads reads.fna vector.seq -minmatch 10 -minscore 20 -screen > screen.out

    2. SNP
    分析
    cross_match <seq1> -alignments -discrep_list > out

    2.
    聚类
        2.1 blastclust
    blastclust -a 4 -i proteins.fsa -o cluster_60_80_complete.ssv -S 60 -L 0.80 -e F
    use cpus: 4 
    inputfile: proteins.fsa 
    outputfile: cluster_60_80_complete.ssv  
    protein identity: >60% 
    coverage: >80%
    if blastclust -a 4 -i proteins.fsa -o cluster_60_80_complete.ssv -S 60 -L 0.80 -e F -p F
    then the input file is nucleotides, not proteins

      2.2 Uicluster
    http://genome.uiowa.edu/pubsoft/software.html

    3. est
    去除 polyA
    trimest

    4.
    去除尾部 NX
    trimseq

    5Cap3 组装

           -f 10 –o 21 –c 12
    5 phrap
    组装
    Command:   phrap [sequence file] -new_ace -revise_greedy -forcelevel 0 -repeat_stringency 0.95 > phrap.out
    Input: Fasta sequence & quality file in the same dir
             quality file = [sequcence file].qual
    常用参数:
             -new_ace 

       生成ace文件,以便finish时可以用consed打开,调整组装结果。  finish、找SNP或者人工校验
             -forecelevel n    (n = 0-10, default = 0)
       在phrap连接contig的过程中控制参数的严格程度,0为最严格,10为最宽松。通常情况下可以用缺省值0。在数据量小、重复序列很少的数据集里,可以使用最宽松的参数10,减少overlap判断的假阴性,得到更完整的结果。在有较多重复序列的数据集里一定要将此参数控制到最严格以避免错拼。

            -revise_greedy 

       在greedy拼接之后,检查所有的overlap分值较低的区域,即“weak point”,将其断开并寻找整体打分更高的区域连接。能在一定程度上纠正一些组装错误。对于小数据,这个参数的效果不明显;对于较大数据量的拼接,这个参数会避免很多错误。这个参数在拼接重复序列较多的序列时会占用较长的时间。

           -shatter_greedy 

       在“weak point”处断开后并不尝试新的连接而是保留目前的结果。和revise_greedy一样,此参数具有纠错功能。
    对于情况比较复杂的拼接,为了避免错误,可以使用此参数牺牲完整性保证较低的错误率。
           -repeat_stringency x (0<x<1, default = 0.95)
          
    在拼接过程中根据overlap区域的相似度(即比对的identity)判断是否可以进行连接,x就是相似度的阈值。只有相似度高于x,才被phrap视作有效的overlap,可以进行拼接。对于有多个拷贝的重复序列存在的拼接,可以通过调整此参数来区分岀同一个重复序列在不同拷贝中的变异,从而在组装结果中区分出重复序列。问题在于这个参数需要根据实例进行调整,既要满足组装的完整性,又要达到区分重复序列的效果。可操作性不强。

     

    Phrap 输出

    *.contigs文件。

    *.contigs.qual文件。

    *.singlets 文件。

    *.log文件和*.problems文件。

    *.ace 文件。

    *.view 文件-viewphrapview查看结果

    标准屏幕输出,phrap > phrap.out

     

    phrap 注意事项
     

    数据量和数据性质
    通常情况下reads数量不要超过15万。
    如果覆盖度不是很高并且重复序列很少,phrap能完成50万以下的拼接。
    如果覆盖度很高(几十以上)或者重复序列很多,phrap就很难处理了。

     

    对于特殊数据的拼接策略
    对于有重复序列的非finish项目,可以通过对序列的深度统计去掉高重复的reads,只保留uniq区的reads拼接(RePS方法)
    同样在比较难拼接的finish项目中也可以使用这种策略来保证正确性,再通过其他方法补充gap

     

    phrap.out文件包含了reads拼成contig的方式,包括位置,方向等。把这些信息提取出来存入contig.list文件

  • 相关阅读:
    yii之behaviors
    查看windows系统信息
    idm chrome扩展被阻止解决办法
    音乐乐理基础
    bootstrap4
    七牛上传整合CI
    提升上传速度
    卡漫绘图
    指针的操作
    定语从句八个易混淆
  • 原文地址:https://www.cnblogs.com/bioinfo/p/1216707.html
Copyright © 2011-2022 走看看