Biopython 模块处理Seq序列方法

zoukankan html css js c++ java

Biopython 模块处理Seq序列方法

Biopython 模块
1.序列赋值
Bio.Alphabet.IUPAC 提供蛋白质、DNA和RNA的基本定义，并提供扩展和定制基本定义的功能。
1.1 DNA 字母表

基本字母：IUPACUnambiguousDNA
每种可能下的歧义字母：IUPACAmbiguousDNA
修饰后的碱基：ExtendedIUPACDNA

1.2 蛋白字母表
基本的IUPACProtein类包含常见的20中氨基酸
ExtendedIUPACProtein类包含除20种常见氨基酸外的其他氨基酸元素

如：
>>> from Bio.Seq import Seq
>>> from Bio.Alphabet import IUPAC
>>> my_seq = Seq("AGTACACTGGT", IUPAC.unambiguous_dna) #基本的DNA字母表
>>> my_seq
Seq('AGTACACTGGT', IUPACUnambiguousDNA())
>>> my_seq.alphabet
IUPACUnambiguousDNA()

2 序列Seq方法
1）字符串方法
len(my_seq)
迭代如：
>>> for index, letter in enumerate(my_seq):
... print index, letter
lower()
upper() 改变带小写
count() 如： Seq("AAAA").count("AA")
切片如： my_seq[0::3] 取密码子第一的碱基
str() 转换序列对象成字符串如：
>>> str(my_seq)
'GATCGATGGGCCTATATAGGATCGAAAATCGC

2）互补，方向互补
complement() #互补
reverse_complement() #反向互补方法
>>> from Bio.Seq import Seq
>>> from Bio.Alphabet import IUPAC
>>> my_seq = Seq("GATCGATGGGCCTATATAGGATCGAAAATCGC", IUPAC.unambiguous_dna)
>>> my_seq
Seq('GATCGATGGGCCTATATAGGATCGAAAATCGC', IUPACUnambiguousDNA())
>>> my_seq.complement() #互补
Seq('CTAGCTACCCGGATATATCCTAGCTTTTAGCG', IUPACUnambiguousDNA())
>>> my_seq.reverse_complement() #反向互补方法
Seq('GCGATTTTCGATCCTATATAGGCCCATCGATC', IUPACUnambiguousDNA())

3）转录
transcribe()#将序列的T换成U，并调整字母表为RNA, 所以需是编码链用这方法
模板链需先反向互补再转录如： template_dna.reverse_complement().transcribe()
>>> coding_dna
Seq('ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG', IUPACUnambiguousDNA())
>>> messenger_rna = coding_dna.transcribe() #将
>>> messenger_rna
Seq('AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGAUAG', IUPACUnambiguousRNA())

4）逆转录即换U为T，转换字母表为DNA
back_transcribe()

5）translate() 将DNA/RNA翻译成蛋白序列，并转换蛋白字母表
标准遗传密码 table id 1 ，默认使用1
线粒体序列密码 table id 2

注：终止密码子翻译成*
仅翻译到阅读框的第一个终止密码子，然后停止（这更符合自然现象）则to_stop=True。
>>> coding_dna.translate()
Seq('MAIVMGR*KGAR*', HasStopCodon(IUPACProtein(), '*'))
>>> coding_dna.translate(to_stop=True)
Seq('MAIVMGR', IUPACProtein())
>>> coding_dna.translate(table=2)
Seq('MAIVMGRWKGAR*', HasStopCodon(IUPACProtein(), '*'))
>>> coding_dna.translate(table=2, to_stop=True)
Seq('MAIVMGRWKGAR', IUPACProtein())

3.Seq对象不可变即不可再次更改或删除，如需要则需要先转换成str或MutableSeq对象
如：
>>> mutable_seq = my_seq.tomutable()
>>> mutable_seq
MutableSeq('GCCATTGTAATGGGCCGCTGAAAGGGTGCCCGA', IUPACUnambiguousDNA())
>>> new_seq = mutable_seq.toseq()
>>> new_seq
Seq('AGCCCGTGGGAAAGTCGCCGGGTAATGCACCG', IUPACUnambiguousDNA())

4.字符串其实也可以应用Seq的方法，只是用Seq更规范数据格式。
>>> from Bio.Seq import reverse_complement, transcribe, back_transcribe, translate
>>> my_string = "GCTGTTATGGGTCGTTGGAAGGGTGGTCGTGCTGCTGGTTAG"
>>> reverse_complement(my_string)
'CTAACCAGCAGCACGACCACCCTTCCAACGACCCATAACAGC'
>>> transcribe(my_string)
'GCUGUUAUGGGUCGUUGGAAGGGUGGUCGUGCUGCUGGUUAG'
>>> back_transcribe(my_string)
'GCTGTTATGGGTCGTTGGAAGGGTGGTCGTGCTGCTGGTTAG'
>>> translate(my_string)
'AVMGRWKGGRAAG*'

参考 Biopython Doc URL: http://biopython-cn.readthedocs.io/zh_CN/latest/cn/chr03.html

本文来自博客园，作者：BioinformaticsMaster，转载请注明原文链接：https://www.cnblogs.com/koujiaodahan/p/8443508.html

查看全文

相关阅读:
WeTest与腾讯安全联合推出小程序质量方案，助力私域流量2.0新增长
 【福利】腾讯WeTest专有云，限时开放招募体验官
 新官网心体验，腾讯WeTest全新产品功能与解决方案发布！
大会回顾丨游戏用户体验优化如何实践，看大咖怎么说（附PPT下载）
【福利】腾讯WeTest专有云解决方案，限时开放招募体验官
 【干货分享】研效优化实践：AI算法助力深层BUG挖掘
 WeTest小程序质量专项方案推出，小程序异常监控内测招募中
 WeTest.net全球能力开放：锻造高品质产品，构建全球竞争力
 腾讯WeTest即将亮相MTSC2021中国互联网测试开发大会
 压测大师链路监控服务开放免费体验预约

原文地址：https://www.cnblogs.com/koujiaodahan/p/8443508.html

Biopython 模块处理Seq序列 方法

Biopython 模块处理Seq序列方法