zoukankan      html  css  js  c++  java
  • 历届试题_DNA比对

    脱氧核糖核酸即常说的DNA,是一类带有遗传信息的生物大分子。它由4种主要的脱氧核苷酸(dAMP、dGMP、dCMT和dTMP)通过磷酸二酯键连接而成。这4种核苷酸可以分别记为:A、G、C、T。
        DNA携带的遗传信息可以用形如:AGGTCGACTCCA.... 的串来表示。DNA在转录复制的过程中可能会发生随机的偏差,这才最终造就了生物的多样性。
        为了简化问题,我们假设,DNA在复制的时候可能出现的偏差是(理论上,对每个碱基被复制时,都可能出现偏差):
     1. 漏掉某个脱氧核苷酸。例如把 AGGT 复制成为:AGT
        2. 错码,例如把 AGGT 复制成了:AGCT
        3. 重码,例如把 AGGT 复制成了:AAGGT
        如果某DNA串a,最少要经过 n 次出错,才能变为DNA串b,则称这两个DNA串的距离为 n。
        例如:AGGTCATATTCC 与 CGGTCATATTC 的距离为 2
        你的任务是:编写程序,找到两个DNA串的距离。
    【输入、输出格式要求】
        用户先输入整数n(n<100),表示接下来有2n行数据。
        接下来输入的2n行每2行表示一组要比对的DNA。(每行数据长度<10000)
        程序则输出n行,表示这n组DNA的距离。
        例如:用户输入:
    3
    AGCTAAGGCCTT
    AGCTAAGGCCT
    AGCTAAGGCCTT
    AGGCTAAGGCCTT
    AGCTAAGGCCTT
    AGCTTAAGGCTT
    则程序应输出:
    1
    1
    2
    ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
    思路:刚开始做的时候没啥思路,网上看了一个博客之后突然发现和求最长公共序列很相似,顿时感觉自己脑子锈掉了,之前写过类似的题啊,具体的思路过程为
    与其说是DNA比对,不如说是字符串比对,用户输入两个字符串str1和str2,我们把str1作为标准串,由str2变为标准串可以通过重复,丢失和修改三种方法。
    重复就是str1[i]=A , str1[i+1]=C , str[i+2]=T ,而对应的str2[i]=A ,str2[i+1] = A ,str2[i+2]=C
    丢失就是str1[i]=A , str1[i+1]=C , str[i+2]=T ,而对应的str2[i]=A ,str2[i+1] = T
    修改就是str1[i]=A , str1[i+1]=C , str[i+2]=T ,而对应的str2[i]=A ,str2[i+1] = G,str2[i+2]=T
    我们假设str1的长度为len1,str2的长度为len2,用数组dp[len1][len2]表示str2变化为str1最少需要几步,也就是我们最后的答案。
    我们把这个问题细化,假设dp[i][j]表示str2的字串str1[0]~str1[i-1]变成str1的字串str2[0]~str2[j-1]最少需要的步数
    那么对于dp[i][j]可能有两种情况:
    str1[i] == str2[j] ,这个时候,dp[i][j] = dp[i-1][j-1]
    str1[i] != str2[j] ,这个时候,分为三种情况:
    重复的情况:dp[i][j] = dp[i][j-1] +1
    ACT
    ACTT
    dp[3][4] = dp[3][3] +1,因为此时str2的子串比str1的子串多出了一个字符,所以让j回到多出的那个字符前面再进行比较,得到dp[i][j-1]然后在进行了一步重复操作,所以+1
    丢失的情况:dp[i][j] = dp[i-1][j] +1
    ACTT
    ACT
    dp[4][3] = dp[3][3] +1 ,因为此时str2的子串比str1的子串丢失了一个字符,所以让i回到丢失的那个字符的前面在进行比较,得到dp[i-1][j]然后再进行一步丢失操作,所以+1
    修改的情况:dp[i][j] = dp[i-1][j-1]+1
    ACT
    AGT
    dp[3][3] = dp[2][2]
    dp[2][2] = dp[1][1]+1,因为此时str1的子串和str2的长度相同,但是字符不一样,所以i-1,j-1回到上一个状态,然后再+1。
    ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
    代码的实现是用的比较常规的一类动态规划题的解法,具体可参考我之前写的最长公共子序列:https://www.cnblogs.com/henuliulei/p/10074366.html
     1 #include<bits/stdc++.h>
     2 
     3 using namespace std;
     4 int f(string str1,string str2)
     5 {
     6     int Len1=str1.length();
     7     int Len2=str2.length();
     8     int dp[Len1+1][Len2+1];
     9     memset(dp,0,sizeof(dp));
    10     for(int i=0;i<=Len1;i++){
    11         dp[i][0]=i;
    12     }
    13     for(int j=0;j<=Len2;j++){
    14         dp[0][j]=j;
    15     }
    16     for(int i=1;i<=Len1;i++){
    17         for(int j=1;j<=Len2;j++){
    18             if(str1[i-1]==str2[j-1]){
    19                 dp[i][j]=dp[i-1][j-1];////对应字母相等,array值不增加 
    20             }else{
    21                 //三个形参分别对应str2在str1的基础上增加,减少和修改的情况 
    22                 int a=min(dp[i-1][j]+1,dp[i][j-1]+1);
    23                 dp[i][j]=min(a,dp[i-1][j-1]+1);
    24             }
    25         }
    26     }
    27 
    28     
    29     return dp[Len1][Len2];
    30 }
    31 int main()
    32 {
    33     freopen("D:/Test/Test1.txt","r",stdin);
    34     int n;
    35     cin >> n;
    36     int p=n;
    37     int array[n];
    38     memset(array,0,sizeof(array));
    39     int num=0;
    40     while(n--){
    41         string str1,str2;
    42         cin >> str1 >> str2;
    43         
    44         array[num++]=f(str1,str2);
    45     }
    46     for(int i=0;i<p;i++){
    47         cout << array[i] << endl;
    48     } 
    49     return 0;
    50  } 

    reference:https://blog.csdn.net/qsyzb/article/details/27372073

  • 相关阅读:
    SPSS分析技术:CMH检验(分层卡方检验);辛普森悖论,数据分析的谬误
    揭秘10个大数据神话 为你排除几个误区
    SPSS统计分析案例:无空白列重复正交试验设计方差分析
    SPSS统计分析案例:无空白列重复正交试验设计方差分析
    单点登录系统和CAS的简介
    多线程
    HTTP 400错误--请求无效
    前端框架bootstrap(响应式布局)入门
    MQ(队列消息的入门)
    ActiveMQ下载与安装(Linux环境下进行)
  • 原文地址:https://www.cnblogs.com/henuliulei/p/10805919.html
Copyright © 2011-2022 走看看