zoukankan      html  css  js  c++  java
  • 1337:【例32】单词查找树

    时间限制: 1000 ms 内存限制: 65536 KB
    提交数: 1732 通过数: 910

    【题目描述】

    在进行文法分析的时候,通常需要检测一个单词是否在我们的单词列表里。为了提高查找和定位的速度,通常都画出与单词列表所对应的单词查找树,其特点如下:

    1.根结点不包含字母,除根结点外每一个结点都仅包含一个大写英文字母;

    2.从根结点到某一结点,路径上经过的字母依次连起来所构成的字母序列,称为该结点对应的单词。单词列表中的每个单词,都是该单词查找树某个结点所对应的单词;

    3.在满足上述条件下,该单词查找树的结点数最少。

    4.例如图3-2左边的单词列表就对应于右边的单词查找树。注意,对一个确定的单词列表,请统计对应的单词查找树的结点数(包含根结点)。

    在这里插入图片描述

    【输入】

    为一个单词列表,每一行仅包含一个单词和一个换行/回车符。每个单词仅由大写的英文字母组成,长度不超过63个字母 。文件总长度不超过32K,至少有一行数据。

    【输出】

    仅包含一个整数,该整数为单词列表对应的单词查找树的结点数。

    【输入样例】

    A
    AN
    ASP
    AS
    ASC
    ASCII
    BAS
    BASIC

    【输出样例】

    13

    【来源】

    No

    算法分析

    首先要对建树的过程有一个了解。

    对于当前被处理的单词和当前树:在根节点的子结点中找单词的第一位字母,若存在,则进位在该节点的子结点中寻找第二位…

    如此下去直到单词结束,即不需要在该树中添加节点;

    或单词的第n位不能被找到,即将单词的第n位及其后的字母依次加入单词查找树中去。

    但是,本题只是问节点总数,且有32K文件,所以应该考虑能不能不通过建树就直接算出节点总数。

    定义一个单词相对于另一个单词的差:设单词1的长度为L,且与单词2从第N位开始不一致,则说单词1相对于单词2的差为L-N+1;,这是描述单词相似程度的量。

    可见,将一个单词加入单词树的时候,须加入的节点等于该单词树中已有单词的差的最小值。

    单词的字典顺序排序后的序列则具有类似的特性,即在一个字典顺序序列中,第m个单词相对于第m-1个单词的差必定是它对于前m-1个单词的差中最小的。

    于是,得出建树的等效算法:
    1.读入文件;
    2.对单词列表进行字典顺序排序;
    3.依次计算每个单词对前一单词的差,并把差累加起来。注意:第一个单词相对于“空”的差为该单词的长度;
    4.累加和再加上1(根节点),输出结果。

    数据结构

    先确定32K(32*1024=32768字节)的文件最多有多少单词和字母。

    当然应该尽可能地存放较短的单词。

    因为单词不重复,所以长度为1的单词(单个单词)最多26个;长度为2的单词最多为26*26=676个;因为每个单词都要一个换行符(换行符在计算机中占两个字节),所以总共已经占用的空间:(1+2)×26+(2+2)×676=2782字节;剩余字节(32768-2782=29986字节)分配给长度为3的单词(长度为3的单词最多有26×26×26=17576个)有29986/(3+2)=5997。

    所以单词数量最多为26+676+5997=6699.

    定义一个数组:string a[32768];把所有单词连续存放起来,用选择排序或快排对单词进行排序。

    代码

    #include <iostream>
    #include <cstdio>
    #include <string>
    using namespace std;
    int i,j,n,t,k;
    string a[8001];
    string s;
    int main ()
    {
    	while(cin>>a[++n]);    
    	n--;
    	for(i=1;i<n;i++)
    	{
    		for(j=i+1;j<=n;j++)
    		{
    			if(a[i]>a[j])
    			{
    				s=a[i];
    				a[i]=a[j];
    				a[j]=s;
    			}
    		}
    	}
    	t=a[1].length();
    	for(i=2;i<=n;i++)
    	{
    		j=0;
    		while(a[i][j]==a[i-1][j]&&j<a[i-1].length()) j++;
    		t+=a[i].length()-j;
    	}
    	cout<<t+1<<endl;
    	return 0;
    }
    
  • 相关阅读:
    TD在IE7不能浏览的问题解决办法
    SqlServer中的IsNull
    C#日期加减
    this._form为空或不是对象
    清除自动保存的远程机器登录密码
    解决下载文件名乱码问题的简单方法
    createTextRange选中测试表格
    GridView改变行的颜色(二)
    行列转换(1)
    .NET中调用系统程序
  • 原文地址:https://www.cnblogs.com/AlexKing007/p/12339116.html
Copyright © 2011-2022 走看看