zoukankan      html  css  js  c++  java
  • 单词统计续

    题目:

    第1步:输出单个文件中的前 N 个最常出现的英语单词。

    功能1:输出文件中所有不重复的单词,按照出现次数由多到少排列,出现次数同样多的,以字典序排列。

    功能2: 指定文件目录,对目录下每一个文件执行统计的操作。 

    功能3:指定文件目录,是会递归遍历目录下的所有子目录的文件进行统计单词的功能。

    功能4:输出出现次数最多的前 n 个单词, 

    第2步:第二步:  支持 stop words

    在一本小说里, 频率出现最高的单词一般都是 "a",  "it", "the", "and", "this", 这些词, 可以做一个 stop word 文件 (停词表), 在统计词汇的时候,跳过这些词。  我们把这个文件叫 "stopwords.txt" file. 

    第三步:  想看看常用的短语是什么, 怎么办呢?  

    第四步:把动词形态都统一之后再计数。

    设计思想:第一步为统计出现的次数最多的单词,还是通过空格来进行判断。

    遇到的问题:对于本次的课堂作业我只实现了第一步,对于其他的功能还没有成功编写出来

    package test;
    
    import java.io.BufferedReader;
    import java.io.FileReader;
    import java.io.IOException;
    import java.text.NumberFormat;
    import java.util.ArrayList;
    import java.util.Collections;
    import java.util.Comparator;
    import java.util.List;
    import java.util.Map;
    import java.util.TreeMap;
    import java.util.regex.Matcher;
    import java.util.regex.Pattern;
    
    public class zimu {
    	
    	 private static String formattedDecimalToPercentage(double decimal)
    	    {
    	    	//获取格式化对象
    	    	NumberFormat nt = NumberFormat.getPercentInstance();
    	    	//设置百分数精确度2即保留两位小数
    	    	nt.setMinimumFractionDigits(2);
    	    	return nt.format(decimal);
    	    }
    public static void main(String []args) {
    	String a1;
    	char a='A';
    	int a2[]=new int[27];
    	char b1[]=new char[26];
    	char b2[]=new char[26];
    	double c1[]=new double[26];
    	for(int i=0;i<26;i++)
    	{
    	b1[i]=a;
    	b2[i]=(char)(a+32);
    	a++;
    	}
    	try {
            BufferedReader in = new BufferedReader(new FileReader("D:\piao.txt"));
            String str;
            while ((str = in.readLine()) != null) {
                char[] d=str.toCharArray();
                for(int i=0;i<d.length-1;i++) {
                	for(int j=0;j<26;j++) {
                		if(b1[j]==d[i]||b2[j]==d[i]) {
                			a2[j]++;
                		}
                	}
                }
            }
            
            a2[26]=0;
            for(int i=0;i<26;i++) {
            	a2[26]=a2[i]+a2[26];
            }
        
           System.out.println("       ");
            System.out.println("出现单词次数较多的前十个为:");
            BufferedReader reader = new BufferedReader(new FileReader(
                    "D:\\piao.txt"));
            StringBuffer buffer = new StringBuffer();
            String line = null;
            while ((line = reader.readLine()) != null) {
                buffer.append(line);
            }
            reader.close();
            Pattern expression = Pattern.compile("[a-zA-Z]+");
            String string = buffer.toString();
            Matcher matcher = expression.matcher(string);//
            Map<String, Integer> map = new TreeMap<String, Integer>();
            String word = "";
            int times = 0;
            while (matcher.find()) {
                word = matcher.group();
                if (map.containsKey(word)) {
                    times = map.get(word);
                    map.put(word, times + 1);
                } else {
                    map.put(word, 1);
                }
            }
     
            List<Map.Entry<String, Integer>> list = new ArrayList<Map.Entry<String, Integer>>(
                    map.entrySet());
    
            Comparator<Map.Entry<String, Integer>> comparator = new Comparator<Map.Entry<String, Integer>>() {
                public int compare(Map.Entry<String, Integer> left,
                        Map.Entry<String, Integer> right) {
                    return (left.getValue()).compareTo(right.getValue());
                }
            };
            Collections.sort(list, comparator);// 排序
            int last = list.size() - 1;
            int asdad=0;
            for(int i=last;i>0;i--) {
            	String key = list.get(i).getKey();
                Integer value = list.get(i).getValue();
            	asdad=asdad+value;
            	
            }
            
            for (int i = last; i > last - 10; i--) {
                String key = list.get(i).getKey();
                Integer value = list.get(i).getValue();
                System.out.print(key + " :" + value);
               double d=(double)((double)value/(double)asdad);
               String result2=formattedDecimalToPercentage(d);
       	    System.out.println("   百分比为:"+result2);
            }
            
        } catch (IOException e) {
        }
    }
    }
    

      结果截图:

    个人总结:这次的课堂作业还是不太明白,可以将停词表中的单词写入一个文件,然后读取进行判断,但是具体的功能还没有实现,还需要请教其他的同学。

  • 相关阅读:
    8u111-jdk-alpine 字体缺少FontConfiguration的NullPointerException错误解决方案
    Mybatis插件原理
    Mybaits 分页
    @requestBody 和@RequestParam
    Mybaits 生产mapper
    powerDesigner 生成SQL时没有注释问题
    HashMap 的 put过程
    Java的锁
    Java1.8 JVM配置 GC日志输出
    Windows 安装两个MYSQL实例
  • 原文地址:https://www.cnblogs.com/zhang12345/p/11062839.html
Copyright © 2011-2022 走看看