zoukankan html css js c++ java

单词统计续

题目：

第1步：输出单个文件中的前 N 个最常出现的英语单词。

功能1：输出文件中所有不重复的单词，按照出现次数由多到少排列，出现次数同样多的，以字典序排列。

功能2：指定文件目录，对目录下每一个文件执行统计的操作。

功能3：指定文件目录，是会递归遍历目录下的所有子目录的文件进行统计单词的功能。

功能4：输出出现次数最多的前 n 个单词，

第2步：第二步: 支持 stop words

在一本小说里，频率出现最高的单词一般都是 "a", "it", "the", "and", "this", 这些词，可以做一个 stop word 文件（停词表），在统计词汇的时候，跳过这些词。我们把这个文件叫 "stopwords.txt" file.

第三步: 想看看常用的短语是什么，怎么办呢？

第四步：把动词形态都统一之后再计数。

设计思想：第一步为统计出现的次数最多的单词，还是通过空格来进行判断。

遇到的问题：对于本次的课堂作业我只实现了第一步，对于其他的功能还没有成功编写出来

package test;

import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;
import java.text.NumberFormat;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Comparator;
import java.util.List;
import java.util.Map;
import java.util.TreeMap;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class zimu {
	
	 private static String formattedDecimalToPercentage(double decimal)
	    {
	    	//获取格式化对象
	    	NumberFormat nt = NumberFormat.getPercentInstance();
	    	//设置百分数精确度2即保留两位小数
	    	nt.setMinimumFractionDigits(2);
	    	return nt.format(decimal);
	    }
public static void main(String []args) {
	String a1;
	char a='A';
	int a2[]=new int[27];
	char b1[]=new char[26];
	char b2[]=new char[26];
	double c1[]=new double[26];
	for(int i=0;i<26;i++)
	{
	b1[i]=a;
	b2[i]=(char)(a+32);
	a++;
	}
	try {
        BufferedReader in = new BufferedReader(new FileReader("D:\piao.txt"));
        String str;
        while ((str = in.readLine()) != null) {
            char[] d=str.toCharArray();
            for(int i=0;i<d.length-1;i++) {
            	for(int j=0;j<26;j++) {
            		if(b1[j]==d[i]||b2[j]==d[i]) {
            			a2[j]++;
            		}
            	}
            }
        }
        
        a2[26]=0;
        for(int i=0;i<26;i++) {
        	a2[26]=a2[i]+a2[26];
        }
    
       System.out.println("       ");
        System.out.println("出现单词次数较多的前十个为：");
        BufferedReader reader = new BufferedReader(new FileReader(
                "D:\\piao.txt"));
        StringBuffer buffer = new StringBuffer();
        String line = null;
        while ((line = reader.readLine()) != null) {
            buffer.append(line);
        }
        reader.close();
        Pattern expression = Pattern.compile("[a-zA-Z]+");
        String string = buffer.toString();
        Matcher matcher = expression.matcher(string);//
        Map<String, Integer> map = new TreeMap<String, Integer>();
        String word = "";
        int times = 0;
        while (matcher.find()) {
            word = matcher.group();
            if (map.containsKey(word)) {
                times = map.get(word);
                map.put(word, times + 1);
            } else {
                map.put(word, 1);
            }
        }
 
        List<Map.Entry<String, Integer>> list = new ArrayList<Map.Entry<String, Integer>>(
                map.entrySet());

        Comparator<Map.Entry<String, Integer>> comparator = new Comparator<Map.Entry<String, Integer>>() {
            public int compare(Map.Entry<String, Integer> left,
                    Map.Entry<String, Integer> right) {
                return (left.getValue()).compareTo(right.getValue());
            }
        };
        Collections.sort(list, comparator);// 排序
        int last = list.size() - 1;
        int asdad=0;
        for(int i=last;i>0;i--) {
        	String key = list.get(i).getKey();
            Integer value = list.get(i).getValue();
        	asdad=asdad+value;
        	
        }
        
        for (int i = last; i > last - 10; i--) {
            String key = list.get(i).getKey();
            Integer value = list.get(i).getValue();
            System.out.print(key + " :" + value);
           double d=(double)((double)value/(double)asdad);
           String result2=formattedDecimalToPercentage(d);
   	    System.out.println("   百分比为："+result2);
        }
        
    } catch (IOException e) {
    }
}
}

　　结果截图：

个人总结：这次的课堂作业还是不太明白，可以将停词表中的单词写入一个文件，然后读取进行判断，但是具体的功能还没有实现，还需要请教其他的同学。

查看全文

相关阅读:
[Swift通天遁地]三、手势与图表-(9)制作五彩缤纷的气泡图表
 hdu2289 Cup(二分)
Makefile学习(三)[第二版]
CABasicAnimation 基本动画
 iOS_20_微博自己定义可动画切换的导航控制器
 yispider 开源小说採集器 (来源http://git.oschina.net/yispider/yispider 我的改动版由于他的我无法跑)
谈谈C++私有继承
 深入struts2.0(七)--ActionInvocation接口以及3DefaultActionInvocation类
 STL 之 list源码自行实现（iterator）
二分lower_bound()与upper_bound()的运用

原文地址：https://www.cnblogs.com/zhang12345/p/11062839.html