题目:
第1步:输出单个文件中的前 N 个最常出现的英语单词。
功能1:输出文件中所有不重复的单词,按照出现次数由多到少排列,出现次数同样多的,以字典序排列。
功能2: 指定文件目录,对目录下每一个文件执行统计的操作。
功能3:指定文件目录,是会递归遍历目录下的所有子目录的文件进行统计单词的功能。
功能4:输出出现次数最多的前 n 个单词,
第2步:第二步: 支持 stop words
在一本小说里, 频率出现最高的单词一般都是 "a", "it", "the", "and", "this", 这些词, 可以做一个 stop word 文件 (停词表), 在统计词汇的时候,跳过这些词。 我们把这个文件叫 "stopwords.txt" file.
第三步: 想看看常用的短语是什么, 怎么办呢?
第四步:把动词形态都统一之后再计数。
设计思想:第一步为统计出现的次数最多的单词,还是通过空格来进行判断。
遇到的问题:对于本次的课堂作业我只实现了第一步,对于其他的功能还没有成功编写出来
package test; import java.io.BufferedReader; import java.io.FileReader; import java.io.IOException; import java.text.NumberFormat; import java.util.ArrayList; import java.util.Collections; import java.util.Comparator; import java.util.List; import java.util.Map; import java.util.TreeMap; import java.util.regex.Matcher; import java.util.regex.Pattern; public class zimu { private static String formattedDecimalToPercentage(double decimal) { //获取格式化对象 NumberFormat nt = NumberFormat.getPercentInstance(); //设置百分数精确度2即保留两位小数 nt.setMinimumFractionDigits(2); return nt.format(decimal); } public static void main(String []args) { String a1; char a='A'; int a2[]=new int[27]; char b1[]=new char[26]; char b2[]=new char[26]; double c1[]=new double[26]; for(int i=0;i<26;i++) { b1[i]=a; b2[i]=(char)(a+32); a++; } try { BufferedReader in = new BufferedReader(new FileReader("D:\piao.txt")); String str; while ((str = in.readLine()) != null) { char[] d=str.toCharArray(); for(int i=0;i<d.length-1;i++) { for(int j=0;j<26;j++) { if(b1[j]==d[i]||b2[j]==d[i]) { a2[j]++; } } } } a2[26]=0; for(int i=0;i<26;i++) { a2[26]=a2[i]+a2[26]; } System.out.println(" "); System.out.println("出现单词次数较多的前十个为:"); BufferedReader reader = new BufferedReader(new FileReader( "D:\\piao.txt")); StringBuffer buffer = new StringBuffer(); String line = null; while ((line = reader.readLine()) != null) { buffer.append(line); } reader.close(); Pattern expression = Pattern.compile("[a-zA-Z]+"); String string = buffer.toString(); Matcher matcher = expression.matcher(string);// Map<String, Integer> map = new TreeMap<String, Integer>(); String word = ""; int times = 0; while (matcher.find()) { word = matcher.group(); if (map.containsKey(word)) { times = map.get(word); map.put(word, times + 1); } else { map.put(word, 1); } } List<Map.Entry<String, Integer>> list = new ArrayList<Map.Entry<String, Integer>>( map.entrySet()); Comparator<Map.Entry<String, Integer>> comparator = new Comparator<Map.Entry<String, Integer>>() { public int compare(Map.Entry<String, Integer> left, Map.Entry<String, Integer> right) { return (left.getValue()).compareTo(right.getValue()); } }; Collections.sort(list, comparator);// 排序 int last = list.size() - 1; int asdad=0; for(int i=last;i>0;i--) { String key = list.get(i).getKey(); Integer value = list.get(i).getValue(); asdad=asdad+value; } for (int i = last; i > last - 10; i--) { String key = list.get(i).getKey(); Integer value = list.get(i).getValue(); System.out.print(key + " :" + value); double d=(double)((double)value/(double)asdad); String result2=formattedDecimalToPercentage(d); System.out.println(" 百分比为:"+result2); } } catch (IOException e) { } } }
结果截图:
个人总结:这次的课堂作业还是不太明白,可以将停词表中的单词写入一个文件,然后读取进行判断,但是具体的功能还没有实现,还需要请教其他的同学。