zoukankan      html  css  js  c++  java
  • 统计字母和单词

    题目:

    • 第0步 输出某个英文文本文件中26字母出现的频率,由高到低排列,并显示字母出现的百分比,精确到小数点后两位。
    • 第1步 输出单个文件中前n个最常出现的英语单词。

    设计思想:

    1.利用BufferedReader读取文件,通过for循环进行遍历统计结果。

    2.读取文件,定义变量key,和value记录单词和单词出现的次数,统计后按频率排序。

    源代码:

    package com.cute.wordcount;
    
    import java.util.Scanner;
    import java.io.BufferedReader;
    import java.io.FileInputStream;
    import java.io.FileReader;
    import java.io.InputStreamReader;
    import java.util.ArrayList;  
    import java.util.Collections;  
    import java.util.Comparator;  
    import java.util.List;  
    import java.util.Map;  
    import java.util.Map.Entry;  
    import java.util.TreeMap;  
    
    
    import java.math.BigDecimal;
    import java.text.DecimalFormat;
    import java.text.NumberFormat;
    import java.text.ParseException;
    import java.text.SimpleDateFormat;
    import java.util.Date;
     
    
    
    
      
    /** 
     *  
     * @author cute 
     * 
     * 
     * 实现从文件中读入英文文章,统计单词个数,并按值从大到小输出 
     */  
      
    public class WordCount { 
        static Scanner in =new Scanner(System.in);
      static int qian;
        public static void main(String[] args) throws Exception {  
              
            
            //读取文件内容
            BufferedReader br = new BufferedReader(new FileReader("D:\工作台\工作台F\piaopiao.txt"));  
            List<String> lists = new ArrayList<String>();  //存储过滤后单词的列表  
            String readLine = null;
            while((readLine = br.readLine()) != null){  
                String[] wordsArr1 = readLine.split("[^a-zA-Z]");  //过滤出只含有字母的  
                for (String word : wordsArr1) {  
                    if(word.length() != 0){  //去除长度为0的行  
                        lists.add(word);  
                    }  
                }  
            }  
              
            br.close();  
            
            
         //存储单词计数信息,key值为单词,value为单词数  
            Map<String, Integer> wordsCount = new TreeMap<String,Integer>();      
              
            //单词的词频统计  
            for (String li : lists) {  
                if(wordsCount.get(li) != null){  
                    wordsCount.put(li,wordsCount.get(li) + 1);  
                }else{  
                    wordsCount.put(li,1);  
                }  
      
            }  
            
       //按出现频率的大小进行排序  
        public static int SortMap(Map<String,Integer> oldmap){  
              
            ArrayList<Map.Entry<String,Integer>> list = new ArrayList<Map.Entry<String,Integer>>(oldmap.entrySet());  
              
            Collections.sort(list,new Comparator<Map.Entry<String,Integer>>(){  
                @Override  
                public int compare(Entry<String, Integer> o1, Entry<String, Integer> o2) {  
                    return o2.getValue() - o1.getValue();  //降序  
                }  
            });  
              
            for(int i = 0; i<list.size(); i++){  
             //   System.out.println(list.get(i).getKey()+ "	出现的次数为: " +list.get(i).getValue());  
             //控制小数点
            int a=list.get(i).getValue();
            int b=list.size(); 
            DecimalFormat df = new DecimalFormat("0.00");//格式化小数  
            String num = df.format((float)a/b);//返回的是String类型 
            
            System.out.println(list.get(i).getKey()+ "	
    出现的次数为: " +list.get(i).getValue()+"	出现的频率为"+num);
           
            
            
            }
            return 0;
     
        }  
        
        
        public static int SortMap02(Map<String,Integer> oldmap){  
            
            ArrayList<Map.Entry<String,Integer>> list = new ArrayList<Map.Entry<String,Integer>>(oldmap.entrySet());  
              
            Collections.sort(list,new Comparator<Map.Entry<String,Integer>>(){  
                @Override  
                public int compare(Entry<String, Integer> o1, Entry<String, Integer> o2) {  
                    return o2.getValue() - o1.getValue();  //降序  
                }  
            });  
              
            for(int i = 0; i<qian; i++){  
             //   System.out.println(list.get(i).getKey()+ "	出现的次数为: " +list.get(i).getValue());  
             //控制小数点
            int a=list.get(i).getValue();
            int b=list.size(); 
            DecimalFormat df = new DecimalFormat("0.00");//格式化小数  
            String num = df.format((float)a/b);//返回的是String类型 
            
            System.out.println(list.get(i).getKey()+ "	
    出现的次数为: " +list.get(i).getValue()+"	出现的频率为"+num);
           
            
            
            }
            return 0;
     
        }  
      
    } 
    /*
    对单词统计

    */

    package
    com.cute.wordcount; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.text.NumberFormat; public class danci{ public class java { } public static void main(String[] args) throws Exception { BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream("D:\\工作台\\工作台F\\piaopiao.txt"))); int[] count = new int[26]; char[] c = new char[1]; int len = br.read(c); while(len!=-1) { if(c[0]<='Z'&&c[0]>='A') { int number = c[0]; count[number-65]++; // COUNT[number-65]++; } if(c[0]<='z'&&c[0]>='a') { int number = c[0]; count[number-97]++; } len = br.read(c); } count=Paixu(count); Print(count); System.out.print(" b.txt文件读取完毕!"); br.close(); } public static int[] Paixu(int[] count) { int temp; int size=count.length; for(int i=0;i<size-1;i++) { for(int j=i+1;j<size;j++) { if(count[i]<count[j]) { temp=count[j]; count[j]=count[i]; count[i]=temp; } } } return count; } public static void Print(int[] count) { NumberFormat numberFormat = NumberFormat.getInstance(); // 设置精确到小数点后2位 numberFormat.setMaximumFractionDigits(2); int sum=0; for(int i=0;i<count.length;i++) { sum=count[i]+sum; } String[] a=new String[count.length]; for(int i=0;i<count.length;i++) { a[i] = numberFormat.format((float) count[i] / (float) sum * 100); } for(int i=0;i<26;i++) { if(count[i]>0) { char lowerCase = (char)(i+97); System.out.println(lowerCase+"("+count[i]+")"+"("+a[i]+"%)"); } } } }

    实验截图:

    迷失在灿烂之中 消失在万里晴空
  • 相关阅读:
    你不知道的javascript -- 数据类型
    draft.js开发富文本编辑器
    webpack4配置react开发环境
    使用yarn代替npm
    promise基础和进阶
    express route的写法
    理解es6箭头函数
    Mocha测试
    js 实现继承
    Unity3D使用经验总结 缺点篇
  • 原文地址:https://www.cnblogs.com/wxy2000/p/10872105.html
Copyright © 2011-2022 走看看