zoukankan      html  css  js  c++  java
  • 单词统计

    用户需求:

    英语的26 个字母的频率在一本小说中是如何分布的?

    某类型文章中常出现的单词是什么?

    某作家最常用的词汇是什么?

    《哈利波特》 中最常用的短语是什么,等等。

    我们就写一些程序来解决这个问题,满足一下我们的好奇心。

    第0步:输出某个英文文本文件中 26 字母出现的频率,由高到低排列,并显示字母出现的百分比,精确到小数点后面两位。

    字母频率 = 这个字母出现的次数 / (所有A-Z,a-z字母出现的总数)

    如果两个字母出现的频率一样,那么就按照字典序排列。  如果 S 和 T 出现频率都是 10.21%, 那么, S 要排在T 的前面。

    第1步:输出单个文件中的前 N 个最常出现的英语单词。

    作用:一个用于统计文本文件中的英语单词出现频率。

    单词:以英文字母开头,由英文字母和字母数字符号组成的字符串视为一个单词。单词以分隔符分割且不区分大小写。在输出时,所有单词都用小写字符表示。

    英文字母:A-Z,a-z

    字母数字符号:A-Z,a-z,0-9

    package test;

     

    import java.io.BufferedReader;

    import java.io.FileReader;

    import java.io.IOException;

    import java.text.NumberFormat;

    import java.util.ArrayList;

    import java.util.Collections;

    import java.util.Comparator;

    import java.util.List;

    import java.util.Map;

    import java.util.TreeMap;

    import java.util.regex.Matcher;

    import java.util.regex.Pattern;

     

    public class zimu {

         

         private static String formattedDecimalToPercentage(double decimal)

            {

                //获取格式化对象

                NumberFormat nt = NumberFormat.getPercentInstance();

                //设置百分数精确度2即保留两位小数

                nt.setMinimumFractionDigits(2);

                return nt.format(decimal);

            }

    public static void main(String []args) {

        String a1;

        char a='A';

        int a2[]=new int[27];

        char b1[]=new char[26];

        char b2[]=new char[26];

        double c1[]=new double[26];

        for(int i=0;i<26;i++)

        {

        b1[i]=a;

        b2[i]=(char)(a+32);

        a++;

        }

        try {

            BufferedReader in = new BufferedReader(new FileReader("D:\piao.txt"));

            String str;

            while ((str = in.readLine()) != null) {

                char[] d=str.toCharArray();

                for(int i=0;i<d.length-1;i++) {

                    for(int j=0;j<26;j++) {

                        if(b1[j]==d[i]||b2[j]==d[i]) {

                            a2[j]++;

                        }

                    }

                }

            }

             

            a2[26]=0;

            for(int i=0;i<26;i++) {

                a2[26]=a2[i]+a2[26];

            }

     

            for(int i=0;i<26;i++) {

                 c1[i]=(double)((double)a2[i]/(double)a2[26]);

            }

             

             

           for(int i=0;i<26;i++) {

                System.out.print(b1[i]);

                System.out.print("和");

                System.out.print(b2[i]);

                System.out.print("出现的次数为:");

                System.out.print(a2[i]);

                double d=(double)((double)a2[i]/(double)a2[26]);

                String result2=formattedDecimalToPercentage(d);

                System.out.println("   百分比为:"+result2);

     

            }

           System.out.println("       ");

            System.out.println("出现单词次数较多的前十个为:");

            BufferedReader reader = new BufferedReader(new FileReader(

                    "D:\\piao.txt"));

            StringBuffer buffer = new StringBuffer();

            String line = null;

            while ((line = reader.readLine()) != null) {

                buffer.append(line);

            }

            reader.close();

            Pattern expression = Pattern.compile("[a-zA-Z]+");

            String string = buffer.toString();

            Matcher matcher = expression.matcher(string);//

            Map<String, Integer> map = new TreeMap<String, Integer>();

            String word = "";

            int times = 0;

            while (matcher.find()) {

                word = matcher.group();

                if (map.containsKey(word)) {

                    times = map.get(word);

                    map.put(word, times + 1);

                } else {

                    map.put(word, 1);

                }

            }

      

            List<Map.Entry<String, Integer>> list = new ArrayList<Map.Entry<String, Integer>>(

                    map.entrySet());

     

            Comparator<Map.Entry<String, Integer>> comparator = new Comparator<Map.Entry<String, Integer>>() {

                public int compare(Map.Entry<String, Integer> left,

                        Map.Entry<String, Integer> right) {

                    return (left.getValue()).compareTo(right.getValue());

                }

            };

            Collections.sort(list, comparator);// 排序

            int last = list.size() - 1;

            int asdad=0;

            for(int i=last;i>0;i--) {

                String key = list.get(i).getKey();

                Integer value = list.get(i).getValue();

                asdad=asdad+value;

                 

            }

             

            for (int i = last; i > last - 10; i--) {

                String key = list.get(i).getKey();

                Integer value = list.get(i).getValue();

                System.out.print(key + " :" + value);

               double d=(double)((double)value/(double)asdad);

               String result2=formattedDecimalToPercentage(d);

            System.out.println("   百分比为:"+result2);

            }

             

        } catch (IOException e) {

        }

    }

    }

  • 相关阅读:
    (一〇八)iPad开发之横竖屏适配
    ZOJ 1414:Number Steps
    HDU 1391:Number Steps
    ZOJ 1871:Steps
    POJ 2590:Steps
    POJ 2629:Common permutation
    POJ 2562:Primary Arithmetic
    POJ 2505:A multiplication game
    HDU 1517:A Multiplication Game
    POJ 3650:The Seven Percent Solution
  • 原文地址:https://www.cnblogs.com/g414056667/p/13064324.html
Copyright © 2011-2022 走看看