zoukankan      html  css  js  c++  java
  • 课后作业3:个人项目(词频统计及其效能分析)

    1) 博客开头给出自己的基本信息,格式建议如下:

    • 学号:2017****7217;
    • 姓名:卢冠宇
    • 本次作业码云:https://gitee.com/The_Old_Cousin/word_frequency_count/tree/master

    2) 程序分析,对程序中的四个函数做简要说明。要求附上每一段代码及对应的说明。

      1 using Microsoft.Win32;
      2 using System;
      3 using System.Collections;
      4 using System.Collections.Generic;
      5 using System.Linq;
      6 using System.Text;
      7 using System.Windows;
      8 
      9 namespace WpfApp1
     10 {
     11     /// <summary>
     12     /// MainWindow.xaml 的交互逻辑
     13     /// </summary>
     14     public partial class MainWindow : Window
     15     {
     16         public MainWindow()
     17         {
     18             InitializeComponent();
     19         }
     20 
     21         /// <summary>
     22         /// 将打开的txt内容读到T2这个TextBlock,或者说读文件到缓冲区
     23         /// </summary>
     24         /// <param name="sender"></param>
     25         /// <param name="e"></param>
     26         private void Button_Click_1(object sender, RoutedEventArgs e)
     27         {
     28             OpenFileDialog openFileDialog = new OpenFileDialog();
     29             openFileDialog.Title = "选择数据源文件";
     30             openFileDialog.Filter = "txt文件|*.txt|所有文件|*.*";
     31             openFileDialog.FileName = string.Empty;
     32             openFileDialog.FilterIndex = 1;
     33             openFileDialog.Multiselect = false;
     34             openFileDialog.RestoreDirectory = true;
     35             openFileDialog.DefaultExt = "txt";
     36             if (openFileDialog.ShowDialog() == false)
     37             {
     38                 return;
     39             }
     40 
     41             string contents = System.IO.File.ReadAllText(openFileDialog.FileName, Encoding.Default);
     42             T2.Text = contents;
     43         }
     44 
     45         /// <summary>
     46         /// 统计每个单词的频率,存放在字典word_freq
     47         /// </summary>
     48         /// <param name="strword"></param>
     49         /// <returns>返回一个word_freq</returns>
     50         private Dictionary<string, int> process_Buffer(ArrayList strword) {
     51 
     52             Hashtable ht = new Hashtable(); 
     53             foreach (string i in strword)//以哈夫曼树记录统计词频,遍历wtrword
     54                 if (!ht.Contains(i))
     55                     ht.Add(i, 1);
     56                 else
     57                 {
     58                     ht[i] = (int)ht[i] + 1;
     59                 }
     60 
     61             Dictionary<string, int> word_freq = new Dictionary<string, int>();
     62             foreach (DictionaryEntry de in ht)//导入字典
     63             {
     64                 word_freq.Add(de.Key.ToString(), Convert.ToInt32(de.Value));
     65             }
     66 
     67             word_freq = (from entry in word_freq orderby entry.Value ascending select entry).ToDictionary(pair => pair.Key, pair => pair.Value);
     68             return word_freq;
     69         }
     70 
     71         /// <summary>
     72         /// 疯狂切字符串
     73         /// </summary>
     74         /// <param name="strtext_low">一个已经变成小写的文本</param>
     75         /// <returns>返回一个已经被切好的ArrayList字符串列表</returns>
     76         private ArrayList separateword(string strtext_low)
     77         {
     78             ArrayList sepword = new ArrayList();//定义一个动态数组用于传进已转换小写的数组
     79             string strtext = strtext_low;
     80             strtext = strtext.Replace(',', ' ');//用Replace()方法将‘,’,‘。’转化为空格
     81             strtext = strtext.Replace('.', ' ');
     82             string[] word = new string[500];//定义一个500长度的数组接收转换完成的单词
     83             word = strtext.Split(' ');//使用Split()方法分割单词
     84             foreach (string i in word)//遍历循环将其传入动态数组sepword
     85                 sepword.Add(i);
     86             return sepword;
     87         }
     88 
     89 
     90         /// <summary>
     91         /// 相当于最后的“if __name__ == "__main__":”的执行
     92         /// </summary>
     93         /// <param name="sender"></param>
     94         /// <param name="e"></param>
     95         private void Button_Click_2(object sender, RoutedEventArgs e)
     96         {
     97             T1.Text = "";
     98             int i = 0;
     99             foreach (var item in process_Buffer(separateword(T2.Text.ToLower())).Reverse())
    100             {
    101                 if (i > 10)
    102                 {
    103                     break;
    104                 }
    105                 if (item.Key != "")
    106                 {
    107                     string str = string.Format("[" + i + "]" + "{0,-15} {1,3}", item.Key, item.Value);
    108                     T1.Text = T1.Text + str + "
    ";
    109                 }
    110                 i++;
    111             }
    112             i = 0;
    113 
    114         }
    115 
    116     }
    117 }
    MainWindow.xaml.cs

    3) 性能分析结果及改进。

    • 指出执行次数最多的代码,执行时间最长的代码。
      • 执行次数最多:
                        word_freq.Add(de.Key.ToString(), Convert.ToInt32(de.Value));
      • 执行时间最长:
                    string contents = System.IO.File.ReadAllText(openFileDialog.FileName, Encoding.Default);
    • 给出改进优化的方法以及你的改进代码
      • 执行次数最多:执行次数最多的代码已经达到准线型饱和,目前为止未发现任何改进优化方法。
      • 执行时间最长:使用预缓存和多线程来进行读取操作,目前为止我们没有学过相关知识以至于达到我们可以进行对其优化。

    4) 程序运行命令、运行结果截图以及改进后的程序运行命令及结果截图 。

    性能统计概况

    5) 给出你对此次任务的总结与反思。

    简单实现了对词频统计及其效能分析,很明显,效能是一个程序性能的决定性表现之一。我们还需要学习更多常用高效的算法和编程基础知识,来拓展我们对软件工程的学习。

  • 相关阅读:
    深入正则表达式(0):正则表达式概述
    讲透学烂二叉树(二):图中树的定义&各类型树的特征分析
    讲透学烂二叉树(一):图的概念和定义—各种属性特征浅析
    Gzip之后继者Brotli浅析之CDN厂商的智能压缩,服务器Brotli设置
    ECMAScript进化史(1):​话说Web脚本语言王者JavaScript的加冕历史
    nginx网站限速限流配置——网站被频繁攻击,nginx上的设置limit_req和limit_conn
    linux添加用户,修改用户密码,修改用户权限,设置root用户操作
    nginx 限制ip访问,禁止非法域名指向本机ip——防止被别人绑定域名到自己IP的方法
    centos8 新增ssh自定义端口与屏蔽默认22端口。
    1g云主机升级centos8不满足centos 8 至少2g内存要求,linux虚拟内存来凑
  • 原文地址:https://www.cnblogs.com/The-Old-Cousin/p/10586289.html
Copyright © 2011-2022 走看看