zoukankan      html  css  js  c++  java
  • 第一次个人编程作业

    GitHub链接

    一、PSP表格

    PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟)
    Planning 计划 60 70
    · Estimate · 估计这个任务需要多少时间 30 30
    Development 开发 540 600
    · Analysis · 需求分析 (包括学习新技术) 240 360
    · Design Spec · 生成设计文档 40 50
    · Design Review · 设计复审 60 60
    · Coding Standard · 代码规范 (为目前的开发制定合适的规范) 40 50
    · Design · 具体设计 40 50
    · Coding · 具体编码 360 600
    · Code Review · 代码复审 50 70
    · Test · 测试(自我测试,修改代码,提交修改) 60 90
    Reporting 报告 120 180
    · Test Repor · 测试报告 20 20
    · Size Measurement · 计算工作量 15 20
    · Postmortem & Process Improvement Plan · 事后总结, 并提出过程改进计划 60 90
    · 合计 1735 2340

    二、计算模块接口

    • (3.1)计算模块接口的设计与实现过程。设计包括代码如何组织,比如会有几个类,几个函数,他们之间关系如何,关键函数是否需要画出流程图?说明你的算法的关键(不必列出源代码),以及独到之处。

    做这道题之前我事先在网上查找了资料,发现做关键词屏蔽的一般做法就是运用DFA以及AC自动机,后来就选择了使用AC自动机这个算法。然后根据AC自动机的一般做法,一般都需要创建字典树、构建fail指针以及关键词的查找匹配三个基本步骤。在这份代码里面,共创建了两个类。第一个类是为了创建字典树;第二个类包含三个函数,分别是为了添加关键词、构建fail指针以及查找匹配。在这两个类之后就是主函数,用于文件输入以及将结果写入文件。这份代码里面,关键就是AC自动机的算法核心,如何去匹配关键词,简易的流程图如下:

    • (3.2)计算模块接口部分的性能改进。记录在改进计算模块性能上所花费的时间,描述你改进的思路,并展示一张性能分析图(由VS 2019、JProfiler或者Jetbrains系列IDE自带的Profiler的性能分析工具自动生成),并展示你程序中消耗最大的函数。

    通过这张性能分析表,可以很清楚地看到时间主要耗费在serach函数上,这个函数的作用是为了查找匹配关键词。通过查找资料可知,这个循环往下一个fail指针的代码的复杂度是O(len),如果主串长度为n,那么总的匹配时间就是O(n*len)。因此文本内容增大时相应的匹配时间就会增长。

    • (3.3)计算模块部分单元测试展示。展示出项目部分单元测试代码,并说明测试的函数,构造测试数据的思路。并将单元测试得到的测试覆盖率截图,发表在博客中。

    这个单元测试我原本是想要直接通过pycharm来实现的,但是在配置好pytest以及coverage变量后,仍然没有找到教程里提到的Run"pytest in test",后来我就选择用gitbash来实现单元测试。在这里,我只是简易的测试了一下输入输出,代码如下:

    单元测试结果如下:

    • (3.4)计算模块部分异常处理说明。在博客中详细介绍每种异常的设计目标。每种异常都要选择一个单元测试样例发布在博客中,并指明错误对应的场景。

      • 首先就是最开始我的输出无法实现换行处理,导致我的输出看起来乱七八糟的

      但后来经过输出代码的修改,终于使结果与所给示例大致相同:

      • 其次就是对文本零输入进行了判断,代码如下:

      我做了一个简单的判断,很显然,当按行对文件读入时,如果测得行数为0,则所给的文本内容为空。

    三、心得

    • (4.1)在完成本次作业过程的心得体会

    这次作业对我来说难度太大了。我最开始想着只是用C语言来实现,毕竟python我只是粗略地学过一点点,我并不觉得我可以用它来实现这次作业。事实也是如此,我确实没有真正实现这个作业,我只是尽力地做了一部分。刚一接触到这个作业,我就开始去网上查找资料,发现一般实现查找屏蔽词的方法一般就是AC自动机以及DFA,但他们一般都是用python实现,我也就硬着头皮决定用python完成。但是最初连读取文件以及写入文件都够呛,还是百度来的。后来又碰上了建立关键词库地问题,一再地查找材料,但后来囿于时间以及自身能力有限,我还是放弃了,只能尽力地多列举几个屏蔽词。这样确实很笨,但我确实黔驴技穷了。这次作业确实完成得很不好,不过接下来我会努力多去学习python的,争取在下一次编程作业做得更好!

  • 相关阅读:
    Troubleshooting MySQL Memory Usage
    Innodb Log checkpointing 和 dirty Buffer pool pages的关系
    MySQL pager 命令有趣的用法
    测定INNODB REDO LOGS的写入量
    max_allowed_packet & Mysqldump
    链接MyISAM文件
    RFID常识
    C++的程序的文件结构(zt)
    使用C#开发ActiveX控件(zt)
    RFID自动识别术语解释(zt)
  • 原文地址:https://www.cnblogs.com/dudu340/p/15267957.html
Copyright © 2011-2022 走看看