zoukankan      html  css  js  c++  java
  • 个人项目作业

    这个作业属于哪个课程 软件工程
    这个作业要求在哪里
    作业要求
    这个作业的目标
    编写一个论文查重的程序;
    进行性能分析、回归测试;
    把代码上传到GitHub

    GitHub地址:3118005380

    PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟)
    Planning 计划 30
    Estimate 估计这个任务需要多少时间 10
    Development 开发 480
    Analysis 需求分析 (包括学习新技术) 240
    Design Spec 生成设计文档 20
    Design Review 设计复审 20
    Coding Standard 代码规范 (为目前的开发制定合适的规范) 20
    Design 具体设计 20
    Coding 具体编码 120
    Code Review 代码复审 20
    Test 测试(自我测试,修改代码,提交修改) 60
    Reporting 报告 30
    Test Repor 测试报告 20
    Size Measurement 计算工作量 5
    Postmortem & Process Improvement Plan 事后总结, 并提出过程改进计划 5
    Total 总计 800
    • 项目中包含两个.py文件,其中一个包含了实现余弦相似度算法的类CoSim,该类主要方法有:self.ClearContent(),用于清除文本噪音,使文本只留下中文字符,有一定局限性;self.DealString(),用于处理从文本转化而来的字符串,调用jieba库中的方法实现分词、提取关键词的操作,并编写代码求出各关键词的词频用于生成词频向量;self.CoSim(),用于计算两词频向量的余弦值。
      独到之处在于,CoSim类的self.init()方法接收两个参数,并调用self.CoSim(),self.CoSim()调用了self.DealString(),self.DealString()在处理文本转化来的字符串前,调用self.ClearContent()清楚文本噪音。创建CoSim类的对象的同时余弦相似度就计算出来了,一步到位。
    • 项目中的main.py文件用来获取命令行参数,进行文件的读写操作,以及调用CoSim类
    • 单元测试
      清除文本噪音


      分词,提取关键词


      计算词频向量

    • 异常处理
    • 程序运行截图
  • 相关阅读:
    Java8 Lambda表达式详解手册及实例
    成功,侥幸,以小博大?永远离不开的墨菲定律
    Java8 Stream性能如何及评测工具推荐
    康威定律,作为架构师还不会灵活运用?
    Java8 Stream新特性详解及实战
    Java SPI机制实战详解及源码分析
    jQuery是什么
    庞氏骗局
    excel中VBA的使用
    wcf ServiceContract
  • 原文地址:https://www.cnblogs.com/nekomata/p/13727540.html
Copyright © 2011-2022 走看看