zoukankan      html  css  js  c++  java
  • 个人项目作业

    这个作业属于哪个课程 软件工程
    这个作业要求在哪里
    作业要求
    这个作业的目标
    编写一个论文查重的程序;
    进行性能分析、回归测试;
    把代码上传到GitHub

    GitHub地址:3118005380

    PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟)
    Planning 计划 30
    Estimate 估计这个任务需要多少时间 10
    Development 开发 480
    Analysis 需求分析 (包括学习新技术) 240
    Design Spec 生成设计文档 20
    Design Review 设计复审 20
    Coding Standard 代码规范 (为目前的开发制定合适的规范) 20
    Design 具体设计 20
    Coding 具体编码 120
    Code Review 代码复审 20
    Test 测试(自我测试,修改代码,提交修改) 60
    Reporting 报告 30
    Test Repor 测试报告 20
    Size Measurement 计算工作量 5
    Postmortem & Process Improvement Plan 事后总结, 并提出过程改进计划 5
    Total 总计 800
    • 项目中包含两个.py文件,其中一个包含了实现余弦相似度算法的类CoSim,该类主要方法有:self.ClearContent(),用于清除文本噪音,使文本只留下中文字符,有一定局限性;self.DealString(),用于处理从文本转化而来的字符串,调用jieba库中的方法实现分词、提取关键词的操作,并编写代码求出各关键词的词频用于生成词频向量;self.CoSim(),用于计算两词频向量的余弦值。
      独到之处在于,CoSim类的self.init()方法接收两个参数,并调用self.CoSim(),self.CoSim()调用了self.DealString(),self.DealString()在处理文本转化来的字符串前,调用self.ClearContent()清楚文本噪音。创建CoSim类的对象的同时余弦相似度就计算出来了,一步到位。
    • 项目中的main.py文件用来获取命令行参数,进行文件的读写操作,以及调用CoSim类
    • 单元测试
      清除文本噪音


      分词,提取关键词


      计算词频向量

    • 异常处理
    • 程序运行截图
  • 相关阅读:
    顺序的分数 Ordered Fractions
    容易的网络游戏
    Linux常用命令大全(share)
    Linux和UNIX监控
    Linux命令汇总
    优秀员工的10个修养
    ibatis使用--SqlMapClient对象
    一个男人关心的东西 决定了他的层次
    Linux下vi命令大全
    Linux中图形界面和文本模式相互切换
  • 原文地址:https://www.cnblogs.com/nekomata/p/13727540.html
Copyright © 2011-2022 走看看