zoukankan      html  css  js  c++  java
  • Daily Scrum 11.5

    我们已经确定了具体改进的方向和改进的具体实现措施。

    具体今天的进度:

    我们主要明确了重点的改进方向,还有一些细微的地方将在以后的实现过程中改进。

    1.分词算法

    分为两类:中文分词(中科院ICTCLAS算法)

                  英文分词(朴素贝叶斯算法(与词库匹配))

    2.提取关键词的算法

    tf-idf算法。具体idf的计算方式还要进一步学习。

    3.数据库操作完善(排除冗余数据)

    4. 增加机器翻译的工作。

    5.pdf的关键信息提取。

    明天要完成的事项:

    1.学习Web数据挖掘中关于朴素贝叶斯算法的部分。(杨军)

    2.下载中科院ICTCLAS的分词包,进行试验,观察分词效果。(杨军,柴泽华)

    3.熟悉tf-idf算法。(柴泽华)

    4.研究C#操作pdf进行信息提取。(徐姗)

    总体上来说,今天已经确定了大家今后工作的方向,这也是我们第一轮迭代力争要完成的效果。

    希望大家明确自己的分工,加油!

                                                                                                       ——edited by 柴泽华

  • 相关阅读:
    git
    读后感
    总结
    封装,策略,Asp换脸
    典型用户
    第四次作业
    第三次作业
    计算
    感悟
    对git的认识
  • 原文地址:https://www.cnblogs.com/IloveSE/p/3434766.html
Copyright © 2011-2022 走看看