zoukankan      html  css  js  c++  java
  • Teamwork——Week4 团队项目之NABC

    项目框架——NABC模型

    一.N(Need需求)

    我们组主要的用户对象是第三小组——UI小组的同学们,因此我们的用户需求就是他们的数据需求。

    1)提供给UI小组整理好的数据库,和前一组讨论好数据结构。

    2)给每一条记录添加合理的标签,既不使数据结构过于麻烦,也不能增加方便UI小组进行查询。

    3)作出爬取步骤的UI,方便UI小组知道软件的每个功能,并有助于他们更好的理解我们定义的每个接口和方法。

    4)对英文网页做翻译,并以中文的形式存入数据库(暂定采用较好的Google翻译)

    5)支持继续向pipeline中输入新内容。

    二.A(Approach 做法)

    1)对于爬到的数据先进行去噪处理,提取关键信息。(例如问题信息,回答信息,领域关键词)

    2)利用所学的sql server数据库的知识,对上一组crawler爬到的数据进行分组聚类,相应的贴上标签。

    3)识别英文网页,对其进行中文翻译后再将其存入数据库。

    以上提到的做法中主要要解决以下几个技术难点:

    1)提取信息是如何准确匹配信息。

    2)和前一组爬虫小组(crawler)商量好数据结构,以便于决定好数据提取的形式

    3)决定标签如何分配,从而得到一个清晰的分类

    4)翻译时除了借用谷歌翻译,还要借鉴其他良好的翻译算法,从而得到最佳的翻译文本

    三.B(Benefit 好处)

    像前面提到的一样,由于我们组的任务不是具体的面向用户,因此benefit方面就提一下和学长相比的改进:

    1)增加了可以根据需要实时添加数据记录的功能

    2)数据标签的设计更加贴合实际情况,具体情况具体分析

    3)翻译更加贴合中文

    四.C(Competitors 竞争)

    我们这个层次暂时不存在竞争,因为第一,我们也不知道其他同类系统的这一层面是如何实现的,第二,我认为竞争性的主要体现是表现在学霸组三个分组的综合功能上。

    由于做爬虫的小组还没有决定好结束时爬取的网页、问答对、PDF文件、视频文件等的数量,以及抽取信息的数量,因此我们组预估的信息基础是建立在上一届项目的基础上。

    上一届的爬虫小组爬到的结果为32万个网页,包括问答对,PDF,美国名校计算机学院网页,其中问答对最多,近28万个。我们计划处理的网页数量应该是在这个数据基础上只增不减吧(具体还要看爬虫小组的实际情况)。

                                                                                                             ——edited by 柴泽华

  • 相关阅读:
    存储过程生成POCO
    Asp.net MVC4与Razor呈现图片的扩展
    Html5中新input标签与Asp.net MVC应用程序
    HTML5上传文件显示进度
    JQuery图表插件之Flot
    用Html5与Asp.net MVC上传多个文件
    TSQL列出最后访问的存储过程
    Asp.net MVC 限制一个方法到指定的Submit按钮
    VisualStudio2012轻松把JSON数据转换到POCO的代码
    Apache Tika源码研究(三)
  • 原文地址:https://www.cnblogs.com/IloveSE/p/3383458.html
Copyright © 2011-2022 走看看