zoukankan      html  css  js  c++  java
  • 在线问答网站结构定义和信息处理系统---技术规格说明书

    1、引言

    1-1、编写目的

       明确设计,供项目管理者阅读。

    1-2、定义

    缩写、术语

    解 释

    关键词

    从报告、论文中选取出来用以表示全文主题内容信息的单词或术语;关键词自动抽取是依靠计算机从文档中选择出反映主题内容的词

    停用词

    在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词

    标签

    一种互联网内容组织方式,是相关性很强的关键字,它帮助人们轻松的描述和分类内容,以便于检索和分享

    元数据 (meta data)

    描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。

    数据库实体

    数据库管理系统中的不同管理对象

     

    1-3、参考资料

      1、http://shiyanjun.cn/archives/548.html

      2、http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

      3、http://xwrwc.blog.163.com/blog/static/46320003201010634132451/

      4、http://www.cnblogs.com/kissdodog/archive/2013/02/28/2937900.html

      5、http://zhoufoxcn.blog.51cto.com/792419/280320

      6、http://zhoufoxcn.blog.51cto.com/792419/280580

      7、http://zhoufoxcn.blog.51cto.com/792419/281956

      8、http://zhoufoxcn.blog.51cto.com/792419/283021

      9、http://developer.baidu.com/wiki/index.php?title=%E5%B8%AE%E5%8A%A9%E6%96%87%E6%A1%A3%E9%A6%96%E9%A1%B5/%E7%99%BE%E5%BA%A6%E7%BF%BB%E8%AF%91/%E7%BF%BB%E8%AF%91API

     

     

    2、总体设计

    2-1、需求

    1. 定义在线问答网站的内容结构,找出其中涉及的实体及它们之间的关系;
    2. 能够支持增量式的将输入的新数据,按照定义好的内容结构合并到已有的内容中(重复内容怎么处理,更新内容怎么处理,用户上传内容怎么处理);
    3. 支持标签;
    4. 支持关键词翻译;
    5. 有一个界面来跟踪和报告数据处理的进度。

    2-1-1、定义内容结构,得到实体关系,建立数据库

    • 输入:无
    • 输出:无

    2-1-2、数据库连接

    • 输入:serverIp(服务器地址),dbName(数据库名称),string user(用户),password(用户密码)
    • 输出:无

    2-1-3、插入新数据

    • 输入:PageTitle、Author、postdate、link、<tag,文本>组
    • 输出:插入数据库

    2-1-4、去重、去噪

    • 输入:未经过处理的rawdata
    • 输出:去掉html标签等噪声数据的文本,去掉非utf-8编码的文本

    2-1-5、分词

    • 输入:文本数据、分词器(默认用PanGu分词器)
    • 输出:用该分词器处理得到的分词数据

    2-1-6、关键词抽取

    • 输入:数据库中的分词后的数据
    • 输出:通过TF-IDF方法得到关键词

    2-1-7、翻译

    • 输入:数据库中的文本数据
    • 输出:实现中英对照

    2-1-8、最终数据展示

    • 输入:Ttile、Author、Postdate、满足前面条件下的标签
    • 输出:满足前面所有要求的文本数据

    2-1-9、跟踪报告数据处理进度

    • 输入:无
    • 输出:显示数据处理的进度

    2-2、软件结构

    程序

    功能

    输入

    输出

    数据库连接

    连接数据库

    serverIp(服务器地址),dbName(数据库名称),string user(用户),password(用户密码)

    插入数据

    向数据库中增加数据

        PageTitle、Author、postdate、link、<tag,文本>组

    去重、去噪

    去除噪声数据、非utf-8文本

    原始数据

    去噪后数据

    分词

    对去噪数据进行分词

    去噪后数据

    分词数据

    关键词抽取

    得到文本的关键词

    数据库中分词数据

    若干个关键词

    翻译

    进行文本中英对照

    文本数据

    中英对照的文本数据

    最终数据展示

    对得到的最终数据进行功能展示

    数据库中相应数据

    展示数据库中数据

    跟踪报告处理数据进度

    一个界面来跟踪和报告数据处理的进度

    选择的文本数据(可有很多个)

    输出现在正在处理得数据以及处理得进度

     

    2-2-1、模块汇总表

    关键词抽取子系统

    模块名称

    功能简述

    去噪、去重

    去除噪声数据、非utf-8文本

    分词

    对去噪数据进行分词

    关键词抽取

    抽取出数据的关键词

    翻译子系统

    模块名称

    功能简述

    中英互译

    对文本进行翻译对照

    UI展示子系统

    模块名称

    功能简述

    处理单个数据界面

    对数据进行插入、去噪、分词、提取关键词、中英对照、最终结果显示

     

    处理多个文件界面

    跟踪和报告数据处理的进度界面

  • 相关阅读:
    关于mybatis中mapper.xmlSQL语句书写的心得
    笔记
    SpringMVC的小总结
    配置generatorConfig.xml自动生成的代码的sql书写问题
    关于SQL中的排序问题
    鼠标的change事件
    Git学习笔记 --第一章
    XHR对象
    黑马程序员——java学习6(127-151)——多线程
    黑马程序员——java学习5(107-126)——内部类,异常,包
  • 原文地址:https://www.cnblogs.com/cheneygroup/p/4932900.html
Copyright © 2011-2022 走看看