1、引言
1-1、编写目的
明确设计,供项目管理者阅读。
1-2、定义
缩写、术语 |
解 释 |
关键词 |
从报告、论文中选取出来用以表示全文主题内容信息的单词或术语;关键词自动抽取是依靠计算机从文档中选择出反映主题内容的词 |
停用词 |
在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词 |
标签 |
一种互联网内容组织方式,是相关性很强的关键字,它帮助人们轻松的描述和分类内容,以便于检索和分享 |
元数据 (meta data) |
描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。 |
数据库实体 |
数据库管理系统中的不同管理对象 |
1-3、参考资料
1、http://shiyanjun.cn/archives/548.html
2、http://www.ruanyifeng.com/blog/2013/03/tf-idf.html
3、http://xwrwc.blog.163.com/blog/static/46320003201010634132451/
4、http://www.cnblogs.com/kissdodog/archive/2013/02/28/2937900.html
5、http://zhoufoxcn.blog.51cto.com/792419/280320
6、http://zhoufoxcn.blog.51cto.com/792419/280580
7、http://zhoufoxcn.blog.51cto.com/792419/281956
8、http://zhoufoxcn.blog.51cto.com/792419/283021
9、http://developer.baidu.com/wiki/index.php?title=%E5%B8%AE%E5%8A%A9%E6%96%87%E6%A1%A3%E9%A6%96%E9%A1%B5/%E7%99%BE%E5%BA%A6%E7%BF%BB%E8%AF%91/%E7%BF%BB%E8%AF%91API
2、总体设计
2-1、需求
- 定义在线问答网站的内容结构,找出其中涉及的实体及它们之间的关系;
- 能够支持增量式的将输入的新数据,按照定义好的内容结构合并到已有的内容中(重复内容怎么处理,更新内容怎么处理,用户上传内容怎么处理);
- 支持标签;
- 支持关键词翻译;
- 有一个界面来跟踪和报告数据处理的进度。
2-1-1、定义内容结构,得到实体关系,建立数据库
- 输入:无
- 输出:无
2-1-2、数据库连接
- 输入:serverIp(服务器地址),dbName(数据库名称),string user(用户),password(用户密码)
- 输出:无
2-1-3、插入新数据
- 输入:PageTitle、Author、postdate、link、<tag,文本>组
- 输出:插入数据库
2-1-4、去重、去噪
- 输入:未经过处理的rawdata
- 输出:去掉html标签等噪声数据的文本,去掉非utf-8编码的文本
2-1-5、分词
- 输入:文本数据、分词器(默认用PanGu分词器)
- 输出:用该分词器处理得到的分词数据
2-1-6、关键词抽取
- 输入:数据库中的分词后的数据
- 输出:通过TF-IDF方法得到关键词
2-1-7、翻译
- 输入:数据库中的文本数据
- 输出:实现中英对照
2-1-8、最终数据展示
- 输入:Ttile、Author、Postdate、满足前面条件下的标签
- 输出:满足前面所有要求的文本数据
2-1-9、跟踪报告数据处理进度
- 输入:无
- 输出:显示数据处理的进度
2-2、软件结构
程序 |
功能 |
输入 |
输出 |
数据库连接 |
连接数据库 |
serverIp(服务器地址),dbName(数据库名称),string user(用户),password(用户密码) |
无 |
插入数据 |
向数据库中增加数据 |
PageTitle、Author、postdate、link、<tag,文本>组 |
无 |
去重、去噪 |
去除噪声数据、非utf-8文本 |
原始数据 |
去噪后数据 |
分词 |
对去噪数据进行分词 |
去噪后数据 |
分词数据 |
关键词抽取 |
得到文本的关键词 |
数据库中分词数据 |
若干个关键词 |
翻译 |
进行文本中英对照 |
文本数据 |
中英对照的文本数据 |
最终数据展示 |
对得到的最终数据进行功能展示 |
数据库中相应数据 |
展示数据库中数据 |
跟踪报告处理数据进度 |
一个界面来跟踪和报告数据处理的进度 |
选择的文本数据(可有很多个) |
输出现在正在处理得数据以及处理得进度 |
2-2-1、模块汇总表
关键词抽取子系统 |
|
模块名称 |
功能简述 |
去噪、去重 |
去除噪声数据、非utf-8文本 |
分词 |
对去噪数据进行分词 |
关键词抽取 |
抽取出数据的关键词 |
翻译子系统 |
|
模块名称 |
功能简述 |
中英互译 |
对文本进行翻译对照 |
UI展示子系统 |
|
模块名称 |
功能简述 |
处理单个数据界面 |
对数据进行插入、去噪、分词、提取关键词、中英对照、最终结果显示
|
处理多个文件界面 |
跟踪和报告数据处理的进度界面 |