PIPELINE组测试报告
前言:我们组与学霸系统的其他两个小组共同合作开发,组成学霸系统的团体工作。作为学霸系统的一环,我们组起到承上启下的作用,因此,面向群体以及功能实现都是为给下一个组的工作做好预备工作。
1.项目基本信息:
项目名称 |
学霸系统pipeline |
客户方 |
北京航空航天大学计算机学院 UI 小组 |
开发方 |
北京航空航天大学计算机学院 I love SE 小组 |
项目委托时间 |
2013-10-16 |
项目测试时间范围 |
起:2013-11-6止:2013-11-13 |
测试参与人员 |
柴泽华,徐姗,李超,杨军,乔立男 |
2.产品面向群体:
由于我们这组的项目并不是传统意义上能发布并进行展示的项目,因此相对应的面向的用户群体也不是传统意义上的用户。我们组是学霸系统3个小组中的中间的一员,因此我们所做的东西将提供给最后一个小组使用,所以我们面向的用户是学霸系统UI组。
3.用户使用说明(即UI组调用数据库的方式):
UI组在制作提问与解答模块时需要用到我们放在服务器中的数据库。我们的数据库中的数据表共有四张。
表名 |
WebPage表 |
WebPage_Tags表 |
Tags表 |
Sensitive_Words表 |
作用 |
存有每个网页的具体属性信息。 |
网页号,标签号,还有每个网页对应标签的对应信息。 |
具体每个标签的属性信息。 |
是每个敏感词的属性信息。 |
用SQL语言表示个表格定义:
1.WebPage表:
Create Table WebPage{
wid int primary key, //wid是我们UI组查询必须要用到的唯一标识一个网页的标识
title nvarchar(255) not
null, //标题
author nvarchar(255)
//作者
postdate
date //发表日期
link nvarchar(255) not
null, //链接
referred nvarchar(255)
//引用
views int not
null,
//学霸网站内的浏览量(初始化为0)
rate smallint not
null //各个评分等级的比率
}
2. WebPage_Tags表:
Create Table WebPage_Tags{ //用于连接网页表与标签表
tid int not null,
wid int not null,
primary key (taid,wid)
preview nvarchar(255)
}
3.Tags表:
Create Table Tags{ //标签(提取的关键字)
tid int primary key not null,
name
char(20) not null,
prevtaid
int
}
4.Sensitive word表
Create Table Sensitive_Words{ //敏感词
sid int primary key not null,
name char(20) not null
}
UI组在制作用户提问与解答时才需要我们组制作的数据库。UI组首先调用Sensitive_Words表判断用户提问中是否存在敏感词,若无敏感词,首先将问题分割成若干个tags,然后去WebPage_Tags表中匹配哪个网页能够匹配到最多的tags,然后就将这个网页对应的preview提取出来作为问题的答案;对于其余还没有对应的tags,递归的寻找哪个网页能够匹配到最多的tags,然后就将这个网页对应的preview提取出来作为问题的答案。
4.测试环境与配置:
4.1功能测试
数据库服务器配置(本机测试) |
||||
机器名(IP) |
CPU |
内存 |
软件环境(操作系统、应用软件) |
|
192.168.13.43 |
2.20GHz |
2.00GB |
Windows server 2008 R2 Standard |
|
应用服务器配置(本机测试) |
||||
机器名(IP) |
CPU |
内存 |
软件环境(操作系统、应用软件) |
|
192.168.13.43 |
2.20GHz |
2.00GB |
Windows server 2008 R2 Standard |
|
其他说明 |
无 |
|||
4.2性能测试
数据库服务器配置(本机测试) |
||||
机器名(IP) |
CPU |
内存 |
软件环境(操作系统、应用软件) |
|
192.168.13.43 |
2.20GHz |
2.00GB |
Windows server 2012 |
|
应用服务器配置(本机测试) |
||||
机器名(IP) |
CPU |
内存 |
软件环境(操作系统、应用软件) |
|
192.168.13.43 |
2.20GHz |
2.00GB |
Windows server 2012 |
|
其他说明 |
无 |
|||
4.3 UI界面基本功能测试
4.3.1 主界面功能测试
功能 |
基本要求 |
测试情况 |
测试结果显示 |
|
Listbox中url地址的显示 |
能显示所有要求的url地址 |
功能实现 |
通过 |
|
Totalfiles中数量的显示 |
能显示现在所有被操作网页的总数 |
功能实现 |
通过 |
|
选中Listbox中想操作的网页 |
可以选中想操作的网页 |
功能实现 |
通过 |
4.3.2 RawData界面功能测试
功能 |
基本要求 |
测试情况 |
测试结果显示 |
|
RichTextBox中显示网页的源代码 |
可以显示所有的源代码 |
功能实现 |
通过 |
|
Return返回主界面 |
点击Return键可以返回主界面 |
功能实现 |
通过 |
4.3.3 DenoisingData界面功能测试
功能 |
基本要求 |
测试情况 |
测试结果显示 |
|
RichTextBox中显示处理后的网页源代码 |
可以显示处理后的网页源代码 |
功能实现 |
通过 |
|
Return返回主界面 |
点击Return键可以返回主界面 |
功能实现 |
通过 |
4.3.4 FinalData界面功能测试
功能 |
基本要求 |
测试情况 |
测试结果显示 |
|
Title中显示网页的标题 |
可以显示网页的标题 |
功能实现 |
通过 |
|
Author中显示网页的作者 |
可以显示网页的作者 |
功能实现 |
通过 |
|
Postdate中显示网页的发表日期 |
可以显示网页的发表日期 |
功能实现 |
通过 |
|
Combobox中显示网页的待选标签 |
可以显示所有的四个标签 |
功能实现 |
通过 |
|
Preview中显示网页标签相对应的预览内容 |
每一个网页标签都有预览内容 |
功能实现 |
未通过 |
|
Return返回主界面 |
点击Return键可以返回主界面 |
功能实现 |
通过 |
4.3.5 WordSegment界面功能测试
功能 |
基本要求 |
测试情况 |
测试结果测试 |
|
ListView1中显示网页中的词频统计 |
可以显示源代码中的所有词频 |
功能实现 |
通过 |
|
Segment Result中显示分词后的降噪后数据 |
显示降噪后的网页源代码 |
功能实现 |
通过 |
|
Return返回主界面 |
点击Return键可以返回主界面 |
功能实现 |
通过 |
4.3.6 Input New Content界面功能测试
功能 |
基本要求 |
测试情况 |
测试结果测试 |
|
各种textbox中都可以输入信息 |
可以输入信息 |
功能实现 |
通过 |
|
点击Addtag按钮后添加tag |
可以在ListBox中看到添加的tag |
功能实现 |
通过 |
|
Return返回主界面 |
点击Return键可以返回主界面 |
功能实现 |
通过 |
4.4保存功能测试
功能 |
基本要求 |
测试情况 |
测试结果测试 |
|
Input New Content中InsertAll可保存信息 |
可以保存信息 |
功能实现 |
通过 |
|
Process操作后的WebPages,Tags,Webpage_tag表中都存入信息 |
可以存入信息 |
功能实现 |
通过 |
4.5 翻译功能测试
功能 |
基本要求 |
测试情况 |
测试结果测试 |
|
纯英文网页可以翻译为中文 |
可以都翻译为中文 |
功能实现 |
通过 |
|
中文英文混合的网页可以翻译为中文 |
可以都翻译为中文 |
功能实现 |
通过 |
4.6提取关键词后的结果测试
关键词正确率指的是与手动提取关键词后的匹配结果。
测试网页序号 |
URL |
关键词正确率 |
运行时间 |
1(中文) |
000.htm |
50% |
11ms |
2(中文) |
1011044489.html |
25% |
40ms |
3(中文) |
1011044488.html |
50% |
20ms |
4(英文) |
_iris.eecs.berkeley.edu_05-helpdesk.html.html |
50% |
3s |
5(英文) |
_iris.eecs.berkeley.edu_15-faq_00-accounts_00-email.html#supported.html |
50% |
2s |
6(英文) |
_calmail.berkeley.edu_docs_client.html.html |
0% |
1s |
4.7 可靠性测试
测试内容 |
基本要求 |
测试通过 |
测试是否通过 |
|
用户权限操作数据库时所受的控制 |
用户不会超越限制 |
实现要求 |
通过 |
|
用户不会向数据库中添加冗余信息 |
数据库不接受重复信息 |
实现要求 |
通过 |
4.8 易用性测试
测试内容 |
基本要求 |
测试通过 |
测试是否通过 |
|
用户可以在看过用户规格说明后即可使用 |
用户操作简单易学 |
实现要求 |
通过 |
5.测试后总结
1.主要的问题还是出在关键词提取的准确率和测试时间上面,究其原因,主要是有两点:
1关键词提取算法过于简单,要使用改进后的tf-idf算法。
2分词算法中的词库太小,不够全面,并且分词粒度太小,很多专业类的词汇都被拆开。
2.preview的提取还是一个大难题,这一点老师也没有要求我们去做,做的效果也不是太好。主要原因是现在没有根据关键词去提取对应摘要的好算法,需要我们自己去摸索。
3.英文网页需要翻译,而联网的耗时比较长,但是本地的词典进行的机器翻译效果又不好,如何在这两者之间进行中和,是目前的一个大问题。
4.下一次beta版本测试时最好使用专业测试工具进行测试。
————edited by 柴泽华