zoukankan      html  css  js  c++  java
  • Crawling is going on

    [Crawling is going on - Alpha版本]

    测 试 报 告

    文件状态:

    [] 草稿

    [√] 正式发布

    [] 正在修改

    报告编号:

    当前版本:

    1.0.2

    编写人:

    周萱、林谋武、谢勤政

    编写日期

    起:2013-11-6

    止:2013-11-11

    审批人:

    刘昊岩

    审批日期

    2013-11-12

    保密级别:

    版本变更记录

    日期

    版本

    作者/修改者

    描述

    审核人

    2013-11-6

    1.00

    周萱

    创建

    刘昊岩

    2013-11-8

    1.01

    谢勤政

    修改

    刘昊岩

    2013-11-11

    1.02

    林谋武

    修改

    刘昊岩

     

     

     

     

     

     

     

     

     

     


    目 录

    第一章 引言

    1.1编写目的

    1.2项目背景

    1.3参考资料

    1.4术语和缩略语

    第二章 测试概要

    2.1测试用例设计

    2.2测试用例属性

    2.2.1功能性

    2.2.2 可靠性

    2.2.3 可使用性

    2.2.4 安全性

    2.3测试环境与配置

    2.3.1功能测试

    2.3.2性能测试

    第三章 测试内容和执行情况

    3.1项目测试概况表

    3.2功能

    3.2.1 UI界面基本功能测试

    3.2.2 UI界面附加功能测试

    3.2.3爬取内容保存功能

    3.3性能(效率)

    3.3.1测试用例

    3.3.2设备效率

    3.3.3测试用例补充说明

    3.4可靠性

    3.5安全性

    3.6易用性

    第四章 缺陷的统计与分析

    第五章 测试结论

    项目基本信息

    项目名称

    Crawling is going on

    客户方

    北京航空航天大学计算机学院 IloveSE 小组

    开发方

    北京航空航天大学计算机学院 远航1617 小组

    项目委托时间

    2013-10-16

    项目测试时间范围

    起:2013-11-6止:2013-11-13

    测试参与人员

    刘昊岩,周萱,林谋武,谢勤政


    第一章 引言

    1.1编写目的

    本测试报告为Crawling is going on的测试报告,目的在于总结测试阶段的测试以及分析测试结果,描述系统是否符合需求。由于我们小组项目需要和 IloveSE,软件工程实践小队 两小组合作才能完成,所以现阶段我们只是对于我们小组负责的工作进行测试。预期参考人员包括测试人员、开发人员、项目经理、开发经理和需要阅读本报告的其他小组及其小组成员,以及软件工程课程老师。

    1.2项目背景

    我们小组的研究课题是编写一个更实用的爬虫软件,编写时会应用到学长的部分代码并在其基础上完善创新。鉴于学长代码已经实现了基本功能,即从网站上面爬取相关的Word文档等与计算机有关的文件和资料,过滤掉不相关的信息。我组将从以下几个方面着手进行改进和完善:

    1.加强去广告功能

    2.分类保存扒取到的文件

    3.增加视频抓取功能

    4.网页质量判定

    5.网上UI界面

    1.3参考资料

    资料名称

    作者

    自己动手写网络爬虫

    罗刚

    Web数据挖掘

    (Soumen Chakrabarti)查凯莱巴蒂

    软件测试

    肖汉

    精通SQL Server 2008完全自学手册

    金玉明

    1.4术语和缩略语

    缩略语

    全意

    爬虫

    一种自动获取网页内容的程序,是搜索引擎的重要组成部分

    URL

    中文名称为“统一资源定位符”,是互联网上标准资源的地址

    过滤

    去除网页中不符合需求的内容,例如广告等

    线程

    爬虫程序运行时的程序调度单位


    第二章 测试概要

    系统Alpha版本测试从2013年11月6日开始到2013年11月12日结束,共持续6天。测试功能点4个,执行400个测试用例,平均每个功能点执行测试用例100个,测试共发现69个bug,其中严重级别的bug 26个,无效bug 43个,平均每个测试功能点6.5个bug。

    Alpha版本为第一个测试版本,实现和测试都按预定计划完成。由于时间的问题和我们小组在开始的时候并没有得到学长的完整的版本,Alpha版本并没有完全实现所有计划的功能。更多功能请期待Beta版本的发布。

    2.1测试用例设计

    此次测试严格按照项目计划和测试计划执行,按时完成了测试计划规定的测试对象的测试。针对测试计划的规定我们采用等价类划分法,错误推测法和功能图分析法对测试用例进行了设计。对规定的测试计划在测试执行中都有体现。依据测试计划和测试用例,对系统进行了完整的测试。

    设计用例依据的功能图如下:

    2.2测试用例属性

    2.2.1功能性

    系统实现的主要功能,包括根据用户提供的URL和需要爬取的网页数目对相关URL进行爬取。

    系统实现的次要功能,包括显示当前爬取进度,显示当前爬取网页的URL。

    URL输入字段必须不含有特殊字符。

    2.2.2 可靠性

    操作按钮提示信息正确性,一致性,可理解性

    限制条件提示信息正确性,一致性,可理解性

    输入方式可理解性

    中文界面下数据语言与界面语言的一致性

    2.2.3 可使用性

    系统必须在实现用户需求的层次上实现比较稳定的运行。同时和用户的操作系统兼容,保证用户可以稳定地使用。

    2.2.4 安全性

    系统在爬取数据的过程中应该保证用户的信息和数据的安全。

    2.3测试环境与配置

    2.3.1功能测试

    数据库服务器配置

    机器名(IP)

    CPU

    内存

    软件环境(操作系统、应用软件)

    219.224.191.24

    2.67GHz

    4.00GB

    Windows server 2008 R2 Standard

    应用服务器配置

    机器名(IP)

    CPU

    内存

    软件环境(操作系统、应用软件)

    219.224.191.24

    2.67GHz

    4.00GB

    Windows server 2008 R2 Standard

    其他说明

             

    2.3.2性能测试

    数据库服务器配置

    机器名(IP)

    CPU

    内存

    软件环境(操作系统、应用软件)

    219.224.191.24

    2.67GHz

    4.00GB

    Windows server 2008

    应用服务器配置

    机器名(IP)

    CPU

    内存

    软件环境(操作系统、应用软件)

    219.224.191.24

    2.67GHz

    4.00GB

    Windows server 2008

    其他说明

             


     

    第三章 测试内容和执行情况

    3.1项目测试概况表

    项目测试概况表

    项目版本

    开始时间

    结束时间

    用例数

    用例通过数

    问题数

    用例通过率

    1.00

    2013.11.6.

    2013.11.8

    50

    44

    6

    88

    1.01

    2013.11.8.

    2013.11.10.

    100

    91

    9

    91

    1.02

    2013.11.11.

    2013.11.12.

    100

    94

    6

    94

    3.2功能

    功能测试情况概要

    模块名称

    开始时间

    结束时间

    用例数

    用例通过数

    问题数

    用例通过率

    UI界面基本功能测试

    2013.11.6.

    2013.11.12.

    50

    50

    0

    100

    UI界面附加功能测试

    2013.11.10.

    2013.11.12.

    50

    47

    3

    94

    爬取内容保存功能

    2013.11.6.

    2013.11.12.

    50

    48

    2

    96

    3.2.1 UI界面基本功能测试

    功能

    基本要求

    测试情况

    测试通过

    URL接收

    UI界面可以接收用户输入的URL

    功能实现

     

    爬取数据接受

    UI界面可以接收用户输入的爬取数据要求

    功能实现

     

    3.2.2 UI界面附加功能测试

    功能

    基本要求

    测试情况

    测试通过

    登录

    输入正确的用户名和密码可以登录系统。

    输入错误的用户名和密码系统给出明确提示。

    功能实现

     

    爬取页面数量设定

    用户输入所需要爬取的网页数量,当爬取的网页数目达到所设定的数目时停止爬虫程序。

    功能实现

     

    爬取页面URL显示

    显示当前已经爬取过的页面的URL地址

    功能实现

     

    爬取页面数量

    测试所能爬取页面的上限数量

    测试性能

     

    3.2.3爬取内容保存功能

    功能

    基本要求

    测试情况

    测试通过

    存储爬取到的HTML

    爬虫程序结束后能在服务器上查看到所爬去到的HTML网页

    功能实现

     

    数据库填表

    根据爬取到的HTML的相关信息

    功能实现

     

    3.3性能(效率)

    性能测试情况概要

    测试序号

    URL地址

    网页数目

    测试时间(单位:毫秒)

     
     

    1

    http://ask.csdn.net

    100

    22898

     

    2

    http://ask.csdn.net

    1000

    596204

     

    3

    http://msdn.microsoft.com/en-us/

    100

    224772

     

    4

    http://q.cnblogs.com

    100

    19877

     

    5

    http://en.wikipedia.org/wiki/Main_Page

    100

    133948

     

    6

    http://www.buaa.edu.cn

    100

    15757

     

    7

    http://ev.buaa.edu.cn

    100

    46835

     

    3.3.1测试用例

    测试系统在预定环境和负载下的响应速度。

    序号

    用例名称

    基本要求

    测试情况

    测试通过

    1

    爬虫程序初始化

    用户能根据自己的需求输入所要爬取的网页的地址和数量

    功能实现

     

    2

    文件下载

    爬虫程序下载文件的速度

    有待优化

     

    3.3.2设备效率

    序号

    爬取数

    CPU占用率 (%)

    内存占用率(KB)

    1

    10

    2.24

    189400

    2

    100

    9.39

    170552

    3

    1000

    27.44

    164344

    3.3.3测试用例补充说明

    序号

    URL地址

    极限测试网页数

     
     

    1

    http://ask.csdn.net

    2971

    2

    http://msdn.microsoft.com/en-us/

    631

    3

    http://q.cnblogs.com

    244

    4

    http://en.wikipedia.org/wiki/Main_Page

    565

    5

    http://www.buaa.edu.cn

    627

    6

    http://ev.buaa.edu.cn

    218

    3.4可靠性

    测试内容

    基本要求

    测试情况

    测试通过

    掉电

    客户机掉电或强行关机后重启机器,不丢失数据。

    实现要求

     

    爬取内容实时下载

    在爬虫程序意外或者人为中断时,已经爬取到的HTML内容已经保存

    实现要求

     

    爬取内容找回

    在意外删除或者人为删除爬取到的HTML内容时,能通过某些途径实时找回

    实现要求

     

    3.5安全性

    测试内容

    基本要求

    测试情况

    测试通过

    用户权限

    所有授权用户是否能在所授权限下进行工作,不容许超权限。

    实现要求

     

    数据库安全性

    数据库对于用户而言仅有查询的权限而没有修改、删除等权限

    实现要求

     

    爬取到的信息的安全性

    所爬取到的信息放在特定的路径内,只有指定用户可以提取

    实现要求

     

    3.6易用性

    测试内容

    基本要求

    测试情况

    测试通过

    易安装性

    安装参数给出默认值或提示,需要用户干预的地方尽量少,操作方便。

    实现要求

     

    简易界面

    在参考功能使用说明书的前提下,能很轻松的使用该程序

    实现要求

     

    第四章 缺陷的统计与分析

    缺陷类型

    具体说明

    原因分析

    爬取网页数目

    目前我们的爬虫程序所能爬取的网页数目有限,如果用户从UI接口输入的网页数量过大,则会停止爬取

    当前错误处理工作还需完善,错误过滤与异常结束的判断需要精细化

    爬取网页类型

    目前我们的爬虫程序仅仅能爬取域名中不特殊字符的网站,但网页内容是否含有特殊字符对爬取结果没有影响

    特殊字符的编码方式比较特殊,处理起来比较复杂,在本软件的Alpha版本中我们暂时不考虑特殊字符的处理

    爬取信息类型

    目前我们的爬虫程序能爬取的仅仅是HTML文本类型的网站,其它类型(包括其它文本类型)都无法爬取

    其它格式的文件的编码方式比较特殊,且所占用的空间比较大,为了不影响爬取的性能,暂时先不直接从网页上爬取对应的内容,而改用仅仅爬取所需内容在互联网上的地址

    第五章 测试结论

     爬虫系统在用户现场环境进行功能、可靠性、安全性、可使用性四个方面进行了全面、严格、规范的测试。测试结果表明:爬虫达到业务需求文档中的要求,并具有以下特点:

    1、系统架构先进、简单。

    2、功能全面。

    3、系统可靠性高。对客户机掉电或强行关机后重启机器、网络异常中断。有完善的数据校验机制,对用户输入不符合要求的数据,给出了简洁、准确的提示信息,必要时给出了帮助。

    4、系统预测统计模型通过严格测试,以大量税收数据进行预测,使预测模型求出的预测数据更接近真实数据。对大量税收数据进行预警分析,预警结果正确。

    测试结论:通过。

  • 相关阅读:
    NUC_TeamTEST_C && POJ2299(只有归并)
    BestCoder#15 A-LOVE(暴力)
    NUC_TeamTEST_B(贪心)
    2014-2015 ACM-ICPC, NEERC, Southern Subregional Contest (Online Mirror, ACM-ICPC Rules, Teams Preferred)
    CodeForces#275--DIV 2--A
    uva-1339Ancient Cipher
    uva748
    uva-465(overflow)
    uva10106(大数乘法)
    424
  • 原文地址:https://www.cnblogs.com/yuanhang1617/p/3420571.html
Copyright © 2011-2022 走看看