zoukankan      html  css  js  c++  java
  • Beta版本发布说明

    项目名称

    Crawling is going on

    项目版本

    Beta版本

    负责人

    北京航空航天大学计算机学院 newbe软件团队

    联系方式

    http://www.cnblogs.com/newbe

    要求发布日期

    2014-12-27

     

    1  更新内容

    1.1 修复缺陷

    a)之前没有考虑爬取过程中,出现异常会导致爬取线程非正常终止,但是资源被占用。随着异常线程的增加,导致可利用资源全部被占用,整个软件停止工作;在新版本考虑了发生异常释放资源,保证爬取的不间断性。

    b)将更新数据库的方法改为异步互斥更新方式,保证了同一时间只有一个线程占用数据库,保证了数据库数据的正确性,同时避免了SQLException。

    c)精确定位目标网页,减少了爬取失败率和太太率,保证了爬虫的效率和正确性。

    d)修改命名方式解决了过去因为重命名而导致文件无法删除或者打开的情况。

    e)修复爬取过程中可能爬到具有重复URL的网页的缺陷。

    1.2 新增功能

    a)  专门爬取问答网页,用户可根据自己兴趣选择爬取不同的网站或者从当前版本给定的所有网站爬取满足流水线组需求。

    b)  专门爬取pdf功能。

    c)  专门爬取doc功能。

    d)  专门爬取ppt功能。

    e)  界面进行了排版和优化

    f)  相应修改了分析功能,对数据库内爬取文件的类型和数量进行统计,以饼状图的形式展示。同时以动态的柱状图形式显示爬取过程。

     

     

     

    2  环境要求

    操作系统需求

    WINDOWS XP,WINDOWS 7,WINDOWS 8

    运行环境需求

    需安装最新版本的JRE

    数据库需求

    在联网的环境下可以直接连接服务器的数据库,本地数据库没有特殊要求

    3  安装说明

    将jar软件复制到本地,运行即可。 

    4  已知缺陷和限制

    爬取问答网站时,部分网站数量较少,全部页面爬取完毕后,仍然阻碍其它网站线程占用资源,会导致爬取速度渐渐变慢。  

    5  发布地址

    该版本代码及程序发布在服务器219.224.191.25上,可自行下载试用。

  • 相关阅读:
    day 46
    day 45 JavaScript 下 函数
    day 42 css 样式
    44 JavaScript
    41 前端
    40 协程 i/0多路复用
    39 线程池 同一进程间的队列
    38 线程 锁 事件 信号量 利用线程实现socket 定时器
    37 生产者消费者模型 管道 进程间的数据共享 进程池
    演示使用string对象
  • 原文地址:https://www.cnblogs.com/newbe/p/4189798.html
Copyright © 2011-2022 走看看