zoukankan      html  css  js  c++  java
  • crawler spec

    使用说明

    0.写在前面

    1.本程序完成的抓取网页并保存其文件的工作。

    2.目前的版本还需将工程文件导入eclipse中运行。

    3.加载主类MyCrawler生成可执行文件。

    4.程序主界面:

     

    1 准备工作

    这部分为该程序执行前要做的准备工作。

    1.1 本地文件路径

    通过本程序抓取下来的html、pdf、doc、ppt、txt等文件分别存在其对应的文件夹内,路径依次为Filehtml,Filepdf,Filedoc,Fileppt,File xt,其他可下载文件存入Fileothers

    1.2 数据库

    数据库内存放各种信息。包括:

    1.被抓取网页的类型、编码等信息;

    2.文件下载后在本地的存储路径;

    3.文件的下载时间记录、更新时间记录、最后一次更新记录。

    1.3 数据源

    将上述数据库配置到Windows(或Windows server)数据源中,数据库名为yuanhang1617,用户名密码依次为……(这个是由服务器决定的吧?)

    2 爬取网页

    该部分即为正式爬取过程中的操作方法及程序反馈等。

    2.1 确定爬取源地址

    在主界面的URL seed中输入源网址,程序将从该网址开始,以广度优先方法依次爬取下一级链接。

    2.2 确定爬取数量

    在主界面how much pages中输入想要抓取的网页数量,该程序最终将会抓取这么多的网页及其内部信息。

    2.3 开启的爬取线程数

    在the number of thread中输入想要开启的爬取线程数。

    3 爬取反馈

    本部分向用户阐明在抓取网页过程中对于该程序执行情况的反馈。

    3.1 爬取内容

    在主界面中会显示已爬取的URL数、当前爬取URL、爬取进度、爬取状态、最后爬取的100条URL。

    3.2 结果反馈

    在本地File路径下为爬取结果下载的文件内容,包含html、pdf、doc、ppt、txt等文件。

    在数据库中保存本地文件的绝对路径、文件的下载地址及对应URL的网页编码与类型、对当前文件的下载时间、更新时间集、以及最后一次操作时间等信息。

  • 相关阅读:
    centos7.6 安装与配置 MongoDB yum方式
    MongoDB 介绍
    centos 关闭selinux
    前端 HTML标签属性
    前端 HTML 标签嵌套规则
    前端 HTML 标签分类
    前端 HTML body标签相关内容 常用标签 表单标签 form里面的 input标签介绍
    前端 HTML body标签相关内容 常用标签 表单标签 form 表单控件分类
    前端 HTML form表单标签 select标签 option 下拉框
    POJ 1426
  • 原文地址:https://www.cnblogs.com/yuanhang1617/p/3410259.html
Copyright © 2011-2022 走看看