crawler spec

zoukankan html css js c++ java

crawler spec

使用说明

0.写在前面

1.本程序完成的抓取网页并保存其文件的工作。

2.目前的版本还需将工程文件导入eclipse中运行。

3.加载主类MyCrawler生成可执行文件。

4.程序主界面：

1 准备工作

这部分为该程序执行前要做的准备工作。

1.1 本地文件路径

通过本程序抓取下来的html、pdf、doc、ppt、txt等文件分别存在其对应的文件夹内，路径依次为Filehtml，Filepdf，Filedoc，Fileppt，File xt，其他可下载文件存入Fileothers

1.2 数据库

数据库内存放各种信息。包括：

1.被抓取网页的类型、编码等信息；

2.文件下载后在本地的存储路径；

3.文件的下载时间记录、更新时间记录、最后一次更新记录。

1.3 数据源

将上述数据库配置到Windows（或Windows server）数据源中，数据库名为yuanhang1617，用户名密码依次为……（这个是由服务器决定的吧？）

2 爬取网页

该部分即为正式爬取过程中的操作方法及程序反馈等。

2.1 确定爬取源地址

在主界面的URL seed中输入源网址，程序将从该网址开始，以广度优先方法依次爬取下一级链接。

2.2 确定爬取数量

在主界面how much pages中输入想要抓取的网页数量，该程序最终将会抓取这么多的网页及其内部信息。

2.3 开启的爬取线程数

在the number of thread中输入想要开启的爬取线程数。

3 爬取反馈

本部分向用户阐明在抓取网页过程中对于该程序执行情况的反馈。

3.1 爬取内容

在主界面中会显示已爬取的URL数、当前爬取URL、爬取进度、爬取状态、最后爬取的100条URL。

3.2 结果反馈

在本地File路径下为爬取结果下载的文件内容，包含html、pdf、doc、ppt、txt等文件。

在数据库中保存本地文件的绝对路径、文件的下载地址及对应URL的网页编码与类型、对当前文件的下载时间、更新时间集、以及最后一次操作时间等信息。

查看全文

相关阅读:
centos7.6 安装与配置 MongoDB yum方式
 MongoDB 介绍
 centos 关闭selinux
前端 HTML标签属性
 前端 HTML 标签嵌套规则
 前端 HTML 标签分类
 前端 HTML body标签相关内容常用标签表单标签 form里面的 input标签介绍
 前端 HTML body标签相关内容常用标签表单标签 form 表单控件分类
 前端 HTML form表单标签 select标签 option 下拉框
 POJ 1426

原文地址：https://www.cnblogs.com/yuanhang1617/p/3410259.html

0.写在前面

1 准备工作

1.1 本地文件路径

1.2 数据库

1.3 数据源

2 爬取网页

2.1 确定爬取源地址

2.2 确定爬取数量

2.3 开启的爬取线程数

3 爬取反馈

3.1 爬取内容

3.2 结果反馈