火车头采集器使用教程

zoukankan html css js c++ java

火车头采集器使用教程

1.在开始菜单栏下，新建分组

所属分组应该选择根节点

2.点击所新建的分组，右击选择新建任务

(1)网址采集规则

选择向导添加---->批量网址----->地址格式中输入网址(需要修改地址参数)

注意：

<1>难点(京东、淘宝等网址评价网址的获取)

在所在抓取的评论网址(推荐使用谷歌浏览器)上------>右键检查----->Network---->Js----->在评论底部的页面栏中点击2，,3----->观察Js中是否有链接跳出(正常的话应该由链接跳出，若无链接，则点击clear进行清空)------->点击copy--->copy link address

<2> 网址采集规则设置时，若所要抓取的网页就是我们输入的起始网址时，必须要点击“起始网址就是内容页网址？” 点击设置，若不点击设置，则会出现获取不到网址链接的情况。

最后点击网址采集测试，可见：

点击所采集到的任意一个列表页，进入内容采集规则的设置

(2)内容采集测试

<1>设置标签名

若要新建标签则点击“+”

<2>内容提取方式选择前后截取、勾选循环匹配，同时设置开头字符串和结尾字符串

当所要抓的内容比较复杂时，可用(*)代替中间一段的代码

<3>循环匹配的相关设置

(3)内容发布规则

<1>本地文件保存设置为开启

<2>文件保存格式设置为txt

<3>保存方式选择所有记录存于一个文件中

<4>文件模板选用电商

最后保存任务

3.运行任务

(1)勾选任务中的”发布”

(2)点击开始菜单栏下的任务控制区里的开始按钮，则可以运行任务

转自：http://www.zzarea.com/rumen/2182.html

http://board.locoy.com/?post=295

查看全文

相关阅读:
linux 部署项目命令
 List remove方法小坑
 centos7 安装mongoDB
windows git 清除已保存的密码
 windows平台安装配置Gitblit
oracle
Mac 配置多jdk 随意切换
 idea远程调试jar包
 centos7 安装elasticsearch
正则校验

原文地址：https://www.cnblogs.com/luckyplj/p/10122890.html