zoukankan      html  css  js  c++  java
  • 火车头采集器使用教程

    1.在开始菜单栏下,新建分组

    所属分组应该选择根节点

    2.点击所新建的分组,右击选择新建任务

    (1)网址采集规则

    选择向导添加---->批量网址----->地址格式中输入网址(需要修改地址参数)

    注意:

    <1>难点(京东、淘宝等网址评价网址的获取)

    在所在抓取的评论网址(推荐使用谷歌浏览器)上------>右键检查----->Network---->Js----->在评论底部的页面栏中点击2,,3----->观察Js中是否有链接跳出(正常的话应该由链接跳出,若无链接,则点击clear进行清空)------->点击copy--->copy link address

    <2> 网址采集规则设置时,若所要抓取的网页就是我们输入的起始网址时,必须要点击“起始网址就是内容页网址?” 点击设置,若不点击设置,则会出现获取不到网址链接的情况。

    最后点击网址采集测试,可见:

    点击所采集到的任意一个列表页,进入内容采集规则的设置

    (2)内容采集测试

    <1>设置标签名

    若要新建标签则点击“+”

    <2>内容提取方式选择前后截取、勾选循环匹配,同时设置开头字符串和结尾字符串

    当所要抓的内容比较复杂时,可用(*)代替中间一段的代码

    <3>循环匹配的相关设置

    (3)内容发布规则

    <1>本地文件保存设置为开启

    <2>文件保存格式设置为txt

    <3>保存方式选择所有记录存于一个文件中

    <4>文件模板选用电商

    最后保存任务

    3.运行任务

    (1)勾选任务中的”发布”

    (2)点击开始菜单栏下的任务控制区里的开始按钮,则可以运行任务

    转自:http://www.zzarea.com/rumen/2182.html

    http://board.locoy.com/?post=295

  • 相关阅读:
    2019.6.20刷题统计
    36 线程 队列 守护线程 互斥锁 死锁 可重入锁 信号量
    35 守护进程 互斥锁 IPC 共享内存 的方式 生产者消费者模型
    34 进程 pid ppid 并发与并行,阻塞与非阻塞 join函数 process对象 孤儿进程与僵尸进程
    33 udp 域名 进程
    32 粘包 文件传输
    31 socket客户端. 服务器 异常 语法
    30 网络编程
    29 元类 异常
    26 封装 反射 常用内置函数
  • 原文地址:https://www.cnblogs.com/luckyplj/p/10122890.html
Copyright © 2011-2022 走看看