zoukankan      html  css  js  c++  java
  • 火车头采集器使用教程

    1.在开始菜单栏下,新建分组

    所属分组应该选择根节点

    2.点击所新建的分组,右击选择新建任务

    (1)网址采集规则

    选择向导添加---->批量网址----->地址格式中输入网址(需要修改地址参数)

    注意:

    <1>难点(京东、淘宝等网址评价网址的获取)

    在所在抓取的评论网址(推荐使用谷歌浏览器)上------>右键检查----->Network---->Js----->在评论底部的页面栏中点击2,,3----->观察Js中是否有链接跳出(正常的话应该由链接跳出,若无链接,则点击clear进行清空)------->点击copy--->copy link address

    <2> 网址采集规则设置时,若所要抓取的网页就是我们输入的起始网址时,必须要点击“起始网址就是内容页网址?” 点击设置,若不点击设置,则会出现获取不到网址链接的情况。

    最后点击网址采集测试,可见:

    点击所采集到的任意一个列表页,进入内容采集规则的设置

    (2)内容采集测试

    <1>设置标签名

    若要新建标签则点击“+”

    <2>内容提取方式选择前后截取、勾选循环匹配,同时设置开头字符串和结尾字符串

    当所要抓的内容比较复杂时,可用(*)代替中间一段的代码

    <3>循环匹配的相关设置

    (3)内容发布规则

    <1>本地文件保存设置为开启

    <2>文件保存格式设置为txt

    <3>保存方式选择所有记录存于一个文件中

    <4>文件模板选用电商

    最后保存任务

    3.运行任务

    (1)勾选任务中的”发布”

    (2)点击开始菜单栏下的任务控制区里的开始按钮,则可以运行任务

    转自:http://www.zzarea.com/rumen/2182.html

    http://board.locoy.com/?post=295

  • 相关阅读:
    bash编程2
    bash简介1
    grep文本处理工具
    用户的环境变量
    用户,组,权限
    yum与rmp
    逻辑卷管理
    磁盘配额
    磁盘创建
    创建计划任务
  • 原文地址:https://www.cnblogs.com/luckyplj/p/10122890.html
Copyright © 2011-2022 走看看