zoukankan      html  css  js  c++  java
  • 火车头采集器采集文章使用教程实例

    任务:

    采集某一个指定页面的文章包括(标题、图片、描述、内容)导入到自己网站数据库对应栏目(栏目id为57),数据库字段分别(title,thumb,descrption,content)。

    页面里面第一张图作为文章缩略图,这边一个获取缩略图名称并添加上对应网站路径放入数据库thumb字段,另一个是下载下本地,统一上传到指定文件夹,(当然看软件可以直接ftp,目前还没弄,后期弄了会补充)

    1、新建分组--新建任务

    2、添加网址+ 编辑获取网址的规则

    选择范围在 ul 里面的 li 里面的链接,注意排除重复地址,可以点击下面测试网址采集获取。

    可以看到有采集到的文章链接了。

     

    3、采集内容规则

    我这边需要采集下面图上展示数据(catid是栏目id,可以将采集到的数据放入对应栏目,设置固定值就好)

    着重说下内容和图片的采集,标题和描述同理内容采集

     内容采集:

    打开一个采集的文章页面,查看源代码(禁了右键的f11 或者在网址前面加上 view-source: 一样可以查看):

    选中文章开头一个位置,截取一段在ctrl+f 搜下是否唯一一段,若是就可以放在位置下图1处,结尾同开头一样。

    我截取内容不想里面还带有链接图片可以数据处理,添加--html标签排除--选好确定--确定

     

    还有需要下载页面图片,勾选和填写下面选项

     

    图片采集:

    (1)选中范围和内容一样(文章内图片)

    (2)数据处理选 提取第一张图片  内容是:http://www.xxx.com/2017/33/aa.jpg

    (3)只要aa.jpg,正则过滤  ,获取内容:aa.jpg

    (4)数据库存储有前缀,添加上, upload/xxxxx/

    找一个页面测试一下,可以看到对应项目都获取到了。

     

    4、发布内容设置,这里以方式三发布到数据库为例子,编辑后回到这边勾选刚定义的模块就好:

     

     5、我需要保存图片到本地,要设置下保存文件的路径(ftp后续会试着使用)。

     

    6、保存,查看刚新建的任务,右键 开始任务运行,这边就可以看到文字和图片都下载下来了,数据库里面也可以看到了。

     

  • 相关阅读:
    cpp:博文_注意
    Algs4-1.2(非习题)String
    Algs4-1.2(非习题)几何对象中的一个2D用例
    Algs4-1.2.19字符串解析
    Algs4-1.2.18累加器的方差
    Algs4-1.2.17有理数实现的健壮性
    Algs4-1.2.16有理数
    Algs4-1.2.15基于String的split()的方法实现In中的静态方法readInts()
    Algs4-1.2.13实现Transaction类型
    Algs4-1.2.14实现Transaction中的equals()方法
  • 原文地址:https://www.cnblogs.com/lola/p/7391365.html
Copyright © 2011-2022 走看看