zoukankan      html  css  js  c++  java
  • 八爪鱼采集器之豆瓣电影Top250爬虫

    一、在使用操作之前先一起了解一下八爪鱼这个采集数据工具。

      相比于python爬虫,八爪鱼使用更加简便,因为它是所见即得的方式,所以不需要编写代码(除了正则表达式,以及xpath,因为如果有布局不一致的页面,就需要用到)

     两种采集方式,简易采集vs自定义采集

      简易采集:集成一些热门网站采集模板,只需要告诉工具两个内容,1.采集网址  2.所需的账号密码

      自定义采集:可以灵活设计采集的信息。比较推荐这个,因为一些模板没办法满足自己需求。

    二、采集流程步骤

     

     三、可以设置ip代理,UA等反爬(ip代理需要付费)也可以使用自己购买的ip代理接口

     流程

     接下来实际操作爬取豆瓣电影top250

    1.八爪鱼安装https://www.bazhuayu.com  官网自行下载安装包,下载好后,设置安装文件夹无脑下一步。

    2.注册免费账号,打开软件登陆页面后点击注册账号。

    3.然后。。。就可以愉快的使用采集器了----------目标网站https://movie.douban.com/top250  豆瓣电影评分Top250

    1.点击自定义采集

    2.输入目标网址--并点击保存-会自动建立一个打开网页的流程

    3.在打开的网页,滑倒底部,选择下一页的页面元素

    4.点击选择后页。提示框中选择循环点击单个链接,实现循环获取下一页的操作

    5.单击每个单元的内容,右边提示操作选择选中子元素

    6.选中全部→采集以下数据→保存开始采集

    7.启动本地采集,其他两个是要收费的。。云采集相当于提交采集操作人家的服务器帮你采集,你电脑关不关机都无所谓了

    8.采集完后效果,可以保存svg,html,数据库等地方

     呃。。。由于没找到顺手的录频软件所以就不上传视频操作了。。。有问题可以评论问。

  • 相关阅读:
    Unity3D串口处理
    Crixalis's Equipment 杭电 (设计贪心算法,比较巧妙,我用的是结构体排序)
    杭电 看归并排序和快速排序
    杭电acm 排名 (涉及到结构体排序)
    程序在计算机的内存(看到了一篇博客,解决了我的疑惑)
    贪心算法and排序 杭电一题的启发
    辗转相除法 杭电acm
    单调队列
    用栈的思想处理字符串倒置问题更清晰
    VS的哪些事儿之二
  • 原文地址:https://www.cnblogs.com/HugJun/p/11111660.html
Copyright © 2011-2022 走看看