一、在使用操作之前先一起了解一下八爪鱼这个采集数据工具。
相比于python爬虫,八爪鱼使用更加简便,因为它是所见即得的方式,所以不需要编写代码(除了正则表达式,以及xpath,因为如果有布局不一致的页面,就需要用到)
两种采集方式,简易采集vs自定义采集
简易采集:集成一些热门网站采集模板,只需要告诉工具两个内容,1.采集网址 2.所需的账号密码
自定义采集:可以灵活设计采集的信息。比较推荐这个,因为一些模板没办法满足自己需求。
二、采集流程步骤
三、可以设置ip代理,UA等反爬(ip代理需要付费)也可以使用自己购买的ip代理接口
流程
接下来实际操作爬取豆瓣电影top250
1.八爪鱼安装https://www.bazhuayu.com 官网自行下载安装包,下载好后,设置安装文件夹无脑下一步。
2.注册免费账号,打开软件登陆页面后点击注册账号。
3.然后。。。就可以愉快的使用采集器了----------目标网站https://movie.douban.com/top250 豆瓣电影评分Top250
1.点击自定义采集
2.输入目标网址--并点击保存-会自动建立一个打开网页的流程
3.在打开的网页,滑倒底部,选择下一页的页面元素
4.点击选择后页。提示框中选择循环点击单个链接,实现循环获取下一页的操作
5.单击每个单元的内容,右边提示操作选择选中子元素
6.选中全部→采集以下数据→保存开始采集
7.启动本地采集,其他两个是要收费的。。云采集相当于提交采集操作人家的服务器帮你采集,你电脑关不关机都无所谓了
8.采集完后效果,可以保存svg,html,数据库等地方
呃。。。由于没找到顺手的录频软件所以就不上传视频操作了。。。有问题可以评论问。