新手小白的爬虫神器-无代码高效爬取数据

zoukankan html css js c++ java

新手小白的爬虫神器-无代码高效爬取数据
前言

2020年即将过去，回望过去一年是魔幻的一年，今年注定是不平常的一年，我想也是会载入史册，让人类永远铭记今年的重大事件。
全球疫情、中美贸易战、美国大选等一系列重大事件。今年也许是最好的时代同时也是最坏的时代，机遇和危机都是转瞬即逝，我们能做的只有把握当下，未雨绸缪，厚积薄发！

今天毕竟是2020年结束，2021年开始的第一天，不免有所感慨和总结。下面回归到技术博客。。。
年底是跳槽的好时机，最近查看招聘网的各个职位，想要将其爬取下来进行分析。刚开始写过代码进行爬取，奈何本人技术有限，对付高级的反爬虫系统显得心有余而力不足。
于是经过一段时间的查找发现了这个神器：web scraper ，并且它是开源免费的，虽然使用上有些小问题，但是基本满足我的需求。

安装

官网：https://www.webscraper.io/
它是一个谷歌插件，当然也支持火狐，其他的浏览器我就不清楚了。至于插件安装大家可以自己百度，有很多教程。

使用

安装好之后在浏览器的F12或者开发者工具里有一个Web Scraper集成的功能
1. 创建网站地图
  点击Create new sistemap
2. 填写信息
  Sitemap name ：名称（可以随便写，自己知道意思就行）
  URL：爬取地址（填你要爬取的网站地址，我这里爬取的是51job，在此声明：此数据仅做个人找工作学习参考，无其他任何商用途径，也希望大家不要用做商用等违法途径。）
  下面的地址能爬取第一页得数据
  https://search.51job.com/list/040000,000000,0000,00,9,99,python,2,1.html?lang=c&postchannel=0000&workyear=02&cotype=99&degreefrom=03&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=
  如果我们想要爬取后面多个页面呢，通过分析每一页的URL地址只是中间的数字进行累加，于是使用正则表达式进行匹配[1-8]，链接如下：
  https://search.51job.com/list/040000,000000,0000,00,9,99,python,2,[1-8].html？lang=c&postchannel=0000&workyear=02&cotype=99&degreefrom=03&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=
1. 添加子节点
  点击添加子节点
2. 配置子节点
  id:可以随便填，最好见文知意
  type：选Text，因为我们是直接获取文本，如果需要获取链接则选link
  点击select可以选择网页上的元素，选择2个会自动往下匹配相同的
  抓取多个数据一定要勾选Multiple
  然后选择_root做为父节点
一个简单的爬虫配置就完成了，下面开始爬取数据
5. 检查
点击Data preview出现你需要获取得数据内容，那么说明配置正确

6. 爬取
点击Scrape，然后点击开始运行
1. 查看结果
  点击Browse然后点击Refresh Data就可以查看下面抓取到得数据了
2. 导出数据
  点击Export data as CSV然后保存到你选择的目录
  
  打开csv检查
  
  至此数据爬取完成，那么下面进行数据筛选和处理，具体请看下一篇文章。
查看全文

相关阅读:
zend guard 4/5 破解版和免过期办法，已补授权Key一枚，成功注册。
一身冷汗，PHP应该禁用的函数
 CentOS 5.5 安装和卸载桌面
 php加速模块 eAccelerator open_basedir错误解决办法
 配置电信网通双线双IP的解决办法
 php安装igbinary模块
 ubuntu系统VNC服务器安装配置
 python3 之闭包实例解析 Be
python3 之内置函数enumerate Be
python3 之匿名函数 Be

原文地址：https://www.cnblogs.com/huny/p/14219778.html

新手小白的爬虫神器-无代码高效爬取数据

前言

安装

使用