原文:圈外的微信群,这里只是作为笔记。
一、背景
1、目标
对拉勾网的【数据分析岗位】上海地区企业分析,需要知道招聘【数据分析岗位】的上海公司所属【行业类型】
2、大致流程
- 后羿采集器抓取数据
- Excel对数据分列
- Excel建立数据透视表,计算值
二、数据采集
1、准备工具
-
目标数据:https://www.lagou.com/jobs/list_数据分析师/p-city_3?&cl=false&fromSearch=true&labelWords=&suginput=
-
爬虫工具:后羿采集器
2、选择模式,打开后羿采集器,选择右边的智能采集模式
,点击开始采集
,
3、填入数据地址,填入准备好的数据地址,点击开始创建
4、去页面广告
-
点击按钮
预执行操作
-
选择底部左边按钮
点击
-
再点击页面的按钮
给也不要
-
选择左上角的操作提示中的
点击一下
5、清空所有数据,自定义数据列。
- 点击
清空所有
,即可清空所有字段。 - 点击
添加字段
,然后鼠标移动到需要抓取的数据那儿即可添加字段。
6、开始采集,保存,然后导出Excel
三、数据分析
1、数据拆分,打开Excel -> 选中目标列 -> 数据 -> 分列 -> 下一步 -> 选择需要的分隔符 -> 下一步 -> 完成
-
分隔符的设置
-
原始数据
-
处理后的数据
2、建立数据透视表,选择目标列 -> 数据 -> 数据透视表 -> 确定
- 在
字段列表
,选中要显示的字段 - 在
数据透视表区域
,把字段列表
的字段,拖入到数据透视表区域
的值
那个区域中