zoukankan      html  css  js  c++  java
  • 实战案例:如何使用Excel进行数据分析

    当我们还在发愁数据分析工作到底好不好找时,有没有想过利用自己所学知识来找工作,既然是做数据分析的,那何不对采集一些招聘数据进行专业的分析分析,既把所学应用实践,又给自己提供了一些数据参考,何乐而不为呢?

    下面这些是从某招聘网站采集到的一些招聘信息

    我们按照数据分析的流程一步一步给大家展开,看看如何做一次简单的Excel分析

    1.明确问题

    1.哪些城市数据分析工作需求量更大一些?

    2.数据分析工作在各大主要城市平均工资如何?(这里之所以要分城市,是因为城市之间的消费水平不一样,若从整体去平均,容易受到异常值的影响,均值的意义就不大了)

    3.数据分析的工作主要分布在哪些行业?

    4.数据分析工作对于工作年限的要求有什么特点?

    5.数据分析工作对于学历要求有什么特点?

    6.工作年限与薪资是否存在相关性

    2.理解数据

    该数据是网站采集下来的,总共6874条记录,包含14个字段信息

    3.数据清洗

    往往原始数据无法直接拿来去做分析,因为有些数据不符合要求,因此需要做数据清洗,其实我们在实际的数据分析过程中有很大一部分工作是去做数据清洗,数据越规范,越完整,做出来的分析才越准确,越有意义。

    数据清洗分为以下几个步骤

    • 选择子集

    该数据集所有列都可以参与分析

    • 列名重命名

    列名不需要重命名

    • 删除重复值

    一个职位ID应该是唯一的,对职位ID进行删除重复值的操作

     

    • 缺失值处理

    城市一列存在缺失值,需要补全,有几种方式

    1.如果数据量很少,直接删除

    2.根据其他列的内容,推断出结果,人为填写

    3.如果是数值,则可根据实际情况采用均值填写

    城市为文本内容,因此可以根据公司名称来判断是哪个城市的

    使用筛选功能,筛选出空值

     

    • 一致化处理

    公司所属领域 一列存在1个或多个领域,中间逗号分隔,不利用后期分析,需要拆成多列

    这里需要使用分列功能

    • 1.选中公司所属领域列
    • 2.选择【数据选项卡】--【分列】--【分隔符】
    • 3.选择【逗号】--【下一步】--【完成】

     

     

     

     

    薪资一列是文本型,而且是区间形式,不太好利用后期的计算,因此需要一致化处理成数字格式的

    这里需要用到Excel另一个非常强大的功能:函数

    取薪资的最小值,思路:把第一个k前面的数字获取

    但是发现k有大写,有小写,需要把k全部替换成小写

     

     

    计算公式:=LEFT(N2,FIND("k",N2)-1)

    最高薪资思路:找到-后面k前面的那串数字

    计算公式:=MID(N2,FIND("-",N2)+1,(LEN(N2)-FIND("-",N2)-1))

    最高薪水存在问题,有错误值

    因为这些数据并没有最大边界,而是以多少k以上,面对这种情况,处理方案就是把最大值与最小值相等

    最后,我们这里面都是公式,不利于后期的分析,需要把公式全部去掉

    粘贴之后,发现全部变成了文本,需要转为数值

    使用AVERAGE函数计算平均薪水

    如何函数不是特别熟练,也可以采用分列操作

    因为分列会把原来的列给覆盖,因此分列前如果要保留原列的话需要单独复制一下

    把所有的k替换成空,然后再对异常值进行处理,这里不详细赘述

     

    • 异常值处理

    查看职位,看看有没有不属于数据分析岗位的

    计算公式:=IF(COUNT(FIND({"数据运营","数据分析","分析师"},M2)),"是","否")

    把否的数据视为异常值,删除

    因为是从网站上采集的数据,所以需要大量的清洗工作,清洗后数据剩余2293条,接下来终于可以对数据进行分析啦!

    4.数据分析

    根据上面提出的问题,我们一一来分析

    1.哪些城市数据分析工作需求量更大一些,也就是对城市进行分组计数

    这里需要用到数据透视表

    这也是Excel非常强大的功能之一,主要是对数据进行分组,计算

    我们可以看出,通过几步操作就可以实现数据的汇总,比函数好用多了

    从图上可以看出,北京的岗位需求是最大的,其次是上海 深圳 杭州 和广州,北上广深作为超一线城市岗位需求量大是意料之中的,近几年杭州的发展也是很客观的,从岗位需求上可以看出已经挤进前5了。

    2.数据分析工作在各大主要城市平均工资如何?(这里之所以要分城市,是因为城市之间的消费水平不一样,若从整体去平均,容易受到异常值的影响,均值的意义就不大了)

    这里分析平均工资采用平均薪资,从图上可以看出,北京 深圳 上海 的平均工资还是很不错的。

    3.数据分析的工作主要分布在哪些行业?

    从图上可以看出,数据分析岗位主要集中到移动互联网 金融 电子商务,我们也都知道互联网对于数据分析的需求是最大的,所以大家选择互联网行业就业机会是挺多的。

    4.数据分析工作对于工作年限的要求有什么特点?

    可以看出3-5年和1-3年的职位要求是比较多的,说明数据分析的岗位还是需要有一定的工作经验,但是也没有要求特别资深的,1-3年对于毕业一年的大学生还是很友好的。

    5.数据分析工作对于学历要求有什么特点?

     

    大部分要求是本科学历,说明数据分析对于学历要求也比较正常,没有特别大的门槛

    6.工作年限与薪资是否存在相关性

    可以看出,工作年限与薪资呈正相关,从1-3年开始,随着工作年限的增长,薪酬也在增长,特别是10年以上的,薪酬会非常可观,说明如果在某个行业专注做数据分析,未来发展非常可观。

    5.数据可视化

    这里先不做展示

    总结:

    从以上分析,得出以下结论

    1 数据分析这一岗位,有大量的工作机会集中在北上广深以及新一线城市,如果将来去这些城市找工作,可以提高求职成功的条件概率。

    2 从待遇上看,数据分析师留在北京发展是个不错的选择,其次是深圳、上海,杭州。

    3 数据分析对于学历要求集中在本科,门槛不高,想转行的可以考虑

    4 数据分析的行业主要集中在互联网

    5 数据分析是个年轻的职业方向,大量的工作经验需求集中在1-5年。 对于数据分析师来说,5年似乎是个瓶颈期,如果在5年之内没有提升自己的能力,大概以后的竞争压力会比较大。

    6 随着经验的提升,数据分析师的薪酬也在不断提高,10年以上工作经验的人,能获得相当丰厚的薪酬。

  • 相关阅读:
    Django Rest Framework 教程及API向导
    zabbix2.4升级到2.5 --考虑升级到zabbix3.0
    followme_laser包解读
    ROS多个工作空间存在同名包的BUG
    fatal err Eigen/Dense No such file or directory(unsupported/Eigen/FFT、Eigen/Core也是一样的道理)
    ROS向节点传递参数的方法总结(rosrun,launch) + (参数服务器,main函数参数)
    同步Sublime Text配置
    W: Failed to fetch http://packages.microsoft.com/repos/vscode/dists/stable/main/binary-amd64/Package
    Ubuntu(Linux)下更新CMake,最安全的更新
    Ignoring Provides line with DepCompareOp for package gdb-minimal
  • 原文地址:https://www.cnblogs.com/bubu99/p/13651524.html
Copyright © 2011-2022 走看看