(原创声明,转载引用需要指明来源)
到底什么是数据分析定义?我们在学习前应该首先搞清楚这个问题。很多读者想学习数据分析但不清楚数据分析工作内容,学习时候比较茫然。于是初学者们去书店买数据分析相关书籍,如果运气不好,看了书后会更加茫然。我在书店喝冷饮休息时,会有看看书习惯。我发现书店的大量数据分析书籍与实际工作内容相差甚大。书里把数据分析和,机器学习算法,数据挖掘,人工智能深度学习知识混杂在一起,这会造成初学者困惑。
接下来我从企业实战角度谈谈什么是数据分析。不同人对数据分析岗位会有不同看法,我用最通俗易懂角度为初学者阐述数据分析定义。数据分析是在理解业务的基础上,对现有数据进行深入加工,得出有价值结论,为领导层决策提提供依据。
在理解业务的基础上
我们在大学时接触过大量计算机,统计学,机器学习书籍,书籍里有很多变量阈值benchmark描述,但企业实战远比书籍描述要复杂。我们需要针对不同场景灵活运用书里知识。例如书籍阐述iv=0.2表示变量有价值,但金融领域里,变量很少能达到0.2,一般iv>0.02就表示变量有意义。因此我们不能抱着教科书不放,要根据公司业务实际场景来灵活运用数据分析。
数据进行深度加工
小公司数据一般存在excel里,数据分析难度不大,就是灵活掌握excel就可以了。中型,大型公司数据存在数据仓库里,数仓里有许多表单,从几十张到上万张不等。业务分析数据要从数仓的若干表里筛选,拼接,形成一张宽表,这就需要非常熟悉SQL知识。
培训班中接触到项目训练,数据是非常齐全和完美的。但实际工作中数据是残缺不全的,例如金融领域央行征信很多变量缺失率高于90%,高于99%的都有一大把。这需要对数据深度加工处理,包缺失值处理,数据类型转换。python的pandas模块在数据清洗和加工方面效率非常高。
得出有价值结论,为领导层决策提供依据
数据分析师核心工作就是从数仓里提炼有价值信息,为领导决策提供参考。大领导一般管人脉,为公司拉投资,要不停参加饭局和会议,很少有时间写代码。中型领导例如总监,也要管理几个团队,平时开不完的会议,也很少有时间写代码。因此不要指望领导对数据有多敏感,领导只是从宏观方向把握重要指标。数据分析师职责就是取数,加工数据,分析数据,得到有价值数据,最后汇报领导。
举一个典型例子,《大空头》是描述美国华尔街的一部经典电影。电影中讲述了2008年,很多美国人还不起房地产按揭贷款,引爆华尔街金融次贷危机。四个对数据敏感男人,通过数据分析,提前得到金融危机的结论,然后抓住机会做空美国房地产,从全球经济衰退中捞取了数亿美金利润。
当然不同行业对数据分析定义会有所差异,我这里是为初学者快速上手指路,有覆盖不全的,多谅解。