数据分析流程
了解业务--了解数据--确认业务和数据--预期分析和管理-数据分析方式
了解业务和数据
01.了解数据
数据
1.测量标度类型
属性本源并不是数字或者符号,通过测量标度将数值或者符号和对象的属性建立关联。
属性的类型--测量尺度
nominal 标称----等于或者不等于--------一对一的变换
ordinal 序数---大于或者小于----------单调函数的变换
interval 区间----加减------------------- 一次函数
ratio 比率---- 乘除------------------- 比例函数
数据的大类:离散数据和连续数据-
数据的度量单位:分、元
举例
温度--华氏温度和摄氏温度
计数属性是离散的也是比率属性
2.有序数据--属性涉及时间或者空间的联系
截面数据--在相同或者近似相同的时间点上收集的数据
时序数据
时间序列数据
序列数据--考虑项的位置
空间数据
数据集
数据集的属性
维度
稀疏性
数据集的平衡性--非平衡数据
粒度--分辨率
时效性
相关性
训练集和测试集--为了评估模型的可靠性以及扩展性
数据集的表示--数据格式
数据矩阵
购物篮数据
数据背景
数据分析和判断,其中对数据背景的了解是必不可少的
02.了解数据过程中的常见问题
数据的安全性
数据的保密:权限以及抵抗力
数据的恢复:冗余-备份-容灾
数据的追溯:可追溯
数据来源--
数据过程可重复
数据的可用性
数据质量问题
完整,全面,一致,准确,可解释-可靠性
现象--原因---解决方式
异常值--缺失值--重复值--不一致值--噪声--遗漏值
数据质量的检测和纠正
数据算法的容忍度
数据的复用性
数据格式--数据是给人看的,同时也是给机器看的--文件格式与编码
通过一定的数据格式--自解释数据格式 例如:JSON,XML等
数据架构可用性
架构的可扩展性
数据的流动
异构数据源流向统一的目标数据--数据的ETL
采集误差--转换规则
数据陷阱
沉默数据缺失
数据的成本和时效
数据过拟合--评估模型的可靠性--分为训练集和测试集
数据造假
案例-
孙膑 减灶诱敌
诸葛亮 增灶退兵
数据分析思路
确认场景 确认数据 是什么?
探索原因,需找因素 为什么
解决思路和方式 怎么办
数据分析技术
技术流派
数据排查流程
从数据结果上
1、检索结果中的数据格式检验,从开发角度来说是了解数据类型,字段等的准确性
2、检索结果中的数据量是否符合检索条件,判断数据量的准确性。数据的分布,极值和均值等
3. 样本数据检测,通过不同的数据进行相互验证,判断数据中数值的正确性,
4. 历史数据检测,进行数据合理性判断
常规内容
了解常见的错误类型
记录特殊的错误类型
规范的数据操作方式
参考
参考