《数据之魅》学习小结
目的
分析数据的目的是为了深入理解我们所观察到的数据是怎样产生的。
传达这种理解的工具就是模型:对所研究的系统进行描述,必要时进行简化但要保留相关信息。
提醒误区
使用的是一知半解的统计概念。
当简单而浅显的方法同样甚至更好的解决问题时,偏偏使用复杂的黑盒解决方案。
传达的观点
简单 优于 复杂
便宜 优于 昂贵
明晰 优于 晦涩
目的 比 过程 更重要
洞见 比 精确 更重要
理解 比 技术 更重要
勤于思考 少干活
数据分析
观察:首要任务是用不同的方法绘制数据图并观察这些图,看数据时,注意数据点的分布、一个量怎样随另一个量的变化、大量异常值、数据缺失等。
模型:模型是对正在研究的系统的一种数学描述,不仅是对数据的描述,它还包括你对生产这些数据的过程或者系统的理解。模型具有预测能力。
反馈:我们有必要把我们的理解反馈给组织,以业务计划、指标仪表板或其它方案。
大数据的提及
大数据不会取代普通的归纳性的数据分析。
大数据并不一定“更好”。如果粗心大意地使用,就有可能是一个倒退。精心选择一个合适的样本有可能胜于使用一个混乱的大数据集所得到的结果。大数据容易使人忘记最基本的东西。
图表
数据点和抖动图
直方图和核密度估计
累计分布函数CDF
汇总统计量和箱形图(仅用于适当时机)平均数、分位数只适用于有单一中心峰的分布。
如果这个基本假设不成立,基于简单汇总统计量的结论可能就会是错误的。
两个变量
当我们处理的数据集包含两个变量时,我们主要关心的是两个变量之间是否存在某种关系,如果存在,又是何种关系。
散点图
克服噪声:平滑
LOESS的优势是并不需要确定具体的函数形式,而是让数据自己来说话,其缺点在于需要大量的数据和运算能力。LOESS作为一种平滑技术,其目的是为了探寻响应变量和预测变量之间的关系,所以LOESS更被看作一种数据探索方法,而不是作为最终的结论。
观察残差
对数图
能控制数据中的大幅度变化
将乘法转换成加法
能揭示指数及幂律行为
时序分析
任务:
趋势、季节性、噪音、其它
平滑处理:
移动平均法、指数平滑法
相关函数:
相关系数快速减小,揭示过几个时间步长后信号丢失它过去的所有记忆。
相关系数缓慢减小,揭示序列在较长时间内是相对稳定的。
相关系数先减小,然后上升形成第二个、第三个高峰,揭示序列在远处,两个信号再次对齐了,数据集里存在周期性。
数据建模
为什么要建模?
数据挖掘
模拟
模拟不能代替分析建模。
模拟对于验证分析工作,协调细节以及进行扩展都很有价值。
分析和模拟两种方法是互补的。没有模拟的分析模型是不完善的,而没有分析的模拟则只是单纯地产生数据,无法揭示其本质。
找出簇
“聚类”指在数据集中查找以某些方式集合在一起的数据点的过程。是无监督学习的一种。无监督是因为我们事先不知道簇在什么位置以及它们是什么样子。
找出重要属性
从多变量的数据集中选择出最重要的属性。减少原本数据集的变量数,使它成为比之前更小的数据集,以期望获取数据中“有意思”的行为特征。这些方法也称为属性选择或者降低维度。