刚准备转行数据分析的时候看过一本书叫《深入浅出数据分析》,非常通俗易懂,是我数据分析的启蒙书籍~分享下当时的笔记,书里的案例经常会在我之后的工作中给我灵感。同系列有一本《深入浅出统计学》,也写的很棒,公式较多所以是做的纸质版的笔记,以后也会分享。
Chapter 1 数据分析引言 分解数据
需求:如何提升销量
主要内容:数据分析的流程,统计模型与心智模型。
1、数据分析的流程:
确定:了解问题。客户将帮助你确定问题。
分解:分解问题和数据,让他成为更小的组成部分。找出高效的比较因子。
评估:根据了解到的情况,作出各种结论。数据分析的核心是有效的比较。
决策:重新组合结论,作出决策建议。作出自己明确的假设和结论。
2、统计模型取决于心智模型。心智模型一定要指出不确定因素。
3、数据分析的根本在于密切关注需要了解的数据。
4、分析报告parts:背景,数据解说,建议。数据报告中应该让客户详细浏览你的思考过程。
Chapter 2 检验你的理论 做实验
需求:找出解决销量下滑的办法
主要内容:比较法、混杂因素、控制组
1、统计与分析的最基本原理之一就是比较法。数据只有通过相互比较才会有意义。比较越多,分析结果越正确。特别是对于观察研究。
2、观察研究法:被研究人自行决定自己属于哪个群体的一种研究方法。使用观察研究法时,应当假定其他因素会混杂你的结论。
3、当怀疑因果关系的走向时,请进行反方向思考,看看结果怎么样。如价值感的下降导致销量下降,换过来就是,销量下降导致价值感下降)
4、当涉及因果关系时,观察研究法并不是那么强大有力。
5、把所想到的事物之间的联系画出来。
6、混杂因素:研究对象的个人差异,他们不是试图比较的因素,最终会导致分析结果的敏感度变差。观察分析法充满混杂因素。
7、数据分析的重点在于分析的结论有意义。
8、拆分数据块,管理混杂隐私。拆分的数据块要具有同质性。
9、观察数据本身无法预示未来。
10、好的实验总是有一个控制组(对照组)
11、控制组:也称作对照组。一组体现现状的处理对象,未经过任何新的处理。
12、历史控制法,同期控制法(后者比较好)
13、妥善报告可能令人沮丧的消息。
14、从对象池中随机选择对象是避免混杂因素的好办法。
Chapter 3 寻找最大值 最优化
需求:寻找最佳的生产方案
主要内容:最优化问题、Solver求解器
1、将需要的数据分为两类:
无法控制的因素,eg:生产用时,原料量
可以控制的因素,eg:生产多少产品A,生产多少产品B –决策变量
约束条件:约束决策变量
2、任何最优化问题都有一些约束条件和一个目标函数。
将决策变量、约束条件和希望最大化的目标合并成一个目标函数。
找出决策变量的可行域。
得出目标函数的最大值。
3、Excel函数插件:Solver(求解器)
4、模型只告诉如果实现最大利润,但仅仅是在规定的约束条件下。还需要结合事实,历史数据,务必要规定假设中的各种变量的相互关系,不要假定变量是不相关的。
5、假设立足于不断变化的实际情况,有时效性,要在必要的时候重新构建分析方法,反复不断地构建。
Chapter 4 数据图形化:图形让你更精明
需求:三种主页选择
主要内容:数据图形化、散点图、R语言、数据图形化
Fancy visualization的背后无非都是data.
1、标签云:http://www.wondle.net
2、体现数据:用数据思考。数据分析的根本在于总结数据。
3、面对大,量数据:记住目标,目光停留,在和目标。有关的数据上,无视其他。
4、数据图形化的根本在于正确比较。明确客户的比较对象。
5、好的数据图形:展示了数据,做了有效的比较,展示了多个变量。
6、散点图:发现因果关系。X自变量,Y因变量。
7、图形多元化:如果一个图形能对三个以上的变量进行比较,这张图就是多元图形。尽量让图形多元化最有可能促成最有效的比较。(R的lattice散点图)
8、Edward Tufte的书,数据图形化最高权威。
9、不是仅仅将数据展示出来就可以了,还要剖析因果关系,描述图形。描述数据图形时,需要论述可相互换用的两种因果模型或图解,如不同的原因假设。
Chapter 5 假设检验:假设并非如此
需求:何时开始生产新产品
主要内容:假设检验、证据的诊断性
1、观察数据变量的方法之一:看他们之间是正相关,还是负相关。
2、现实世界中的各种原因呈因果关系网络,而非线性关系。
3、假设检验的核心是证伪,剔除无法证实的假设,而不是选出最合理的假设。
4、满意法:选出看上去最可信的第一个假设。主观性太强。
5、进行假设检验时,要使用证伪法,回避满意法。证伪法可以对各种假设保持敏锐,防止掉入认知陷阱。
6、诊断性:证据所具有的一种功能,能够帮助评估所考虑的假设的相对似然性。只要能够帮助评估各种假设的相对强度,证据和数据就具有诊断性。如果证据具有诊断性,就能帮助对假设的排序。
Chapter 6 贝叶斯统计:穿越第一关
需求:判断患病的概率
主要内容:条件概率、基础概率、贝叶斯规则
1、条件概率:以一件事的发生为前提的另一件事的发生概率。
2、基础概率:又叫事前概率。在根据试验结果分析之前,已经知道的概率。如果有基础概率,一定要考虑。
3、将概率转变为整数,然后进行思考,是避免犯错误的一个有效办法。
4、贝叶斯规则可以反复使用,注意每次使用时,要根据上一次的结果调整新的基础概率。
5、避免基础概率谬误的唯一方法就是对基础概率提高警惕,而且务必要将它整合到分析中去。
患病案例:
Background:
条件概率:
诊断实验正确性分析报告(common sense):
Y:患病。N: 未患病。 +:阳性。 -:阴性
3.由1得:若某人被诊断患病,试验结果为阴性的概率为10% -- False negative.即P(-|Y) = 10%
4.由2得:若某人未患病,试验结果为阴性的概率为91% -- True negative.即P(-|N) = 91%
想要求试验结果为阳性的情况下,一个人真的患病的概率,即P(Y|+)
Ture positive |
False negative |
1 |
False positive |
True negative |
1 |
基础概率:
研究表明,总人口中有1%的人患病。
基础概率是根据试验结果单独分析每个人的情况之前,已经知道患病的人口有1%,所以基础概率又叫事前概率。
下方为树图:
|
|
|
1000人 |
|
|
|
|
患病者1%,10人 |
|
|
|
未患病者990人 |
|
试验结果为阳性90%,9人 |
|
试验结果为阴性1人 |
|
试验结果为阳性9%,89人 |
|
试验结果为阴性,901人 |
在试验结果为阳性的条件下,患病的概率 = 9 / (9+89) = 0.09 = 9%
贝叶斯公式:
P(Y|+) = true positive / (true positive + false positive)
Chapter 7 主观概率:信念数字化
需求:解决分歧,统一决策
主要内容:主观概率、标准偏差、贝叶斯规则
1、主观概率:用一个数字形式的概率来表示自己对某事的确认程度。特别适合在预测孤立事件却缺乏从前在相同条件下发生过的事件的可靠数据的情况下。
2、主观概率是一种向别人精确地传达你的想法和信念的富有启示性的表达方法。
3、标准偏差:量度分析点与平均值的偏差。Excel中STDEV函数。
4、贝叶斯规则是修正主观概率的好办法。找出在假设成立的条件下,证据出现的概率。
Chapter 8 启发法:凭人类的天性做分析
需求:工作成果评估
主要内容:启发法、快省树
1、启发法:(心理学)用一种更便于理解的属性代替一种难解的、令人困惑的属性。(计算机科学)一种解决问题的方法,可能会得出正确答案,但不保证得出最优化答案。从直觉走向最优化的桥梁。
2、快省树:描述启发法的图形。
3、固定模式都具有启发性。
Chapter 9 直方图:数字的形状
需求:要求加薪的策略
主要内容:直方图、铃形曲线
1、直方图:显示数据点在数值范围内的分布情况。
2、直方图不同区间之间的缺口即数据点之间的缺口。
3、铃形曲线:正态分布/高斯分布。只要数据呈现正态分布,大量简单有效的统计方法就能派上用场。
4、只要峰的数目超过一个,就不能成为铃形,就不是正态分布。
Chapter 10 回归:预测
需求:加薪结果预测
主要内容:平均值图、散点图、相关性、相关系数
1、算法:为了完成某个计算而执行的任何过程。
2、只要两种变量成对出现并描述了数据中包含的人或事,就可以同时放,就在散点图中。
3、散点图的根本在于寻找变量之间的因果关系。
4、散点图和直方图的差别在于显示两种变量。
5、平均值图是一种散点图,显示出与X轴上的每个区间相对应的Y轴数值。
6、回归线是最准确地贯穿平均值图中的各个点的直线。
7、相关性:两种变量之间的线性关系。
8、回归线对于具有线性相关特点的数据很有用。
9、相关系数r:衡量相关性的强弱,范围为-1至1,0表示无相关性,1和-1表示两个变量完全相关。计算相关系数cor()函数。
10、相关性是否足够取决于实际的经验判断。任何软件都无法判别回归线是否有用。只要能看出两个变量之间具有密切的关系,只要回归线有意义,就可以充满信心地让软件计算各个系数。
11、用R创建回归对象:lm()函数。算出斜率和截距(回归系数),生成回归方程。查看回归系数:summary(myLm)$coefficients
Chapter 11 误差:合理误差
需求:让加薪预测更有效
主要内容:外插法、内插法、机会误差、均方根误差、回归分析的功能。
1、外插法:用回归方程预测数据范围以外的数值。
2、内插法:对数据范围内的点进行预测。
3、如果使用外插法,要指定附加假设条件。
4、低劣的预测比不作预测更糟糕。
5、如果使用抽样数据,就要确保能代表整个数据集。
6、不合适的假设会使模型完全失效,甚至结果具有欺骗性。
7、机会误差:又叫残差。实际结果与预测结果之间的偏差。残差分析是优秀的统计模型的核心。
8、均方根误差描述的是回归线周围的分布情况,标准偏差描述的是平均值周围的分布情况。他们都是预测实际结果与典型预测结果之间可能有多大的差距。
R用lm()创建回归对象后, summary(myLm)$sigma查看均方根误差,显示为residual standard error.可以利用均方根误差改善模型,利用每个取值段的残差细化。
9、线性回归一般用均方根误差公式描述误差,但是也有其他量度方法。
10、分割的根本目的是管理误差。
11、优秀的回归分析兼具解释功能和预测功能。
Chapter 12 关系数据库:你能关联吗?
需求:分析杂志销量
主要内容:数据库、RDBMS
1、数据库就是一系列相互有特定关系的数据。
2、数据库要求表格之间的关系都是量化关系。
3、关系数据库管理系统(RDBMS)每一行都有一个ID,确保表格之间量化关系不被破坏
4、R绘图时jitter函数,在数字中添加噪音,使数据相互分隔,易于在散点图上识别。eg,横坐标article的数量,纵坐标销售额:
Plot(sales~jitter(article.count), data = dispatch)
R中实现select subset:
myLm <- lm (received [negotiate == TRUE & request >10] ~ request [negotiate == TRUE & request > 10], data = employees)
R中实现lattice散点图:lattice包中的xyplot函数:
Xyplot(webHits~commentCount | authorName, data = articleHitsComments)
| authorName表示以作者名分组。
Chapter 13 整理数据:井然有序
需求:整理收集到的凌乱数据
主要内容:整理数据、Excel分列功能、常用函数、正则表达式
1、数据分析和整理上的时间要多于数据分析的时间。
2、整理数据必须从复制原始数据开始,步骤如下:
1)保存原始数据副本。
2)设想数据集的最终外观。
3)区分混乱数据中重复出现的模式。
4)整理并重新构造。
3、Excel可以通过分隔符将数据分成多个列。(数据-分列)
4、常用函数:
Find:在单元格中的哪个位置查找搜索字符串
Left:取单元格左边的字符
Right:取单元格右边的字符
Trim:删除单元格中的空格
Len:求单元格的长度
Concatenate:取两个值,然后合并在一起
Value:以文本格式存储的数字的数值
Substitute:以指定的新文本替代单元格中不需要的文本
5、不要把较小的公式合并成一个大公式,而是拆成几个不同的单元格,再用一个最终的公式将所有单元格合并起来。
6、正则表达式:可以指定复杂的模式,以便匹配和替换文本字符串。是整理混乱数据的杀手锏。Excel并不适用正则表达式。
正则表达式包括三个部分:左括号,右括号和括号里面的所有内容。
Newlastname <- sub (\(.*\), “”, hfhh$LastName),
sub指令用空格替换所发现的所指定模式。
7、如果出现数据重复,要判断是因为查询返回数据的方式,还是数据本身质量低劣。
附录:
1、需要补充的知识:
1)统计知识
2)Excel技巧
3)Edward Tufte的图形原则:
体现出比较、对比、差异
体现出因果关系、机制、理由、系统结构
体现出多元数据,即体现出1个或2个变量
将文字、数字、图片、图形全面结合起来
充分描述证据
数据分析报告的成败在于报告内容的质量、相关性和整体性
4)数据透视表
5)R社区
6)非线性与多元回归
7)原假设-备择假设检验
8)随机性
9)Google Docs
10)专业技能