1、数据分析总的来说是:认清问题,解决问题
2、实验,(星巴克咖啡店),实验控制组
3、最优化策略;橡皮鸭和橡皮鱼
4、数据图形化;重要的散点图
5、假设检验,podphone手机明天或下个月会发布么?最可能什么时候发布。为每个猜想加权,比较。
6、贝叶斯统计:蜥蜴流感
7、主观概率,石油投资,利用贝叶斯公式修正主管概率
8、启发法,快省树决策树。
9、直方图,引入R语言
10、回归
-
通过预想加薪和实际加薪,算出回归方程,预测加薪,散点图大法再出。
-
只要能看出两个变量之间具有密切的关系,只要回归线有意义,你就可以充满信心地让软件计算各个系数。
11、误差
-
机会误差=实际结果与模型预测结果之间的偏差,又称为残差。
-
用均方根误差(残差标准差)定量表示残差分布。
-
对于前后残差标准差差距较大可以将数据分为两段分析,分段不宜过多,否则无预测性。
-
R语言语句:
mylm <- lm(a~b,data) #回归表达式,~左边是因变量,右边是解释变量。详见R语言语法 summary(mylm)$coefficients #系数相关矩阵 summary(mylm)$sigma #残差标准差
12、数据库
13、整理数据,正则表达式