炼数成金数据分析课程---18、降维技术(后面要重点看)
一、总结
一句话总结:
大纲+实例快速学习法
主要讲解常用降维算法(主成分分析,因子分析)的原理及python代码实现:后面学习聚类的时候先学这个
开始征战,这样生活才好玩
这个社会,赚钱太容易了,只要肯努力,开滴滴送外卖都能月入过万
1、为何要降维?
-使得数据集更易使用
-降低算法计算开销
-去除噪声
-使得结果易懂
2、降维是什么?
将高维的东西映射到低维度,比如将面映射成线,这样就能减少一个变量
降维可以减少变量
3、降维在生活中的实例?
多角度拍照:比如一个水壶,你只要在多角度多拍几张平面照片,别人就知道这个东西长什么样了
4、主成分分析是什么?
一种多变量统计方法
通过析取主成分显出最大的个别差异,也用来削减回归分析和聚类分析中变量的数目
可以使用样本协方差矩阵或相关系数矩阵作为出发点进行分析
5、降维的两种主要方法是什么?
主成分分析
因子分析
6、主成分分析是什么?
通过对原始变量进行线性组合,得到优化的指标
把原先多个指标的计算降维为少量几个经过优化指标的计算(占去绝大部分份额)
7、主成分分析的基本思想是什么?
设法将原先众多具有一定相关性的指标,重新组合为一组新的互相独立的综合指标,并代替原先的指标
8、因子分析是什么?
-降维的一种方法,是主成分分析的推广和发展
-是用于分析隐藏在表面现象背后的因子作用的统计模型。试图用最少个数的不可测的公共因子的线性函数与特殊因子之和来描述原来观测的每一分量
-例子:各科学习成绩(数学能力,语言能力,运动能力等)
-例子:生活满意度(工作满意度,家庭满意度)
9、因子分析的主要用途是什么?
-减少分析变量个数
-通过对变量间相关关系的探测,将原始变量分组,即将相关性高的变量分为一组,用共性因子来代替该变量
-使问题背后的业务因素的意义更加清晰呈现
10、因子分析与主成分分析的区别是什么?
◆主成分分析侧重“变异量”,通过转换原始变量为新的组合变量使到数据的“变异量”最大,从而能把样本个体之间的差异最大化,但得出来的主成分往往从业务场景的角度难以解释
◆因子分析更重视相关变量的“共变异量”,组合的是相关性较强的原始变量,目的是找到在背后起作用的少量关键因子,因子分析的结果往往更容易用业务知识去加以解释
◆因子分析采用了更复杂的数学模型
11、相比于主成分分析,因子分析采用了哪些更复杂的数学模型?
-比主成分分析更加复杂的数学模型
-求解模型的方法:主成分法,主因子法,极大似然法
-结果还可以通过因子旋转,使到业务意义更加明显
二、内容在总结中
week15