数据分析的方法有:
- 基本分析方法:主要以基础的统计分析为主
- 高级分析方法:以计量经济建模理论为主
- 数据挖掘类:以数据仓库、机器学习等符合技术为主
数据挖掘工具:Weka、QUEST、MineSet、Clementine、Rapidminer、DBMiner、Mahout
可视化设计工具:Many Eyes(免费)、D3、Protovis、Datawatch、Quadrigram、Tableau、Google Chart、JFreeChart
一、基本数据分析方法:对比分析、趋势分析、差异显著性检验、分组分析法、结构分析法、交叉分析法、综合评价分析、漏斗图分析法等
1.1 对比分析:分析对象一般为相互联系的两个指标数据,它主要展示与说明研究对象水平的高低、速度的快慢、规模的大小以及各关系之间是否协调。
对比分类方法:横向对比、纵向对比、标准对比以及实际与计划对比。
- 横向对比(静态对比):对比是同一时间条件下不同总体指标比较。
- 纵向对比(动态对比):指同一总体条件不同时间指标数值的比较。
- 标准对比:指实际指标与标准水平进行对比、了解当前指标与标准指标的差异。
- 实际与计划对比:反映实际与目标值的差异,主要是利用当前实际值与目标的计划数、预算数、指标数等对比从而得到差异。
指标包括总量指标、相对指标、平均指标,结果可用相对数如百分数、倍数、系数等来反映。
应用:在了解财政收支数据特征方面很有优势,同时可用于差异分析。
1.2 趋势分析:将实际达到的结果,通过比较同类指标不同时期的数据,继而明确该指标的变化趋势以及变化规律的一种分析方法。
方法:定比和环比
- 定比分析:分析期的水平比上某一特定时期的水平,描述该现象在不短的一段时期内总的变化水平,主要用于分析年度发展变化的速度情况。
主要指标:定基动态比率=分析期数值/固定基期数值
- 环比分析:分析期水平比上前一段水平,反映是逐期变化趋势的现象。通过本期与上期数据的对比,形成时间系列图。
逐期变化情况受很多因素影响,其中最主要的是季节影响,会出现大幅度波动,因此环比分析适用于没有季节因素的时间序列数据
主要指标:环比动态比率=分析期数值/前期数值
应用:财务分析方面
1.3 显著性检验:判断事先对总体的参数或分布形式做的假设与真实情况是否存在显著性差异,即检验总体所做的假设是否合理正确,原理是“小概率事件实际不可能性”
方法:t检验、方差分析等
- t检验:通过t分布来推断差异发生的概率,继而比较两个平均数之间是否存在显著性差异。它与z检验、卡方检验并列。主要分为单样本t检验、配对样本t检验
- 方差分析(F检验、变异数分析):通过比较总体方差各种估计间的差异来检验方差的正态总体是否有相同的均值。分为单因素方差分析、多因素方差分析
方法:根据目的和客观现象的内在特点,按照某个标准将研究对象分为若干不同性质的小组,使得组内差异小,组建差异大
原则:
- 穷尽原则:全部都要分
- 互斥原则:一个单位只能归属于一个组
1.5 结构分析:通过指标来解释企业资源结构分布、生产布局的状况,便于经营者进行调整,投资者长期决策。
方法:
- 根据关注的(时间):静态结构分析、动态结构分析(当期同期、当期/某期、时间序列)
- 根据关注的(对象):增量结构分析、元素的比重分析以及总量结构分析。
- 两种分类间交叉结构分析
- 结构内元素的结构差异分析
指标:某一部分占总体的比重。结构指标%=总体中某一部分/总体总量*100%
1.6 因素分析法(斯皮尔曼剔提出,在心理学领域发展):根据分析指标与影响因素的关系,从而确定不同因素对分析指标影响程度以及影响方向的一种方法。
方法:
- 连环替代法:把分析指标拆分为多个计量因素,按照因素相互间的依存关系,依次用各因素的比较值(实际值)替换基准值,研究不同因素对指标的影响。
- 差额分析法(绝对分析法):依据每个因素的实际值与基准值之间的差异
- 定基替代法:用基准值替换实际值
1.7 交叉(表)分析法:指将有一定联系的两个变量及其值交叉排列在一张表内,分析交叉表中变量之间的关系,常用的是二维交叉表分析法。描述变量间的关系,但不一定是因果关系。
1.8(多变数)综合评价分析法:将多个指标转化为一个能反映综合情况的指标进行评价。
1.9 漏斗图分析法:直观业务流程转化率和流失率,同时可反映流程中的重要环节。
应用:业务流程,可以结合对比分析等方法对不同细分用户群的转化率进行对比,也可以对同一行业类似产品的转化率进行比较。
二、高级分析方法
2.1 时间序列:更偏重于对数据的相互依赖关系进行研究(可以进行谱分析、自相关分析等)。
4种要素组成:趋势、季节变动、循环波动(非固定长度的变动)、不规则波动
- 描述性时序分析:直观看长期趋势和周期变化,时间序列分析选取的时间刻度越小,越能表现变量的变动情况
- 统计时序分析:频域分析方法和时域分析方法。
- 频域分析方法:原理是假设任何一种无趋势的时间序列都可以分解为若干个不同频率的周期波动,重点是频率特征
- 时域分析方法:原理是时间的发展经常都具有一定的惯性,这种惯性是指序列值之间存在一定的相关关系,它包含某些统计规律。
模型:
- ARMA自回归移动平均
- ARIMA自回归求和移动平均模型
步骤:做图分析(跳点是否为异常值、拐点是否要分段拟合)、曲线拟合和参数估计。
扩展:当X(t)中的t取非负整数时,就是一种特殊的随机过程,可以看作是时间序列
2.2 相关分析:研究变量间相关性,即变量是否有依存关系,依存关系的相关方向和程度等。
方法:散点图直观观察、计算相关系数r
- 线性相关分析(区间[没有,0.3,弱相关,0.8,强相关])
- 偏相关分析(控制一两个影响变量)
- 距离分析(样本间、变量间)
注意:相关系数的计算是以直线关系为前提的。
2.3回归分析
步骤:
- 变量的确定,确定因变量、再确定自变量
- 回归模型的建立:最小二乘法或极大似然法计算参数
- 相关分析:分析自变量和因变量之间的关系,计算相关系数
- 模型的检验
- 预测值的确定
应用:预测、确定变量相关性及相关程度
2.4 判别分析:判别新样本的分类
原理:依据判别原则建立判别函数,确定判别函数的变量系数,计算判别指标得出分类结果。
方法:
- Fisher判别:投影
- Bayes判别:概率
- 距离判别:距离
2.5 主成分分析与因子分析
主成分分析:把多个变量进行线性变换,从而得到不相关的综合变量,再根据规则选择出少数较好反映原始变量信息的增和变量。
因子分析:根据变量相关性,将多个具有重叠信息复杂关系的变量分解为几个具有代表性的少数变量。应用于寻找变量之间的潜在结构、内在结构的证实以及评估问卷的结构效度等。
区别:
- 原理不同:主成分利用降维(线性变换)的思想,从多个变量中提取出少数几个比原始变量更具优越的综合指标,因子分析利用降维将原始指标分解为公因子和特殊因子。
- 求解方法不同:主成分分析从协方差和相关矩阵除法,采用主成分法。因子分析可以使用包括主成分法、极大似然法等
- 解释重点不同:因子分析提取的公共因子比主成分提取的主成分更具有解释性
- 结果不同:主成分分析提取的主成分结果唯一,因子分析可以通过因子旋转得到不同的因子
- 提取变量数量不同:主成分是固定的,因子分析是根据用户指定个数做分解
2.6 对应分析(关联分析,R—Q型因子分析):将一个列联表的行和列种各元素的比例结构以点的形式在较低维的空间中表示出来。
主要组成:表格和关联图
应用:市场研究分析(市场细分、竞争分析和广告分析)
2.7多维尺度分析(MDS)看不懂,作图结合对应分析
三、数据挖掘
主要数据挖掘任务包括关联分析、分类与回归、聚类分析和离群点检测。
3.1关联分析:Apriori、FPGrowth
3.2分类与回归
- 决策树:ID3,C4.5,SLIQ,SPRINT
- 贝叶斯分类算法
- 人工神经网络
- 支持向量机
- 其他分类方法
3.3聚类分析
3.4离群点检测
参考资料:《大数据导论——关键技术与行业应用最佳实践》