zoukankan      html  css  js  c++  java
  • 数据分析logistic回归与时间序列

    logistics回归

    1.影响关系研究是所有研究中最为常见的。
    2.当y是定量数据时,线性回归可以用来分析影响关系。
    3.如果现在想对某件事情发生的概率进行预估,比如一件衣服的是否有人想购买? 这里的Y是“是否愿意购买”,属于分类数据,所以不能使用回归分析。
    4.如果Y为定类数据,研究影响关系,选择logistics回归分析。
    

    哑变量

    1.哑变量(dummy var iable)  也称虚拟变量。
    2.用数字代码表示的定性自变量。
    3.哑变量可有不同的水平:
       (1).只有两个水平的哑变量——性别 男、女
       (2).有两个以上水平的哑变量——贷款企业的类型(家电,医药,其他) 哑变量的取值为0,1
    4.当定性变量只有两个水平时,可在回归中引入一个哑变量,比如性别,一般而言,如果定性自变量有k个水平,需要在回归中模型中引进k-1个哑变量。
    

    logistic回归分析

    1.logistic回归分析也用于研究影响关系,即x对于Y的影响情况。Y为定类数据,X可以是定量数据或定类数据。
    2.logistic回归和线性回归最大的区别在于,Y的数据类型。线性回归分析的因变量Y属于定量数据,而logistic回归分析的因变量Y 属于分类数据
    
    log it(p) = α + β₁X₁ +…+βmXm
    .因变量logit(p)跟概率值p的关系
    1.若概率大于0.5%,且小于或等于1,则因变量对应的是分类值1,则因变量对应的是分类值1,即"是"和"发生"。
    2.若概率小于0.5%,且大于或等于0,则因变量对应的是分类值0,即“非”和“未发生”
    
    

    logistic分类

    1.二元logistic回归分析
      ·如果Y值仅两个选项,分别是有和无之类的分类数据,选择二元logistic回归分析。
    2.多元logistic回归分析
    ·Y值的选型有多个,并且选项之间没有大小对比关系,则可以使用多远logistic回归分析。
    3.多元有序logistics回归分析
    ·Y值的选项有多个,并且选项之间可以对比大小关系,选项具有对比意义,应该使用多元有序logistic回归分析。
    
    Logistic回归分析类型    因变量Y值选项举例         说明
    二元logistic回归分析   有和无,愿意和不愿意       分析数据,并且仅为两类
    
    多元无序logistic回归分析  一线城市,二线城市和三线城市   分类数据,并且超过两类,类别之间没有对比意义
    
    多元有序logistic回归分析  不愿意,无所谓,意愿     分类数据,并且超过两类,类别之间具有对比意义
    

    logistic回归的使用场景

    1.logistic回归分析可用于估计某个事件发生的可能性,也可分析某个问题的影响因素有哪些。
    · 医学研究中,logistic回归常用于对某种疾病的危险因素分析,像是分析年龄、吸烟、饮酒、饮食情况等是否属于2型糖尿病的危险因素。
    问卷研究中,logistic回归常被用于分析非量表题上,像是将样本基本背景信息作为x,购买意愿作为Y,分析性别、年龄、家庭条件是否会影响购买意愿。
    2.其中,二元logistic回归分析的使用频率最高
    

    logistic回归案例

    模型系数:
         显著性: 新的3个变量模拟程度和不含变量的模型结果具有显著性
    模型概要:
    	-2对数拟然(误差平方和): 值越少,模型效果越好
        R判断模型的好坏,需要经验对比,再多个logistic回归模型下,判断拟合程度
    分类表(交叉表)
    	续约为13,不续约为6,对应百分比
        
     方程中的变量
       R对应回归系数,其他变量不变的情况下,此变量变动对logit(p)产生的改变量
       瓦尔德 校验统计量的算法,根据同表中的显著性判断一个自变量是否应该在模型中 
    

    概率估值

    logit(p)=2.208+-0.32*注册时长+-0.29*营业收入+—0.47*成本
    

    时间序列

    1.时间序列分析(Time-Series Analysis)
    2.是将某种现象某一个统计指标在不同时间上的各种数值,按时间先后顺序排列而形成的序列
    3.时间序列法是一种定量预测方法,亦称简单外延方法,在统计学中作为一种常用的预测手段被广泛应用。
    

    时间序列分解因素

    长期趋势变化:1.受某种疾病因素的影响,数据依时间变化是表现为一种确定倾向,它按某种规则稳步地增长和下降
    			2.使用的分析方法有:移动平均法、指数平滑法、模型拟合法等。
    季节性周期变化:1.受季节更替因素影响,序列依一固定周期规则性的变化,又称商业循环。
    			 2.采用的方法:季节指数。
    循环变化:周期不固定的波动变化
    随机性变化:由许多不确定因素引起的序列变化
    

    时间序列分解因素的原因

    1.把因素从时间序列中分解出来后,就能克服其他因素的影响,仅考量某一种因素对时间序列的影响
    2.分解这四种因素后,也可以分析他们之间的相互作用,以及它们对时间序列 的综合影响
    3.当去掉某些因素后,就可以更好地进行时间序列之间的比较,从而更加客观地反映事物变化发展规律
    4.分解这些因素后的序列可以用于建立回归模型,从而提高预测精度。
    

    时间序列分析

    分类                          分析方法
    确定性变化分析         趋势变化分析、周期变化分析、循环变化分析
    随机性变化分析         有AR、MA、ARMA模型
    

    时间序列分析特征

    1.时间序列分析法是根据过去的变化趋势预测未来的发展,它的前提是假定事物的过去延续到未来。
    	·时间序列分析,正是根据客观事物发展的连续规律性,运用过来的历史数据,通过统计分析,进一步推测未来的发展趋势,事物的过去会延续到未来这个假设前提包含两层含义:一是不会发生突然的跳跃变化,是以相对小的步伐前进,二是过去和当前的现象可能表明当前和将来活动的发展变化趋向。这就决定了在一一般情况下,时间序列分析法对于短、近期预测比较显著,但如眼神到更远的将来,就会出现很大的局限性,导致预测值偏离实际较大而使决策失误。
    

    时间序列分析

    1.时间序列数据变动存在着规律性与不规律性
    	·时间序列中的每个观察值大小,是影响变化的各种不同因素在同一时刻发生作用的综合结果。从这些影响因素发生作用的大小和方向变化的时间特性来看,这些因素造成的时间序列数据的变动分为四种类型。
        ·(1)趋势性:某个变量随着时间进展或自变量变化,呈现一种比较缓慢而长期的持续上升、下降、停留的同性质变动趋向,但变动幅度可能不相等。
        ·(2)间期性:某因素由于外部影响随着自然季节的交替出现高峰与低谷的规律。
        ·(3)随机性:个别为随机变动,整体呈统计规律。
        ·(4)综合性:实际变化情况是几种变动的叠加或组合。预测时设法过滤除去不规则变动,突出反映趋势性和周期性变动。
    

    时间序列分析模型

    1.加法模型:四个因素相互独立,即4个因素可以直接叠加而形成
    	· Y=T+S+C+I
        	·(Y,T计量单位相同的总量指标)(S,C,I对长期趋势产生的或正或负的偏差)
    2.乘法模型:四个因素相互影响,即综合4个因素而形成的(常用模型)
    	Y=T*S*C*I(Y,T计量单位相同的总量指标)(S,C,I对原数列指标增加或减少的百分比)
    

    时间序列指标数值编制原则

    1.保证序列中各期指标数值的可比性
    	·时期长短最好一致
        ·总体范围应该一致
        ·指标的经济内容应该统一
        ·计算方法应该统一
        ·计算价格和计量单位可比
    

    时间序列预测

    1.时间序列预测主要是以连续性原理作为依据的。连续性原理是指客观事物的发展具有合乎规律的连续性,事物发展是按照它本身固有的规律进行的。在一定条件下,只要规律赖以发生作用的条件不产生质的变化,则事物的基本发展趋势在未来就还会持续下去。
    2.时间序列预测就是利用统计技术与方法,从预测指标的时间序列中找出演变模式,建立数学模型,对预测指标的未来发展趋势做出定量估计。
    

    季节分解法

    ·因为时间序列中的长期趋势反映了事物发展规律,是我们重点研究的对象;而循环变动由于其周期较长,也可以近似看作是长期趋势的反映;不规则变动由于不容易测量,通常也不单独分析;
    ·但是季节变动的存在有时会让预测模型误判其为不规则变动,从而降低模型的预测精度。所以,当一个时间序列具有季度变动时,在预测之前会先将它的季节因素进行分解。
    ·季节性分解(分析-预测-季节性分解)
    ·“季节性分解” 过程可将一个序列分解成一个季节性成分、一个组合趋势和循环的成分和一个“误差”成分。
    

    季节分解法示例

    ·科学家想要对特定气象站的臭氧层每月测量结果进行分析。目标是确定数据中是否存在任何趋势。为了揭示真实趋势,由于季节性影响,科学家首先需要考虑所读取资料中的变异。可使用“季节性分解”过程来删除任何系统性的季节性变化。然后对季节性调整序列执行趋势分析。
    ·统计量:一组季节性因子
    ·数据:变量应为数值型。
    ·假设:变量不应包含任何内嵌的缺失数据,至少必须定义一个周期性日期成分。
    

    季节分解法-时序图作用

    ·了解数据的发展趋势
    ·根据时序图判断时间序列属于加法模型还是乘法模型
    ·判断发展趋势:
     	·如果随着时间的退役,序列的季节波动变d越来越大,则建议使用乘法模型
        ·如果序列的季节波动嫩够基本维持恒定,则建议使用加法模型
    

    季节分解法

    ·误差序列(变量前缀“ERR”),这些值是从时间序列中移除季节变动、长期趋势和循环变动因素之后留下的序列
    ·季节因素校正后序列(变量前缀是“CAS”) 这是移动原始序列中季节因素 之后的校正序列。
    ·季节因素(变量前缀是"SAF"),这是从序列中分解出的季节因素,其中的 变量值根据季节周期的变动进行重复,并且与图8-9的spss输出窗口中的季节因子数值一样。本例中,季节周期为12个月,所以,这些季节因子每12个月重复一次。
    ·长期趋势和循环变动序列(变量前缀是"STC"),这是原始序列中的长期趋势和循环变动因素构成的序列。
    
    

    image-20201016162335552

    季节分解法

    image-20201016162717802
    ·销售额、误差序列,季节因素校正后序列,长期趋势和循环变动序列序列图
    

    image-20201016162907802

    ·季节性因子序列图
    

    时间序列建模

    ·1.绘制间序列图观察趋势
    ·2.分析序列平稳性进行平稳化
    ·3.时间序列建模分析
    ·4.模型评信与预测
    

    时间序列

    ·"平稳性"指时间序列的所有统计性质都不会随着时间的推移而发生变化。对于一个平稳的时间序列来说
    ·需要具有以下特征:
    	·均数和方差不限时间变化;
        ·自相关系数只与时间间隔有关,与所处的时间无关,"自相关系数",研究的是一个序列中不同的时期的相关系数,也就是对时间序列计算其当前期和不同滞后期的一系列相关系的。
    ·时间序列的平稳化目的
    	·因为目前主流的时间序列预测方法都是针对平稳的时间序列进行分析的,但是实际上,我们遇到的大多数时间序列都不平稳。所以在分析时,首先需要识别序列的平稳性,并且把不平稳的序列转换为平稳序列,一个时间序列值有被平稳化处理通过才能被控制和预测
    

    创建传统模型

    image-20201016164111482

    image-20201016164123398

    image-20201016164141430

    创建传统模型结果解析

    最优时间序列模型为ARIMA(0,0,0)(0,0,0)最优时间序列及其参数,该模型可解读为∶对移除季节因素的序列和包含季节因素的序列分别进行0阶差分和0次移动平均,综合两个模型而构建出的时间序列模型。
    ARIMA:求和自回归移动平均模型。ARIMA(p,d,q)(P,D,Q)
    (p,d,q)是针对移除季节性变化后的序列。
    pp,是指移除季节性变化后的序列所滞后的p期,通常取值为0或1,大于1的情况较少;

    d,是指移除季节性变化后的序列进行了d阶差分,通常取值为0、1或2;
    q,是指移除季节性变化后的序列进行了q次移动平均,通常取值为0或1,很少会超过2。
    (P,D,Q)是描述季节性变化。大写的P,D,Q的含义相同,只是应用在包含季节性变化的序列上。
    
    

    image-20201016164440461

    创建传统模型结果解析

    image-20201016164604384

    平稳R方:平稳序来评估模型拟合优度,它是将模型平稳部分与简单均值模型相比较的测量,取正值时表示模型优于简单均值模型,取负值时则相反。当时间序列含有趋势或季节因素时,平稳统计量要优于普通统计量。由于原始序列具有季节变动因素,所以,平稳更具参考意义。平稳R方大于0,模型效果还不错。
    

    创建传统模型结果解析

    模型统计:该结果提供了更多的统计量用以评估时间序列模型的数据拟合效果。
    平稳值大于0,"杨-博克斯Q(18)"统计量的显著性(P值)=0.137,大于0.05【此处的显著性(P值)>0.05是期望得到的结果】,则接受原假设,认为这个序列的残差符合随机序列分布,同时也没有离群值的出现,这些也都反映出数据的拟合效果还是可以接受的
    预测趋势图显示了实际值和预测值的趋势,蓝色的序列是原始值,如果在之前的【时间序列建模器】中设置了要预测的时间,则该图会显示出预测值。本例中,由于没有设置要预测的时间,故不会出现未来的预测值。
    

    image-20201016164856854

    时间序列预测的应用

    image-20201016165037515

    image-20201016165048822

    image-20201016165115893

    image-20201016165123727

    RFM

    RFM分析

    ·RFM模型是衡量客户价值和客户创利能力的重要工具和手段。
    	·最近一次消费(Recency)
        `消费频率(Frequency)
        ·消费金额(Monetary)
    最近一次消费
    最近一次消费意指上一次购买的时候——顾客上一次是几时来店里、上一次根据哪本邮购目录购买东西、什么时候买的车,或在你的超市买早餐最近的一次是什么时候。 
    理论上,上一次消费时间越近的顾客应该是比较好的顾客,对提供即时的商品或是服务也最有可能会有反应。营销人员若想业绩有所成长,只能靠偷取竞争对手的市场占有率,而如果要密切地注意消费者的购买行为,那么最近的一次消费就是营销人员第一个要利用的工具。  
    最近一次消费的功能不仅在于提供的促销信息而已,营销人员的最近一次消费报告可以监督事业的健全度。月报告如果显示上一次购买很近的客户,(最近一次消费为1个月)人数如增加,则表示该公司是个稳健成长的公司;反之,如上一次消费为一个月的客户越来越少,则是该公司迈向不健全之路的征兆。 
    最近一次消费报告是维系顾客的一个重要指标。最近才买你的商品、服务或是光顾你商店的消费者,是最有可能再向你购买东西的顾客。再则,要吸引一个几个月前才上门的顾客购买,比吸引一个一年多以前来过的顾客要容易得多。
    消费频率 :
    消费频率是顾客在限定的期间内所购买的次数。我们可以说最常购买的顾客,也是满意度最高的顾客。如果相信品牌及商店忠诚度的话,最常购买的消费者,忠诚度也就最高。增加顾客购买的次数意味着从竞争对手处偷取市场占有率,由别人的手中赚取营业额。 
    根据这个指标,我们又把客户分成五等分,这个五等分分析相当于是一个“忠诚度的阶梯”(loyalty ladder),其诀窍在于让消费者一直顺着阶梯往上爬,把销售想像成是要将两次购买的顾客往上推成三次购买的顾客,把一次购买者变成两次的。
    消费金额:
    消费金额是所有数据库报告的支柱,也可以验证“帕雷托法则”(Pareto’s Law)
    某超市一周顾客
    
    人均消费水平 人数
    400 103
    140 298
    30 587

    如果你的预算不多,而且只能提供服务信息给部分顾客,你会将信息邮寄给哪些顾客?

    RFM分析

    R****(最近一次消费 ) F****(时间段内购买次数 M****(消费金额) 客户类型
    高价值客户
    重要发展客户
    重要保持客户
    重要挽留客户
    一般价值客户
    一般保持客户
    一般发展客户
    无价值客户

    RFM分析

    image-20201016170221174

    image-20201016170235020

    RFM分析步骤

    ·计算RFM各项的值
    ·汇总RFM分值
    ·根据RFM分值对客户分类
    

    RFM数据结果

    image-20201016170443235

    变量产称 变量标签
    客户ID 客户标识
    最近日期 最后一次交易日期
    交易计数 交易总次数
    金额 交易总金额
    崭新得分 RS∶最后一次交易的时间间
    频率得分 F_S∶交易总次数得分
    消费金额得分 MS∶交易总金额得分
    RFM 得分 RFM得分

    RFM分箱计数

    image-20201016170545860

    image-20201016170617188

    image-20201016170627217

    image-20201016170645629

    image-20201016170656775

    image-20201016170706288

    为了舒适的结果,眼前的坎坷路程即使再长都是值得的。
  • 相关阅读:
    数据结构之静态库动态库
    数据结构之二叉树
    数据结构之学习大纲
    Unix高级编程之文件及目录
    Unix高级编程之标准IO
    Unix高级编程之文件IO
    Unix高级编程之进程控制
    Unix高级编程之进程环境
    内置支持类(RegExp)
    获取DOM元素的三种方法
  • 原文地址:https://www.cnblogs.com/abudrSatan1998/p/13827516.html
Copyright © 2011-2022 走看看