zoukankan      html  css  js  c++  java
  • Spss基础知识

    SPSS基础分析

    SPSS基础分析
    SPSS预分析
    建模分析
    案例分析

    第一章 数据分析基础知识

    什么是数据分析?

    什么是数据分析?
    统计学( Statistics )
    收集、处理、分析、解释数据,并从数据中得出结论来指导实际生活和生产。分为描述统计学和推断统计学。
    其中,描述性统计研究的是数据收集,处理,汇总,图表描述,概括与分析等统计方法;推断统计是研究如何利用样本数据进行推断总体的特征。
    数据分析( Data Analysis ) 用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论,对数据加以详细研究和概括总结的过程。

    数据类型有哪些?

    数据类型
    分类数据(定性数据)
    只能归于某一类别的非数字型数据,是对事物进行分类的结果数据,表现为类别,用文字来表示。
    如人口按性别分为男、女;高中教育,分为文科、理科。
    顺序数据 只能归于某一有序类别的非数字型数据,数据表现为类别,但这些类别是有序的。如产品分为一等品,二等品,三等品,次品等;奖学金。
    数值型数据 对事物的精确测度,结果表现为具体的数值。如身高175CM,160CM,183CM;微信运动步数。 注:日期型数据用于表示日期或时间,可以进行算数运算,是一种特殊的数值型数据。

    基础概念了解吗?

    平均数(算术平均数)、几何平均数(mean)算术平均数:An=(a1+a2+...+an)/n
    几何平均数:Gn
    =(a1a2...an)^(1/n)
    中位数(median)、众数(mode)
    四分位数、四分位差
    对数据进行排序,处于25
    %和75%位置上的值。如1、8、3、2、5、5、4、7、2,2和6处于这组数据的25%和75%位置,为这组数据的下四分位数和上四分位数,也成1/4分位数和3/4分位数。
    四分位差
    =上四分位数-下四分位数
    异众比例 非众数的个数占总个数的比例。 如1、
    2、4、4、5、6、4、8。
    极差=最大值-最小值
    平均差 各变量值与平均数离差绝对值的平均数。 平均差
    = (∑|x-x’|)÷n, 例如1、2、3、4、5、6、7、8,平均差为?
    方差、标准差:反映一个数据集的离散程度,用σ表示标准差。 方差 s
    =[(x1-x)^2 +(x2-x)^2 +(xn-x)^2]/n
    总体:所研究的全部元素的集合。
    样本:从总体中抽取的一部分元素的集合。其中样本的元素数目成为样本容量。
    参数:描述总体的特征。如总体均值、标准差、总体比例等。
    统计量:描述样本特征。如样本标准差,样本均值等。
    变量:被观察单位的特征,是指可变的数量标志和所有的统计指标。在校生人数、商品销售额、产品质量等级...等都是变量。
    举例: 对一千个灯泡进行寿命测试,从中抽取一百个进行检测。则这一千个灯泡的集合就是总体,一百个灯泡的集合就是样本
    。这一千个灯泡的寿命的平均值、标准差、合格率等描述特征的数值就是参数,
    这一百个灯泡的寿命的平均值、标准差、合格率等描述特征的数值就是统计量,寿命就是变量。

    第二章 SPSS软件概述

    SPSS发展简史
    SPSS的基本特点

    SPSS的安装与激活

    SPSS的启动与退出

    SPSS界面介绍

    分屏操作:出现左后符号拉动即可,上下左右

     spss文件保存格式 .sav格式

    第三章  数据的导入与录入

    数据的种类:
    
       1.一种是已经被录入为其他数据格式的资料,实现其与SPSS文件的转换。  
       例如:如何直接读取Excel类型和文本格式的数据,demo.xls,demo.txt
    2.另一种是非电子化的原始数据资料,直接将调查问卷中的数据录入 SPSS,建立数据文件。

    练习

    练习:
    1.将企业季度数据.xlsx 的移动平均、指数平滑表导入SPSS中,仅包含:时间、销售额、推广费用几个变量;

    总共四列信息,包含前三列信息
    2.将用户明细.txt文件导入到SPSS中并保存成用户明细.sav的格式
    数据录入技巧
    连续多个相同值的输入
      用“复制、选择、粘贴”功能
    成批变量的定义 隔开指定的距离输入首尾行,回车后自动填充变量名
    快速查找异常值(极端值) 充分利用排序功能
    数据的录入的步骤:
    1.定义变量名
    2.指定每个变量的各种属性
    3.录入数据
    4.随时存盘以防断电

    变量属性

     数据类型:分类、顺序、数值
    数值型 应用最为广泛,如工资、年龄、成绩等都可定义为数值型
    字符型(分类型变量) 也是SPSS较常用的数据类型,但由于分析、整理都较困难,建议尽量少用,改为编码录入,如性别用1、2代表男女,用变量值标签加以解释说明
    日期型 实际上是特殊的数值型变量,尽量少用。日期型数据主要在时间序列分析中比较有用,在较为简单的分析问题中完全可以用数值型变量进行操作:如201610

    调查问卷的数据录入

    调查问卷的数据录入
    
    问卷调查的方法用的很广泛,对于没有接触过SPSS的人来说第一步面临的就是问卷数据录入的问题。
    
    注意:
     (1)区分变量的度量,Measure的值,其中Scale是定量、Ordinal是定序、Nominal是指定类;
     (2)注意定义不同的数据类型Type。
    问卷数据的录入
    问卷题目的类型大致: (
    1)单选 (2)多选 (3)排序 (4)开放题目 它们的变量的定义和处理的方法各有不同。

    点击视图,值标签打勾

    单选题:答案只能有一个选项

    1.当前贵组织机构是否设有面向组织的职业生涯规划系统? 
        A有    B 正在开创    C没有     D曾经有过但已中断
    编码:只定义一个变量,Value值1、
    2、3、4分别代表A、B、C、D 四个选项。
    录入:录入选项对应值,如选C则录入3。

    采用分类法或者二分法录入信息

    多选题:答案可以有多个选项,其中又有项数不定多选和项数定多选

    方法一(二分法):在编码时,对应每一个选项都要定义一个变量,有几个选项就有几个变量,且所有变量值标签的定义应该一致
    例:贵处的职业生涯规划系统工作涵盖哪些组群?画钩时请把所有提示考虑在内。 A月薪员工 B日薪员工 C钟点工
    编码:把每一个相应选项定义为一个变量,每一个变量Value值均如下定义:“0” 未选,“
    1” 选。
    录入:被调查者选了的选项录入1、没选录入0,如被调查者选AC,则三个变量分别录入为1、0、
    1。

    分类法:多选有未选的用 0来填充

     定向多选择题

    多选题:答案可以有多个选项,其中又有项数不定多选和项数定多选
    方法二(分类法):利用多个变量来对一个多选题的答案进行定义,应该用多少个变量由被访者实际可能给出的最多答案数而定。
    这些变量必须为数值型变量,利用值标签将答案标出,所有变量采用一套值标签。
    例:你认为开展保持党员先进性教育活动的最重要的目标是哪三项:
    1() 2() 3() A、提高党员素质 B、加强基层组织 C、坚持发扬民主 D、激发创业热情 E、服务人民群众 F、促进各项工作
    编码:定义三个变量分别代表题目中的1、
    2、3三个括号,三个变量Value值均同样的以对应的选项定义, 即:“1”A,“2”B,“3”C,“4”D,“5”E,“6”F
    录入:录入的数值1、
    2、3、4、5、6分别代表ABCDEF,相应录到每个括号对应的变量下。如被调查者三个 括号分别选ACF,则在三个变量下分别录入1、3、6。

     

    总结:

      单选题分类法

      不定项多选题分类法或者二分法

      定向多选题分类法

    排序题:对选项重要性进行排序

     例:您购买商品时在①品牌  ②流行  ③质量  ④实用   ⑤价格
         中对它们的关注程度先后顺序是(请填代号重新排列)第一位  第二位  第三位 第四位  第五位
    编码:定义五个变量,分别可以代表第一位到第五位,每个变量的Value都做如下定义:“
    1” 品牌,“2” 流行,“3” 质量,“4” 实用,“5” 价格
    录入:录入的数字1、
    2、3、4、5分别代表五个选项,如被调查者把质量排在第一位则在代表第一位的 变量下输入“3”。

    采用分类法:

    开放题:这类题目要求被调查者自己填入数值,或者打分

     例:你的年龄(实岁):______

    编码:一个变量,不定义Value值
    录入:即录入被调查者实际填入的数值。
    注意:对于开放性文字题,如果可能的话可以按照含义相似的答案进行编码,转换成为封闭
    式选项进行分析。如果答案内容较为丰富、不容易归类的,应对这类问题直接做定性分析。

     第四章  数据的准备

    标志重复个案
    选择个案
    数据验证模块
    数据的分类汇总
    重新编码为不同变量
    转置

    标志重复个案:

    原因:在一些测验统计结果中,经常会出现重复个案,即用户名、选项完全相同的个案,如果不作处理,显然会影响统计结果。
    案例文件:问卷录入数据(整理后).sav,然后按照id相同的标准查找重复记录。
    操作步骤:数据——标识重复个案
    删除个案:法一,直接在变量视图界面删除; 法二,数据——选择个案。 (注:在选择个案中有详细介绍)

     在ID相同的条件下按年龄进行排序,选择升序排序

     

     

     

    选择个案:

    
    主要内容:筛选出符合要求的个案。
    解决的问题:不需要对整体进行处理,这时可以设置条件语句,选择符合要求的样本进行处理。
    用途:

     

     

    点击所有个案或者重置或者删除filter列

     

    先选着id 排序 再删除重复个案 

     

    数据验证模块

    单变量规则-交叉变量规则

    
    实现数据核查功能,用户通过自定义数据验证规则,并运行数据验证规则对数据进行检查,以确定个案取值是否有效。验证规则有以下两种:
    1)单变量规则:包含一组应用于单个变量的数值检查的规则。如,数码产品顾客购买习惯问卷调查项目性别:只有1,2两个取值编码,年龄为14到53;
    2)交叉变量规则:交叉变量规则是用户定义的涉及多个变量间逻辑关系的规则,是标记无效值的逻辑表达式,可以应用于单个变量,也可以应用于变量组合。

    如:B3选中在网上购物,B5_1至B5_5中任一项选择了网上购物的支付方式或B4每月网络购物的消费不为空,否则,问卷应视为存在逻辑错误,作为废卷处理。

     

     

     

     练习:

    CCSS_Sample.sav ,年龄:取值应当在18~65岁之间;性别:只有1,2两个取值编码,

    定义规则识别年龄、性别取值违规或者说异常的个案;


    定义交叉变量规则,关键题目A3、A4、A8取值不应当同时选择9,否则应作废卷处理。

     验证数据:

     在单变量规则 和 交叉变量规则对应

    保存:

     

     数据的分类汇总

    主要内容:数据太乱而不好进行分析,用SPSS软件对数据进行分类汇总,从而使数据更加直观,清晰。
    也就是说,对变量不同取值进行分组,进而求得相关统计量。
    解决的问题:有时我们感兴趣的是变量的不同取值内的相关统计信息,例如不同性别的均值、中位数等。

     

    结果:

    分类汇总

     函数可选的功能:

     重新编码为不同变量--年龄分组

    编码后的结果不会覆盖原有数据

     调用年龄信息并分成三组

     接下来进行年龄的分组:

     

     

     重新编码为相同变量

     编码后的结果会覆盖原有数据

    分类变量的类别合并--年龄段的合并 中年

     

     对分类变量进行合并,例如区间35-43 和 45-54 两个区间的数据一起合并成中年人

     

     转置

    数据框下的 变换

     

    111

  • 相关阅读:
    随题而学(二)多维数组转一维数组
    随题而学(一)
    谁能破解“无法定位程序输入点ucrtbase.abort与动态链接库api-ms-win-crt-runtime-l1-1-0.dll上”
    虚拟机8—tools安装失败
    win7介绍
    win xp安装
    Linux正则表达式,grep总结,sed用法
    Linux将用户添加到组的指令
    xxx is not in the sudoers file.This incident will be reported.的解决方法
    69-70连接查询
  • 原文地址:https://www.cnblogs.com/foremostxl/p/12184369.html
Copyright © 2011-2022 走看看