zoukankan      html  css  js  c++  java
  • 统计学学习笔记

    统计学学习笔记

    统计学学习笔记

    1 线性方程组

    2 变量,案例

    各种属性是变量(列) 每个个体是案例(行)

    案例的每个特征都可以成为变量,只有一个要求,必须是变化的 没有差异的是常量

    测量等级: 定类测量(按照不同分类) , 定量测量(有顺序) 定距测量, 定比测量

    测量等级的重要性

    2.1 Data matrix and frequency table

    移除不完整的数据,有些案例数据不完整,要清除掉

    2.2 图分布

    pie 饼图,占比清晰,但是数字并清晰 bar 柱状图,数字清晰

    分类过多用柱状图表现较好

    气泡图 直方图,有间隔 钟形分布 分布形状很重要,会影响后面采用的统计方法

    2.3 度量集中趋势

    众数mode 出现频率最高的值 pie使众数一目了然 中位数median 排序取中间数,偶数取中间2个数除以2 平均数mean 所有观测值之和除以观测数量

    定类测量无法计算中位数或平均数 定量测量 数值差异较大适合中位数(有异常值)

    2.4 描述分布

    范围range 最简单的变异度量,最大值与最小值的差 四分位距 分为4份,不受异常值影响 箱形图 箱体本身代表分布中心的50%,箱体高代表四分位距,箱内的水平线是中位数

    2.5 方差与标准差

    考虑了所有变量的数值

    方差variance 越大,数据越离散 标准差 standard deviations: sqrt(方差)

    z-score 标准化,(原值-平均值)/标准差 标准化得分

    3 相关性

    使用tables和graphs显示两个变量的关系,发现两个变量是否相关。

    定类或定序变量时使用列联表(contingency table)。显示两个定序或定类变量之间的关系。

    定量测量使用散点图,X轴自变量,Y轴因变量。

    皮尔森相关系数用一个数字表示两个变量线性相关的方向和强度。 散点图有助于总体评估相关性是强还是弱。皮尔森系数确定两个定性变量之间线性关系的方向和精确强度。 -1表示完全负相关,1表示完全正相关,0表示不相关。只能用于线性相关。

    4 回归分析

    找到描述变量相关分布的线,用这条线可以做预测。

    回归线就是最准确地贯穿平均值图中的各个点的直线。

    用线性方程对回归线描述: [ y = a + bx ] 求出系数。a代表y轴截距,即直线与y轴的交点。b代表斜率。 在R中使用lm创建线性模型。

    观察他人的模型时,一定要想一想他们的假设有何道理,以及他们是否忘记了某种假设。不合适的假设会使模型完全失效,甚至结果具有危险的欺骗性。

    实际结果与预测结果之间的偏差叫做机会误差。统计学上叫残差。

    用误差范围来描述主观概率。回归线的均方根误差,表示实际结果与典型预测结果之间可能有多大差距。

    将数据分拆为几个组称为分割。目的是管理误差。 零误差几乎就是没有任何预测能力。

    作者: ntestoc

    Created: 2018-12-12 Wed 22:20

  • 相关阅读:
    SCA与spring集成(在spring中开发SOA)
    jdbc 预编译处理 和spring返回自增主键值
    JavaScript异步编程__“回调地狱”的一些解决方案
    高性能滚动 scroll 及页面渲染优化
    程序员如何学习英语
    基于JavaScript实现验证码功能
    HTML上传文件的多种方式
    WEB前端开发规范文档
    JavaScript跨域总结与解决办法
    学习使用:before和:after伪元素
  • 原文地址:https://www.cnblogs.com/ntestoc/p/10111369.html
Copyright © 2011-2022 走看看