zoukankan      html  css  js  c++  java
  • 异常值检验实战3_NBA球员表现稳定性分析

     机器学习_深度学习_入门经典(博主永久免费教学视频系列)

    https://study.163.com/course/courseMain.htm?courseId=1006390023&share=2&shareId=400000000398149

    微信扫二维码,免费学习更多python资源

    转载https://www.jianshu.com/p/bdcf0407979a

    统计概率思维-描述统计分析

    1# 为什么要学统计学?

    1. 人工智能的基础知识
    2. 投资领域的必备知识
    3. 时代的入口

    2# 描述统计分析
    2.1 描述统计学定义

    ● 将复杂的数据集简化,总结出可以起到高度概括、有代表性、能够起到描述作用的数字。

    2.2 描述统计常用指标

    平均值

    ● 例子:A,B,C,D收入分别为10,11,12,13万元,人均收入为(10+11+12+13)/4=11.5万元

    但是也有缺点,就是当数据中有异常值(极大或者极小)则用平均值结果来描述数据集是不准确的,如把D的收入替换成10亿元,那么人均收入约等于29000万元,虽然说这样的描述没有错误,但是不能正确体现数据集的特征(A,B,C的收入没有那么高)。

    中位数

     
     

    ● 中位数计算方法:

    1. 按从小到大顺序排列数据
    2. 计算中间位置(假设有N个数,如果N是奇数则是中间数值,如果N是偶数则是中间两个数的平均值)

    ● 例子:找出5,7,3,8的中位数

    1. 从大到小排列3,5,7,8
    2. 计算中间位置,因为N=4,则其中位数是(5+7)/2=6

    四分位数

     

    ](https://upload-images.jianshu.io/upload_images/2352533-320a346b0fd6f977.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

    ● 四分位数的计算方法:

    1. 找到中位数(叫做Q2)
    2. 求出中位数左边部分的中位数(叫做Q1,成为下四分位数)
    3. 求出中位数右边部分的中位数(叫做Q3,成为上四分位数)

    ● 可视化例子(箱线图):


     
     

    ● 可视化例子2(比较不同类型数据集的数据分布情况)


     
     

    横轴x是对数据分析师需求top6的城市,纵轴y是薪资情况。
    结论:深圳的工资水平较高,行业顶薪也是位居六大城市之首。

     
     

    横轴x是对数据分析师参与工作年数,纵轴y是薪资情况。
    结论:数据分析师的薪资水平随着工作年限增长,在3-5年阶段增长、跨度尤为明显。

    ● 识别异常值(极大或者极小的值)
    处理方法:

    1. 对错误数据进行修正
    2. 对错误数据删除
    3. 确认出异常值符合现实以后,选择保留

    ● Turkey‘s test

    1. 最小估计值:Q1-k(Q3-Q1)
    2. 最大估计值:Q3+k(Q3-Q1)
    3. 如果K=1.5 中度异常;K=3 极度异常


       
       

    案例(识别出温度中的异常值):


     
     

    ● 总结箱线图(四分位数)优点:避免受到异常值的影响;通过turkey test识别异常值
    ● 总结箱线图(四分位数)的局限:无法告诉数据集的波动

    标准差

    ● 概念打通
    标准差就是计算出数据相对于平均值的波动大小,也就是衡量出一组数据的离散程度(波动大小)

    离散程度=变异性=波动大小

    ● 标准差计算方法

    方差算法:
    u等于一组数据的平均值


     
     

    也可以是下面的式子:


     
     

    Ps:这里用平方的原因是有时候数字和平均数的偏离是反向偏离(负数),如果不进行平方可能就和正向偏离抵消。

    标准差算法:


     
     

    ● 案例分析(哪个nba球员更加稳定):

     
     

     
     

    可以推到出结论:球员1加内特的发挥更加稳定,球员2库里的发挥波动比较大

    ● 标准差需要注意的两个问题

    1. 标准差的单位
      和前面引入数据的单位是相同的
    2. 标准差是大一点好还是小一点好
      要看具体的数据,如生产零件那么标准差小好;公司的工资分布应该要是比较大的标准差好

    标准分

    ● 标准分的定义
    选定值和平均值相差多少个的标准差


     
     

    如果标准分=0,那就就是=平均值,标准分>0则是>平均值

    ● 计算方法
    使用平均值u和标准差σ计算出来


     
     

    ● 案例(摩托罗拉6σ管理)
    距离平均值6个标准差σ,相当于6个标准差就是每百万件抽样中,有3.4个不合格

    总结


     

     




     
     
     
  • 相关阅读:
    was控制台误禁用后的恢复启用办法
    Linux升级内核教程(CentOS7)
    ifcfg-eth配置详解(CentOS6)
    CentOS7和CentOS6的区别
    ftp/sftp定时自动上传文件脚本(CentOS)
    AIX安装JDK1.7教程
    PE文件结构解析
    ffmpeg+libmp3lame库源码安装教程(CentOS)
    kafka安装使用教程
    Weblogic禁用SSLv3和RC4算法教程
  • 原文地址:https://www.cnblogs.com/webRobot/p/11965163.html
Copyright © 2011-2022 走看看