zoukankan      html  css  js  c++  java
  • 描述性统计指标

    定义
    - 数值型数据
      - 出现频数最多的变量值
    - 品质型数据、单项式分组数据
      - 频数最多的组为众数组,该组的变量值(类型)就是众数
    - 组距式分组数据
      - 频数最多的组为众数组,通过公式求得众数
      - 公式计算不适用于组距不相等的数据

    适用范围
    - 位置代表值
    - 不会受极端值的影响
    - 适用于描述具有较多个值的变量,且变量值的分布有明显集中趋势的情况

    问题
    大数据背景下,是否需要使用组距式分组数据求众数?

    Python求众数的三种方法

     1 # 求众数的方法(数值型和品质型)
     2 import numpy as np
     3 from scipy import stats
     4 import pandas as pd
     5 
     6 numlist1 = [1,2,3,4,5,6,7,5,9,8,6,7,3,5] #数值型数据
     7 numlist2 = ['1','1','5', '3','3','2',] # 品质型数据
     8 
     9 # 方法一:numpy 模块- 适用于非负数据集
    10 counts = np.bincount( numlist2 ) #np.bincount方法返回一个长度为nums最大值的列表
    11 res = np.argmax(counts)
    12 print( '方法一求众数:', type(res), res )
    13 
    14 # 方法二:scipy模块
    15 res = stats.mode( numlist2 )
    16 print( '方法二求众数: ', type(res), res[0] )
    17 #问题:有多个众数时只返回一个值
    18 
    19 #方法三: pandas模块 - 可显示多个众数
    20 s = pd.Series(numlist2) #也可以构建为DateFrame结构
    21 res = s.mode()
    22 print( '方法三求众数: ', type(res), res.values )
    View Code

    运行结果

  • 相关阅读:
    MFC中ON_COMMAND,ON_MESSAGE,ON_NOTIFY的区别
    BIOS和CMOS的区别
    强大工具psexec工具用法简介
    Win10如何搭建FTP服务器以实现快速传输文件
    WPA-PSK无线网络破解原理及过程
    Wifi密码破解实战
    洋流.地球:四季只剩下冬天吗?
    天文.地球:最多的陨石有多大?
    德芙背后刻骨铭心的痛
    TTS
  • 原文地址:https://www.cnblogs.com/violetchan/p/10762996.html
Copyright © 2011-2022 走看看