zoukankan      html  css  js  c++  java
  • 统计学小组

    数据的图标展示

    1.数据的预处理

    数据的预处理是在对数据分类或分组钱所做的必要处理,包括:数据审核、筛选、排序。

    1.1数据审核

    数据完整性:检查应调查的单位或个体是否有遗漏,所有的调查项目是否填写齐全。
    数据准确性:检查数据是否有错误,是否存在异常值。对于异常值要仔细甄别。

    二手数据:实用性、时效性识别。

    1.2数据筛选

    找出符合特定条件的某类数据
    根据单一条件筛选

    import  pandas as pd
    df1 = pd.read_csv('three_test.csv')
    df1[df1['统计学成绩']>75]
    
       姓名  统计学成绩  数学成绩  英语成绩  经济学成绩
    1  王翔     91    75    95     94
    3  李华     81    60    86     64
    5  宋媛     83    72    66     71
    7  陈风     87    76    92     77
    

    根据多个条件筛选

    import  pandas as pd
    df1 = pd.read_csv('three_test.csv')
    df1[(df1['统计学成绩']>75) & (df1['数学成绩']>75)]
       姓名  统计学成绩  数学成绩  英语成绩  经济学成绩
    7  陈风     87    76    92     77
    

    1.3数据排序

    按一定顺序将数据排列

    df = df.sort_values('统计学成绩',ascending = False)
    df
       姓名  统计学成绩  数学成绩  英语成绩  经济学成绩
    1  王翔     91    75    95     94
    7  陈风     87    76    92     77
    5  宋媛     83    72    66     71
    3  李华     81    60    86     64
    4  赵颖     75    96    81     83
    6  袁方     75    58    76     90
    0  张松     69    68    84     86
    2  田雨     54    88    67     78
    

    2.品质数据的整理与展示

    2.1频数与频数分布

    频数:是落在某一特定类别或组中的数据个数
    频数分布:把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来

    2.2分类数据的图示

    1.条形图
    2.帕累托图
    3.饼图
    4.环形图

    3.数值型数据的整理与展示

    3.1数据分组:

    采用组距分组时,需要遵循不重不漏的原则,
    分组之后的变量值x满足 a<=x<b(左闭右开)
    1.分组数据:直方图
    2.未分组数据:茎叶图和箱线图
    3.时间序列数据:线图
    4.多变量数据图示:散点图、气泡图、雷达图

    4.合理使用图表

    From 统计学Statistics 学习小组:由【木东居士】公众号 定期发起
    对数据感兴趣的伙伴们 可一同在此交流学习

    时间紧张,部分地方还缺少代码实现,后期再补充。

  • 相关阅读:
    质量属性的六个常见属性场景——以《淘宝网》为例
    软件架构师如何工作——架构漫谈读后感
    机器学习——决策树
    使用八股搭建手写数据集神经网络
    大三寒假学习进度笔记(三十)
    大三寒假学习进度笔记(二十九)
    大三寒假学习进度笔记(二十八)
    大三寒假学习进度笔记(二十七)—— 强化学习
    含e最多的单词
    数据挖掘复习1
  • 原文地址:https://www.cnblogs.com/youchi/p/11789742.html
Copyright © 2011-2022 走看看