zoukankan      html  css  js  c++  java
  • 数据探索

    三个方面来看数据探索:汇总统计、可视化和联机分析处理

    1、汇总统计是用数概括数据的性质(位置度量、散布度量)

    频率:一个属性值的频率是数据集里属性值发生次数的百分比

    众数:一个属性的众数是具有最高频率的值

    百分位数:对于连续的数据,考虑值集的百分位数更有意义

    位置度量:均值和中位数

    散布度量:极差和方差

    极差:最大值和最小值的差,

    方差:

    2、可视化

    以图形或表格形式显示信息

     可视化技术:直方图、二维直方图、箱图、散点图0、等高线图、矩阵图、平行坐标、星形图、Chernoff

    箱图:

    等高线图:

    常用于在空间网格上一个连续属性被度量的情况
    –他们把平面划分成相似值的区域
    –形成这些区域边界的等高线把相等的值连接起来
    –最常见的例子是显示地面位置海拔高度的等高线
    –也可以用来展示温度、降雨量、空气压力等等.
    例 海洋表面温度

    3、联机处理OLAP(数据仓库)

    OLAP运算:

    切片是通过对一个或多个维指定的值,从整个多维数组中选择一组单元。
    切块涉及通过指定属性值区间选择单元子集。这等价于由整个数组定义子数组。

    上卷和下钻:层次结构中使用到上卷和下钻,对于销售数据,可以按月聚集(上钻)每天的销售,也可以将月份数据分解(下钻)到日销售数据。

    层次结构,日期的层次结构,年月日,地点的层次结构,洲国城市等

  • 相关阅读:
    微信卡券领用中的问题
    abp的开发20180425
    typescript 接口的新认识
    Jquery构建Form表单Post提交数据的简单方法
    EF使用时异常:对一个或多个实体的验证失败。有关详细信息
    VS快捷键简单记录
    比较和排序 IComparable And IComparer
    wpf全局异常
    MailBee的简单使用
    json数据的获取(网络摘抄)
  • 原文地址:https://www.cnblogs.com/RR-99/p/10387295.html
Copyright © 2011-2022 走看看