zoukankan      html  css  js  c++  java
  • 《数据挖掘:概念与技术》学习笔记2

      认识数据

    1、数据属性(attribute,可以等同于维dimension、特征feature以及变量variable)

    数值属性里面可以求均值(mean平均值)、中位数(median中间值)以及众数(mode最常见的值,一个叫单峰的unimodal,两个双峰bimodal,三个叫三峰trimodal,多个叫多峰的multimodal)。这三个数可以表示中心趋势度量。

    涉及一个属性的数据分布叫单变量的univariate,两个的叫bivariate。

    (1)标称属性nominal attribute

    符号或名称,类别、编码或者状态,可看做分类的categorical或枚举的enumeration

    (2)二元属性binary attribute,nominal attribute的一种,取值0或1,布尔属性

    (3)序数属性ordinal attribute

    值之间具有有意义的序或者秩评定ranking

    以上三个都是定性属性。

    (4)数值属性numeric attribute

    a.区间标度interval-scaled没有真正的0点,例如时间

    b.比例标度ratio-scaled有0点,计数的数

    (5)离散属性和联系属性

    度量数据散布:

    极差range是最大值max与最小值min之差

    分位数quantile是按固定间隔将数据划分成大小相等的连贯集合。

    常用的五数概括five-number summary由最小值Minimum,四分位数Q1,Median,Q3,Maximum组成。

    方差variance是与平均值的差的平方的和,标准差standard deviation是variance的平方根。

  • 相关阅读:
    104.Maximum Depth of Binary Tree
    103.Binary Tree Zigzag Level Order Traversal
    102.Binary Tree Level Order Traversal
    101.Symmetric Tree
    100.Same Tree
    99.Recover Binary Search Tree
    98.Validate Binary Search Tree
    97.Interleaving String
    static静态初始化块
    serialVersionUID作用
  • 原文地址:https://www.cnblogs.com/recordstudy/p/6443040.html
Copyright © 2011-2022 走看看