zoukankan      html  css  js  c++  java
  • 《数据挖掘:概念与技术》学习笔记2

      认识数据

    1、数据属性(attribute,可以等同于维dimension、特征feature以及变量variable)

    数值属性里面可以求均值(mean平均值)、中位数(median中间值)以及众数(mode最常见的值,一个叫单峰的unimodal,两个双峰bimodal,三个叫三峰trimodal,多个叫多峰的multimodal)。这三个数可以表示中心趋势度量。

    涉及一个属性的数据分布叫单变量的univariate,两个的叫bivariate。

    (1)标称属性nominal attribute

    符号或名称,类别、编码或者状态,可看做分类的categorical或枚举的enumeration

    (2)二元属性binary attribute,nominal attribute的一种,取值0或1,布尔属性

    (3)序数属性ordinal attribute

    值之间具有有意义的序或者秩评定ranking

    以上三个都是定性属性。

    (4)数值属性numeric attribute

    a.区间标度interval-scaled没有真正的0点,例如时间

    b.比例标度ratio-scaled有0点,计数的数

    (5)离散属性和联系属性

    度量数据散布:

    极差range是最大值max与最小值min之差

    分位数quantile是按固定间隔将数据划分成大小相等的连贯集合。

    常用的五数概括five-number summary由最小值Minimum,四分位数Q1,Median,Q3,Maximum组成。

    方差variance是与平均值的差的平方的和,标准差standard deviation是variance的平方根。

  • 相关阅读:
    这是个神奇的博客
    Tomcat Access Log 的格式
    CA证书
    记一次性能调优
    web系统能力培养计划
    金融知识学习
    读《华为区块链白皮书》
    马未都说收藏:陶瓷篇(8、9)元青花、永宣青花
    阿里历年面试试题
    回车(CR)换行(LF)的来历及区别
  • 原文地址:https://www.cnblogs.com/recordstudy/p/6443040.html
Copyright © 2011-2022 走看看