zoukankan      html  css  js  c++  java
  • 【读书笔记-数据挖掘概念与技术】认识数据

    属性分类:

    • 标称属性(定性)
    • 二元属性(定性)
    • 序数属性(定性)
    • 数值属性(定量)

    标称属性——“与名称相关”,它的值是一些符号或事物的名称。

    eg.头发颜色(黑色、棕色、淡黄色、红色)

    婚姻状况(单身、已婚、离异、丧偶)

    二元属性——标称属性的一种,只有两个类别或状态:0或1(布尔属性)。

    有对称与非对称之分,对称——两种状态具有同等价值并且携带相同的权重eg.性别

    非对称——其状态的结果不是同样重要eg.化验结果(阴性0、阳性1)

    序数属性——它的值之间具有有意义的序或秩评定,但相继值之间的差是未知的。

    eg.成绩(A+、A、A-、B+、B、……)

    评价(0——差评、1——中性、2——好评)

    数值属性——它的值是可度量的量,用整数或实数值表示。可以是去见标度的或比率标度的

    区间标度——eg.温度(5°、10°、15°、……)

    比率标度——eg.重量、高度、速度、货币量

    机器学习领域分类:

    • 离散属性
    • 连续属性

    ————————————————————————————————————————————————————————————————————————————

    数据的基本统计描述

    中心趋势度量——均值、中位数、众数

    度量数据散布——极差、四分位数、方差、标准差、四分位数极差

    • 极差:最大数-最小数
    • 四分位数:即统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的得分就是四分位数。

    第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。 Q1的位置= (n+1) × 0.25
    第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。 Q2的位置= (n+1) × 0.5
    第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。 Q3的位置= (n+1) × 0.75
    第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range,IQR)。

    • 四分位极差(IQR)=Q3-Q1
    • 五数概括——中位数Q2、四分位数Q1和Q3、最大值和最小值
    • 盒图(箱型图)——通过盒图,在分析数据的时候,盒图能够有效地帮助我们识别数据的特征:
      1、直观地识别数据集中的异常值(查看离群点)。
      2、判断数据集的数据离散程度和偏向(观察盒子的长度,上下隔间的形状,以及胡须的长度)。

    • 方差&标准差

    图形显示

    • 分位数图——用于观察单变量数据分布

    这里的单变量就是:单价

    • 分位数-分位数图或q-q图——观察一个分布到另一个分布是否有漂移

    在统计学中,QQ图[1] (Q代表分位数Quantile)是一种通过画出分位数来比较两个概率分布的图形方法。首先选定区间长度,点(x,y)对应于第一个分布(x轴)的分位数和第二个分布(y轴)相同的分位数。因此画出的是一条含参数的曲线,参数为区间个数。
    如果被比较的两个分布比较相似,则其QQ图近似地位于y = x上。如果两个分布线性相关,则QQ图上的点近似地落在一条直线上,但并不一定是y = x这条线。QQ图同样可以用来估计一个分布的位置参数。
    QQ图可以比较概率分布的形状,从图形上显示两个分布的位置,尺度和偏度等性质是否相似或不同。它可以用来比较一组数据的经验分布和理论分布是否一致。[2]另外,QQ图也是一种比较两组数据背后的随机变量分布的非参数方法。一般来说,当比较两组样本时,QQ图是一种比直方图更加有效的方法,但是理解QQ图需要更多的背景知识。

    • 散点图与数据相关——两个数值变量之间看上去是否存在联系

    ————————————————————————————————————————————————————————————————————————————

    数据可视化

    • 基于像素
    • 几何投影
    • 基于图符
    • 层次
    • 复杂对象的可视化

    ————————————————————————————————————————————————————————————————————————————

    度量数据的相似性和相异性(临近度度量)

    SouthEast

    不同类别的数据,d(i,j)有不同的计算方法。

    • 标称属性

    • 二元属性

    • 数值属性——闵可夫斯基距离(Minkowski distance)、欧几里得距离、曼哈顿距离

    • 序数属性

    得到:

    SouthEast[7]

    • 混合类型属性——基于test1、2、3,取平均
    • 相似性评估:余弦相似性(用于比较文档)、Tanimoto系数
  • 相关阅读:
    使用Visual Studio 2012 开发 Html5 应用
    模块化与MVC
    跨站脚本攻击(Cross‐Site Scripting (XSS))
    C#程序开发中经常遇到的10条实用的代码
    运用DebugDiag诊断ASP.Net异常
    前端MVVM框架avalon
    TOGAF架构开发方法(ADM)之需求管理阶段
    C#4.0中var和dynamic的区别
    hive 不同用户 权限设置 出错处理
    Delphi中类的运行期TypeInfo信息结构说明
  • 原文地址:https://www.cnblogs.com/XBWer/p/4331254.html
Copyright © 2011-2022 走看看