zoukankan      html  css  js  c++  java
  • 数据挖掘复习1

    数据挖掘复习

    数据挖掘的功能:描述 数据中的一般性质和预测在当前数据进行归纳

    数据的统计描述方式:

    均值(mean)

    权重:所有加权/总权重

    数据的中心趋势度量

    中位数(Median)数据集规模大开销大

    或众数(mode)

    中列数(MAX+MIN/2)

    数据的离散程度

    极差(MAX=MIN)最大的离散程度

    五数概括:中位数,四分位数Q1Q23最大 最小观测值

    最小观测值:>=Q1-1.5IQR

    最大观测值:<=Q1-1.5IQR

    IQR=(Q3-Q2)

    方差 标准差是方差的平方

    数据相似性计算

    标称属性

    d(i,j)=不相同的属性个数/总属性数

    二元属性相似性: 对称:对角/所有

    非对称:对角/(对角+左上)

    数值属性相似性: 欧式距离:

    image-20210624161854122

    曼哈顿距离: d(i,j)=|xi1-xj1|+|xi2-xj2|+....+ |xin-xjn|

    切比雪夫距离(上确界距离)就是曼哈顿距离里面挑个最大的

    闵可夫斯基距离(一组距离)

    image-20210624163548932

    标准化欧氏距离:

    image-20210624163704647

    序值属性相似性

    支持度:占比和模式有用性

    置信度:可信度 规则确定度



  • 相关阅读:
    真正的e时代
    在线手册
    UVA 10616 Divisible Group Sums
    UVA 10721 Bar Codes
    UVA 10205 Stack 'em Up
    UVA 10247 Complete Tree Labeling
    UVA 10081 Tight Words
    UVA 11125 Arrange Some Marbles
    UVA 10128 Queue
    UVA 10912 Simple Minded Hashing
  • 原文地址:https://www.cnblogs.com/kubopiy/p/14976971.html
Copyright © 2011-2022 走看看