zoukankan      html  css  js  c++  java
  • 数据挖掘复习1

    数据挖掘复习

    数据挖掘的功能:描述 数据中的一般性质和预测在当前数据进行归纳

    数据的统计描述方式:

    均值(mean)

    权重:所有加权/总权重

    数据的中心趋势度量

    中位数(Median)数据集规模大开销大

    或众数(mode)

    中列数(MAX+MIN/2)

    数据的离散程度

    极差(MAX=MIN)最大的离散程度

    五数概括:中位数,四分位数Q1Q23最大 最小观测值

    最小观测值:>=Q1-1.5IQR

    最大观测值:<=Q1-1.5IQR

    IQR=(Q3-Q2)

    方差 标准差是方差的平方

    数据相似性计算

    标称属性

    d(i,j)=不相同的属性个数/总属性数

    二元属性相似性: 对称:对角/所有

    非对称:对角/(对角+左上)

    数值属性相似性: 欧式距离:

    image-20210624161854122

    曼哈顿距离: d(i,j)=|xi1-xj1|+|xi2-xj2|+....+ |xin-xjn|

    切比雪夫距离(上确界距离)就是曼哈顿距离里面挑个最大的

    闵可夫斯基距离(一组距离)

    image-20210624163548932

    标准化欧氏距离:

    image-20210624163704647

    序值属性相似性

    支持度:占比和模式有用性

    置信度:可信度 规则确定度



  • 相关阅读:
    Vue生命周期
    脚本生命周期
    音频
    光照系统
    InstantOC(对象渲染---游戏优化)
    kafka单机环境配置以及基本操作
    mysql 锁机制
    java.math.BigDecimal类multiply的使用
    去掉返回的json中特殊字符
    TheadLocal与synchronized
  • 原文地址:https://www.cnblogs.com/kubopiy/p/14976971.html
Copyright © 2011-2022 走看看