zoukankan      html  css  js  c++  java
  • 【数据挖掘】相似性和相异性度量

    一、基础概念

    1. 相似度(similarity): 两个对象相似程度的数值度量,通常相似度是非负的,在[0,1]之间取值

    相异度(disimilarity): 两个对象差异程度的数值度量,通常也是非负的,在[0,1]之间取值,0到$infty$也很常见

    我们使用邻近度(proximity)表示相似度或者相异度: 常见的邻近度有:相关,欧几里得距离,Jaccard相似性,余弦相似性. 前两者适用于时间序列这样的稠密数据,后两者适用于文本这样的稀疏数据.

    2. 区间变换: d' = (d-dmin_d)/(max_d - min_d)

    3. 具有以下三个性质的测度称为度量(metric)

    (1) 非负性 

    (2) 对称性

    (3) 三角不等式

    二、常见相异度和相似性度量函数

    1. 距离Minkowski distance

    $$d(x,y) = (sum_{k=1}^N| x_k - y_k |^r)^{1/r}$$

    1-normal distance/Manhattan distance: $sum_{i=1}^n|x_i - y_i|$

    2-normal distance/Euclidean distance: $(sum_{i=1}^n|x_i - y_i|^2)^{1/2}$

    p-normal distance: $d(x,y) = (sum_{k=1}^N| x_k - y_k |^p)^{1/p}$

    $infty$-nromal distance/Chebyshev distance: $lim_{p ightarrow infty} (sum_{k=1}^N| x_k - y_k |^p)^{1/p}$

    2. 简单匹配系数(Simple Matching Coefficient): SMC = 值匹配属性个数/属性个数 =  $ frac{f_{11} + f_{00}}{f_{01} + f_{10} + f_{11} + f_{00}} $

    3. Jaccard系数 J = 匹配个数/属性个数 = $frac{f_{11}}{f_{01} + f_{10} + f_{11}} $

    4. 余弦相似度 $cos(x,y) = frac{x cdot y}{||x|| ||y||}$(文档相似度中最常用的度量)

    5. 广义Jaccard系数/Tanimoto系数

    6. 相关性

    Pearson's correlation: $corr(x,y) = frac{cov(x,y)}{std(x)*std(y)} = frac{s_xy}{s_x s_y}$

    7. Bregman散度

    $D(x,y) = phi(x) - phi(y) <Delta phi(y),(x-y)> $

  • 相关阅读:
    Html-浅谈如何正确给table加边框
    如何在移动设备上调试html5开发的网页
    swiper嵌套小demo(移动端触摸滑动插件)
    移动端如何用swiper实现导航栏效果
    background-color:transparent
    点击按钮 发送短信验证码后60秒倒计时
    placeholder的样式设置
    linux 定时任务crontab
    laravel学习一
    centos 7安装jdk
  • 原文地址:https://www.cnblogs.com/vincentcheng/p/7258599.html
Copyright © 2011-2022 走看看