zoukankan      html  css  js  c++  java
  • 样本间相似度/距离的计算方法总结

    样本间相似度/距离计算方法总结

    标签(空格分隔): 机器学习


    闵可夫斯基距离

    Minkowski距离,也成欧式距离,计算方法为:

    (egin{equation} dist(X, Y) = (sum_{i=1}^{n}|x_{i}-y_{i}|^{p})^{frac{1}{p}} end{equation})

    Jaccard相似系数

    (egin{equation} J(A, B) = frac{|A cap B|}{|A cup B|} end{equation})

    余弦相似度(consine similarity)

    (egin{equation} cos( heta) = frac{X^{T}Y}{|X|·|Y|} = frac{sum_{i=1}^{n}X_{i}Y_{i}}{sqrt{sum_{i=1}^{n}X_{i}^{2}}sqrt{sum_{i=1}^{n}Y_{i}^{2}}} end{equation})

    Pearson相似系数

    (egin{equation} ho_{XY} = frac{cov(X, Y)}{sigma_{X}sigma_{Y}} = frac{E[(X-mu_{X})(Y-mu_{Y})]}{sigma_{X}sigma_{Y}} = frac{sum_{i=1}^{n}(X_{i}-mu_{X})(Y_{i}-mu_{Y})}{sqrt{sum_{i=1}^{n}(X_{i} - mu_{X})^{2}}sqrt{sum_{i=1}^{n}(Y_{i} - mu_{Y})^{2}}} end{equation})

    相对熵(K-L散度)

    (egin{equation} D(p||q) = sum_{i=1}^{n}p(x)logfrac{p(x)}{q(x)} end{equation})

    Hellinger距离

    (egin{equation} D_{alpha}(p||q) = frac{2}{1 - alpha^{2}}(1-int p(x)^{frac{1+alpha}{2}}q(x)^{frac{1-alpha}{2}}dx) end{equation})

    余弦相似度 VS Pearson相关系数

    可以看到,相关系数就是将x,y坐标向量平移到原点后的夹角余弦。
    所以说,在文档间求距离时可以使用夹角余弦,因为它表征了文档取均值化后的随机向量间的相关系数。

    在实际的应用中,我们可以根据应用的不同选择合适的距离度量标准。

  • 相关阅读:
    Qt5.3.2(VS2010)_调试_进入Qt源码
    Qt5.3.2(VS2010)_调试_遇到的问题
    Qt_QString::split测试
    Qt_QString.indesOf和mid测试
    激活_目标窗口
    DrawDibDraw__ZC测试
    【转】DrawDibDraw
    数学运算_基本_01
    get和post请求及进程和线程及cookie和session的区别
    Redis性能优化之redis.cnf配置文件
  • 原文地址:https://www.cnblogs.com/little-YTMM/p/5628365.html
Copyright © 2011-2022 走看看