zoukankan      html  css  js  c++  java
  • 欧式距离与余弦相似度

    1)概述

      两者都是评定个体间差异的大小的。欧几里得距离度量会受指标不同单位刻度的影响,所以一般需要先进行标准化,同时距离越大,个体间差异越大;

      空间向量余弦夹角的相似度度量不会受指标刻度的影响,余弦值落于区间[-1,1],越小。

    2)计算公式

      欧氏距离(也叫几里得离)公式:

      余弦相似度的计算公式如下:

    3)归一化

    一般来说,为了比较的方便,都会对得到的结果进行归一化处理:

    1)在欧氏距离公式中,取值范围会很大,一般通过如下方式归一化:

      sim = 1 / (1 + dist(X,Y))

    2)因为余弦值的范围是 [-1,+1] ,相似度计算时一般需要把值归一化到 [0,1],一般通过如下方式:

      sim = 0.5 + 0.5 * cosθ

    经过归一化处理以后,相似度全部落在了0和1之间,值越大,相似度越高。

    4)相似度度量的选择

      选择哪种度量方式,没有统一的结论,要依据处理数据的特点来进行确定,可以参考一下知乎上关于这个问题的讨论:http://www.zhihu.com/question/19640394

  • 相关阅读:
    团队介绍及项目介绍
    2017年秋季个人阅读计划
    软件需求分析阅读笔记
    Cookie学习总结
    暑期兴趣班第二天学习总结
    暑期兴趣班第一天学习总结
    个人总结
    第十六周工作总结
    第十五周工作总结
    第十四周工作总结
  • 原文地址:https://www.cnblogs.com/Jack-Lee/p/3654209.html
Copyright © 2011-2022 走看看