zoukankan      html  css  js  c++  java
  • 余弦相似度

    定义

    余弦相似度(cosine similarity),又称为余弦相似性。通过计算两个向量的夹角余弦值来评估他们的相似度。

    概念

    向量,是多维空间中有方向的线段,如下图是二维空间的两个向量:

     

    如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。
    要确定两个向量方向是否一致,可以用余弦定理计算向量的夹角。夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似。

    计算

    对于二维空间,根据向量点积公式可得:


    假设向量a、b的坐标分别为(x1,y1)、(x2,y2) 。则:


    设向量 A = (A1,A2,...,An),B = (B1,B2,...,Bn) 。推广到多维:

    例如计算N维向量,展开之后就是:

    应用
    最常见的应用就是计算文本相似度。将两个文本根据他们词,建立俩个向量,计算这两个向量的余弦值,就可以知道两个文本的相似度情况。

  • 相关阅读:
    代码操作
    购物车
    利息计算器
    生成海报
    知识库
    JavaScript处理字符串--参照W3C
    C#输入排序-冒泡
    enum举例
    C# 表达式计算器----数据结构
    C# 测试单词的完美度
  • 原文地址:https://www.cnblogs.com/relucent/p/4586236.html
Copyright © 2011-2022 走看看