zoukankan      html  css  js  c++  java
  • 常用的几种距离的优劣

    欧式距离

    欧式距离想必很熟悉了,就是两个特征向量长度平方和的平方根嘛

    优势:简单直观

    劣势:若某些特征比其他特征值大很多,精度就会比较差。此外,若有很多特征值为0,也就是所谓的稀疏矩阵,结果也不准确。总之,稳定性不是很好

    曼哈顿距离

    曼哈顿距离是两个特征在标准坐标系中绝对轴距之和(没有使用平方距离),又称街区距离。

    优势:在某些情况下具有更高的稳定性

    劣势:若数据集中某些特征值过大,这些特征会掩盖其他特征间的近邻关系

    余弦距离

    余弦距离指的是特征向量夹角的余弦值,忽略了特征向量的长度

    优势:更适合解决异常值和数据稀疏问题,适用于特征向量很多的情况

    劣势:丢弃了向量长度所包含的在某些场景下可能会很有用的一些信息

    三种距离更直观的表示见下图:

    参考自python数据挖掘入门与实践

  • 相关阅读:
    HTML5 WEB SQL
    Android-day04
    Android-day03
    Android-day02
    Android-day01
    java.lang.ClassNotFoundException: org.apache.jsp.index_jsp
    事务管理、整合Junit、整合Web、SSH整合
    AOP、AspectJ、JdbcTemplate
    Spring基础
    Hibernate对连接池的支持
  • 原文地址:https://www.cnblogs.com/Hyacinth-Yuan/p/8384664.html
Copyright © 2011-2022 走看看