k近邻 KNN

k近邻 KNN

KNN是通过测量对象的不同特征值之间的距离进行分类。它的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别，其中K通常是不大于20的整数。

KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

对象相似性衡量

在KNN中，将通过计算各个对象之间的距离来衡量其之间的相似性。

（1）欧几里得距离（欧氏距离）

（2）曼哈顿距离（城市街区距离）

（3）切比雪夫距离

（4）Jaccard相似系数与Jaccard距离

给定两个集合A,B，Jaccard系数定义为A与B交集的大小与A与B并集的大小的比值。当集合A，B都为空时，定义为1。

Jaccard距离用于描述集合之间的不相似度。Jaccard 距离越大，样本相似度越低。

（5）相关系数

其中，表示协方差，表示方差。

（6）马氏距离

其中，是协方差矩阵。

其表示数据的协方差距离，是一种与尺度无关的度量方式。其会将样本的各个特征标准化，再计算样本间的距离。

（7）夹角余弦

余弦相似度使用特征空间两个特征向量夹角的余弦值作为衡量差异的大小。余弦值越接近1，说明特征向量夹角越接近0°，两个特征向量越相似。

计算过程

①得到训练样本及其对应类别。

②计算某个待测样本与各个训练样本之间的距离

③对距离进行升序

④考察前k个距离中，对应训练样本出现次数最多的为该待测样本的距离。

查看全文

相关阅读:
System Idle Process SYSTEM占用CPU
apache和nginx的rewrite的区别
 解决file_get_contents failed to open stream: HTTP request failed! 错误
 个人总结大型高并发高负载网站的系统架构(转)
代码的抽象三原则
 mysqldump导入某库某表的数据
 mysql中insert into和replace into以及insert ignore用法区别
 【原创】学习日记4：nginx负载均衡（二）2012.01.08
【原创】学习日记1：redis安装以及lnmp环境搭建2012.01.06
mysql优化 mysql.ini优化

原文地址：https://www.cnblogs.com/ivan-count/p/10515764.html

对象相似性衡量

（1）欧几里得距离（欧氏距离）

（2）曼哈顿距离（城市街区距离）

（3）切比雪夫距离

（4）Jaccard相似系数与Jaccard距离

（5）相关系数

（6）马氏距离

（7）夹角余弦

计算过程