KNN距离函数的简单拓展 - 走看看

zoukankan html css js c++ java

KNN距离函数的简单拓展

KNN--k-NearestNeighbor可以是是分类法中最简单的算法了。

大致的idea为：找出k各跟新数据点最像的点，看这些点主要属于哪类，那么新数据点也就属于哪类的了。

其伪代码如下：

1. 拿到一个新的数据点

2. 计算其到training set中每个点的距离

3. 对距离排序

4. 对距离新数据点最近的前k个点的label数进行统计，出现次数最多的种类则为新数据点的label

在本篇随笔中，我们最要对距离函数进行讨论。

标准的kNN是使用二范数进行计算距离的，其实我们也还可以使用其他范数（1范数~无穷范数）等范数进行距离计算。

同时，我们也可以考虑参考SVM的kernel trick使用gaussian kernel来算距离。也可以考虑使用余弦函数算距离。

那么，实际应用中我们怎么选取合适的距离函数呢？

可以考虑是用k-fold的方法来试错得出。

简单的说，就是对使用以上各种距离函数的kNN：把data set分成k组。重复k次，每次选第k组为training set，剩下的为testing set。

计算总的错误数，然后排序，找到能使错误数最小的距离函数。

查看全文

相关阅读:
Mandriva Flash: 到处可用的口袋 Linux
Pidgin 衔接 Google Talk 的设置配备铺排
 5 个使 Vim 更易用的脚本
 Bash 运用才干大补贴
 915Resolution打点宽屏表现标题问题
 Linux下误删root目次
 惠普推出 Linux 迷你条记本
 weblogic8.1for linux ES3.0拆卸与设置
 英俊的 Linux Mini PC
Zonbu－售价 99 美元的袖珍电脑

原文地址：https://www.cnblogs.com/instant7/p/4033084.html

Copyright © 2011-2022 走看看