KNN原理小结 - 走看看

zoukankan html css js c++ java

KNN原理小结
　　K近邻法(K-nearest neighbors,KNN)既可以分类，也可以回归。

　　KNN做回归和分类的区别在于最后预测时的决策方式。KNN做分类时，一般用多数表决法；KNN做回归时，一般用平均法。

　　scikit-learn中只使用了蛮力实现(brute-force)，KD树(KDTree)，球树(BallTree)，所以这里只讨论这几种算法。

1. KNN算法三要素

　　KNN算法主要考虑：k值的选取，距离度量方式，分类决策规则。

　　当K值较小，训练误差减小，泛化误差增大，模型复杂容易过拟合；当K值较大，泛化误差减小，训练误差增大，模型简单使预测发生错误（一个极端，K等于样本数m，则完全没有分类，此时无论测试集是什么，结果都属于训练集中最多的类）。

　　距离度量方式：欧式距离，曼哈顿距离，闵可夫斯基距离（欧式距离是闵可夫斯基距离在 p=2 的特例，曼哈顿距离是 p=1 的特例）。

2. KNN算法蛮力实现

　　计算预测样本和所有训练集中的样本距离，然后计算出最小的K个距离即可，接着多数表决，做出预测。这种方法简单，在样本量少，样本特征少的时候有效。

3. KNN算法之KD树实现原理

　　KD树就是K个特征维度的树。KNN中的K代表最近的K个样本，KD树中的K代表样本特征的维数。为了防止混淆，后面称特征维数为n。　　

　　KD树算法包括3步：第一建树，第二搜索最近邻，第三预测。

3.1 KD树的建立　　

KD树划分思想：

kd树实质是二叉树，其划分思想与CART树一致，即切分使样本复杂度降低最多的特征。kd树认为特征方差越大，则该特征的复杂度亦越大，优先对该特征进行切分，切分点是所有实例在该特征的中位数。重复该切分步骤，直到切分后无样本则终止切分，终止时的样本为叶节点。

具体步骤：

KD树的建立是从 m 个样本中的 n 维特征中，分别计算 n 个特征的取值的方差，用方差最大的第 K 维特征 n_k 作为根节点。选择特征 n_k 取值的中位数 n_kv 对应的样本作为划分点，对于所有第 K 维特征的取值小于 n_kv 的样本，划入左子树，对于第 K 维特征的取值大于等于 n_kv 的样本，划入右子树，对于左右子树，采用和刚才同样的办法找方差最大的特征来做更节点，递归生成KD树。

　　我们有二维样本6个，{(2,3)，(5,4)，(9,6)，(4,7)，(8,1)，(7,2)}，构建KD树步骤：
1. 找到划分的特征。6个数据点在 x，y维度上的数据方差分别为6.97，5.37，所以在 x 轴上方差更大，用第1维特征建树。
2. 确定划分点（7,2）。根据根据x维上的值将数据排序，6个数据的中值(所谓中值，即中间大小的值)为7，所以划分点的数据是（7,2）。这样，该节点的分割超平面就是通过（7,2）并垂直于：划分点维度的直线x=7；
3. 确定左子空间和右子空间。分割超平面x=7将整个空间分为两部分：x<=7的部分为左子空间，包含3个节点={(2,3),(5,4),(4,7)}；另一部分为右子空间，包含2个节点={(9,6)，(8,1)}。
4. 用同样的办法划分左子树的节点{(2,3),(5,4),(4,7)}和右子树的节点{(9,6)，(8,1)}。最终得到KD树。
　　

　　KD树(绿色为叶子节点，红色为节点和根节点)：

3.2 KD树搜索最近邻

　　生成KD树后，可以预测测试集里面的样本目标点了。对于每一个目标点，首先在KD树里面找到包含目标点的叶子节点。以目标点为圆心，目标点到叶子节点样本实例的距离为半径，得到一个超球体，最近邻的点一定在这个超球体内部。然后返回叶子节点的父节点，检查另一个子节点包含的超矩形体是否和超球体相交，如果相交就到这个子节点寻找是否有更加近的近邻，有的话更新近邻。如果不想交，直接返回父节点的父节点，在另一个子树继续搜索最近邻。当回溯到根节点时，算法结束。此时保存的最近邻节点就是最终的最近邻。

　　从上面可以看出，KD树划分后可以大大减少无效的最近邻搜索，很多样本点由于所在的超矩形体和超球体不相交根本不需要计算距离。大大节省计算时间。

　　用3.1建立的KD树，来看对点(2，4.5)找最近邻的过程。

　　先进行二叉查找，先从（7,2）查找到（5,4）节点，在进行查找时是由y = 4为分割超平面的，由于查找点为y值为4.5，因此进入右子空间查找到（4,7），形成搜索路径<(7,2)，(5,4)，(4,7)>，但（4,7）与目标查找点的距离为3.202，而（5,4）与查找点之间的距离为3.041，所以（5,4）为查询点的最近点；以（2，4.5）为圆心，以3.041为半径作圆，如下图所示。可见该圆和y = 4超平面交割，所以需要进入（5,4）左子空间进行查找，也就是将（2,3）节点加入搜索路径中得<(7,2)，(2,3)>；于是接着搜索至（2,3）叶子节点，（2,3）距离（2,4.5）比（5,4）要近，所以最近邻点更新为（2，3），最近距离更新为1.5；回溯查找至（5,4），直到最后回溯到根结点（7,2）的时候，以（2,4.5）为圆心1.5为半径作圆，并不和x = 7分割超平面交割，如下图所示。至此，搜索路径回溯完，返回最近邻点（2,3），最近距离1.5。

　　对应的图如下：

3.3 KD树预测

　　在KD树搜索最近邻的基础上，我们选择到了第一个最近邻样本，就把它置为已选。在第二轮中，我们忽略置为已选的样本，重新选择最近邻，这样跑k次，就得到了目标的K个最近邻，然后根据多数表决法，如果是KNN分类，预测为K个最近邻里面有最多类别数的类别。如果是KNN回归，用K个最近邻样本输出的平均值作为回归预测值。

　　
查看全文

相关阅读:
call me
互相关注请留言！我也会及时关注你的哦！
tomcat单机多实例
 powerdesigner导出rtf
IDEA快捷键
 SQLyog Enterprise Trial 试用期问题
 ubuntu 16.04 忘记root密码
 使用Xshell连接ubuntu
观察者模式（Observer）和发布（Publish/订阅模式（Subscribe）的区别
 jvm方法栈

原文地址：https://www.cnblogs.com/keye/p/10956413.html