距离度量
k值选择
分类决策规则:
KD树
K近邻并没有显式的学习过程,也就是不需要对训练集进行学习。预测过程中直接遍历预测点与所有点的距离,并找到最近的K个点即可。找到K个最近点后,使用多数表决(即投票)的方式确定预测点的类别。
kd树作为binary search tree的高维存在,举个栗子:
另外附一张图,求S的球体内潜在包含的点,并通过多数原则确认S的类别
在应用过程中,最主要是需要对kd树的搭建,解决最主要的高维特征间求距离慢的问题。其次对topK排序进行优化,只需求得Min top k 即可