zoukankan      html  css  js  c++  java
  • KNN距离函数的简单拓展

    KNN--k-NearestNeighbor可以是是分类法中最简单的算法了。

    大致的idea为:找出k各跟新数据点最像的点,看这些点主要属于哪类,那么新数据点也就属于哪类的了。

    其伪代码如下:

    1. 拿到一个新的数据点

    2. 计算其到training set中每个点的距离

    3. 对距离排序

    4. 对距离新数据点最近的前k个点的label数进行统计,出现次数最多的种类则为新数据点的label

    在本篇随笔中,我们最要对距离函数进行讨论。

    标准的kNN是使用二范数进行计算距离的,其实我们也还可以使用其他范数(1范数~无穷范数)等范数进行距离计算。

    同时,我们也可以考虑参考SVM的kernel trick使用gaussian kernel来算距离。也可以考虑使用余弦函数算距离。

    那么,实际应用中我们怎么选取合适的距离函数呢?

    可以考虑是用k-fold的方法来试错得出。

    简单的说,就是对使用以上各种距离函数的kNN:把data set分成k组。重复k次,每次选第k组为training set,剩下的为testing set。

    计算总的错误数,然后排序,找到能使错误数最小的距离函数。

  • 相关阅读:
    bzoj 4610 Ceiling Functi
    uva 01350
    uva 12075
    uva 01393
    uva 11038
    CF 496E
    CF 496D
    poj 3167
    hdu 4622
    spoj 7258
  • 原文地址:https://www.cnblogs.com/instant7/p/4033084.html
Copyright © 2011-2022 走看看