zoukankan      html  css  js  c++  java
  • KNN

    k-近邻(kNN, k-NearestNeighbor)算法是一种基本分类与回归方法

    优缺点:

    优点:精度高、对异常值不敏感、无数据输入假定
    缺点:计算复杂度高、空间复杂度高
    适用数据范围:数值型和标称型

    流程伪代码:

    对于每一个在数据集中的数据点:
        计算目标的数据点(需要分类的数据点)与该数据点的距离
        将距离排序:从小到大
    选取前K个最短距离
    选取这K个中最多的分类类别
    返回该类别来作为目标数据点的预测值

    核心代码:

    def classify0(inX, dataSet, labels, k):
        # 1. 距离计算
        dataSetSize = dataSet.shape[0]
        # tile生成和训练样本对应的矩阵,并与训练样本求差
        diffMat = tile(inX, (dataSetSize, 1)) - dataSet
        # 取平方
        sqDiffMat = diffMat ** 2
        # 将矩阵的每一行相加
        sqDistances = sqDiffMat.sum(axis=1)
        # 开方
        distances = sqDistances ** 0.5
        # 根据距离排序从小到大的排序,返回对应的索引位置
        # argsort() 是将x中的元素从小到大排列,提取其对应的index(索引),然后输出到y。
        # 例如:y=array([3,0,2,1,4,5]) 则,x[3]=1最小,所以y[0]=3;x[5]=5最大,所以y[5]=5。
        # print 'distances=', distances
        sortedDistIndicies = distances.argsort()
    
        # 2. 选择距离最小的k个点
        classCount = {}
        for i in range(k):
            # 找到该样本的类型
            voteIlabel = labels[sortedDistIndicies[i]]
            # 在字典中将该类型加一
            # 字典的get方法
            # 如:list.get(k,d) 其中 get相当于一条if...else...语句,参数k在字典中,字典将返回list[k];如果参数k不在字典中则返回参数d,如果K在字典中则返回k对应的value值
            # l = {5:2,3:4}
            # print l.get(3,0)返回的值是4;
            # Print l.get(1,0)返回值是0;
            classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
        # 3. 排序并返回出现最多的那个类型
        # 字典的 items() 方法,以列表返回可遍历的(键,值)元组数组。
        # 例如:dict = {'Name': 'Zara', 'Age': 7}   print "Value : %s" %  dict.items()   Value : [('Age', 7), ('Name', 'Zara')]
        # sorted 中的第2个参数 key=operator.itemgetter(1) 这个参数的意思是先比较第几个元素
        # 例如:a=[('b',2),('a',1),('c',0)]  b=sorted(a,key=operator.itemgetter(1)) >>>b=[('c',0),('a',1),('b',2)] 可以看到排序是按照后边的0,1,2进行排序的,而不是a,b,c
        # b=sorted(a,key=operator.itemgetter(0)) >>>b=[('a',1),('b',2),('c',0)] 这次比较的是前边的a,b,c而不是0,1,2
        # b=sorted(a,key=opertator.itemgetter(1,0)) >>>b=[('c',0),('a',1),('b',2)] 这个是先比较第2个元素,然后对第一个元素进行排序,形成多级排序。
        sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
        return sortedClassCount[0][0]
  • 相关阅读:
    Visualizing Concurrency in Go · divan's blog
    Trac常用插件描述!
    分布式 OLTP 数据库
    【SDCC讲师专访】PingCAP联合创始人兼CEO刘奇:好的产品应开源,不闭门造车-CSDN.NET
    XiaoMi/themis: Themis provides cross-row/cross-table transaction on HBase based on google's percolator.
    TiDB首页、文档和下载
    TeamGantt vs JIRA 2016 Comparison | FinancesOnline
    HandlerInterceptor拦截实现对PathVariable变量的读取
    大叔来说说Markdown的使用
    springcloud~配置中心实例搭建
  • 原文地址:https://www.cnblogs.com/eastblue/p/11577906.html
Copyright © 2011-2022 走看看