zoukankan      html  css  js  c++  java
  • k-近邻算法(KNN)

    输入没有标签的新数据后,将新数据的每个特征与样本数据集的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似的数据(最近邻)的分类标签,一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处

    一、加载数据

    二、归一化特征值

    三、计算欧式距离

    from numpy import*
    import operator
    def createDataSet():
        group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
        labels=['A','A','B',"B"]
        return group,labels
    #归一化
    def autoNorm(dataset):
        minVals=dataset.min(0)
        maxVals=dataset.max(0)
        ranges=maxVals-minVals
        normDataSet=zeros(shape(dataset))
        m=dataset.shape[0]
        normDataSet=dataset-tile(minVals,(m,1))
        normDataSet=normDataSet/tile(ranges,(m,1))
        return normDataSet,ranges,minVals
    #分类即knn代码
    def classifyo(inX,dataset,labels,k):
        datasetSize=dataset.shape[0]
        diffMat=tile(inX,(datasetSize,1))-dataset#tile(A,reps) 将A展成reps的维度
        sqDiffMat=diffMat**2
        sqDistances=sqDiffMat.sum(axis=1)
        distances=sqDistances**0.5
        sortedDistIndicies=distances.argsort()
        classCount={}
        for i in range(k):
            voteIlabel=labels[sortedDistIndicies[i]]
            classCount[voteIlabel]=classCount.get(voteIlabel,0)+1
        sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
        return sortedClassCount[0][0]

    knn算法和决策树算法都是具有确定分类的算法,接下来学习的朴素贝叶斯算法就用到了概率的知识,即分到某个类是在一定概率下

  • 相关阅读:
    MS SQL执行大脚本文件时,提示“未能完成操作,存储空间不足,无法处理此命令”的解决办法
    一、Flux 是什么?
    for...in for..of
    循环总结
    javascript中几种this指向问题
    redux
    布局方式
    js获取前几个月的具体日期
    动态引入js文件
    获取页面url信息
  • 原文地址:https://www.cnblogs.com/code-fun/p/12489481.html
Copyright © 2011-2022 走看看