zoukankan      html  css  js  c++  java
  • 分类模型-K近邻(KNN)

    1、KNN概述

    最简单最初级的分类器,就是将全部的训练数据所对应的类别都记录下来,当测试对象的属性和某个训练对象的属性完全匹配时,便可以对其进行分类

    K近邻(k-nearest neighbour,KNN)是一种基本分类方法,通过测量不同特征值之间的距离进行分类。

    k近邻的四路是:如果一个样本在特征控件中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中k通常是不大于20的整数

    KNN算法中,所选择的邻居都是已经正确分类的对象

    2、KNN示例

    • 绿色园要被决定赋予哪个类是红色三角形还是蓝色四方形?
    • 如果k=3,由于红色三角形所占比例为2/3,绿色园将被赋予红色三角形哪个类
    • 如果k=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类
    • KNN算法的结果很大程度取决于K的选择

    3、KNN距离计算

    KNN中,通过计算对象间距离来作为各个对象之间的费相似性指标,避免了对象之间的匹配问题,在这里距离一般使用欧氏距离曼哈顿距离

    4、KNN算法

    在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的特征与测试集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据,则该测试数据对应的类别就是k个数据中出现次数最多的那个分类,其算法的描述为:

    1. 计算测试数据与各个训练数据之间的距离
    2. 按照距离的递增关系进行排序
    3. 选取距离最小的k个点
    4. 确定前k个点所在类别的出现频率
    5. 返回前k个2点中出现频率最高的类别作为测试数据的预测分类

    5、代码实现

    0.引入依赖

    1 import numpy as np
    2 import pandas as pd
    3 
    4 # 这里直接引入 sklearn 里的数据集,iris鸡尾花
    5 from sklearn.datasets import load_iris
    6 # 切分数据集为训练集和测试集
    7 from sklearn.model_selection import train_test_split
    8 # 计算分类预测的准确率
    9 from sklearn.metrics import accuracy_score 

    1.数据加载和预处理

     1 iris = load_iris()
     2 df = pd.DataFrame(data=iris.data,columns = iris.feature_names)
     3 df['class']=iris.target
     4 df['class']=df['class'].map({0:iris.target_names[0],1:iris.target_names[1],2:iris.target_names[2]})
     5 df.describe()
     6 
     7 x = iris.data
     8 y = iris.target.reshape(-1,1)
     9 
    10 # 划分训练集和测试集
    11 x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3,random_state=35,stratify=y)
    12 print(x_train.shape,y_train.shape)
    13 print(x_test.shape,y_test.shape)

    2. 核心算法实现

     1 # 距离函数定义
     2 def l1_distance(a,b):
     3     return np.sum(np.abs(a-b),axis=1)
     4 def l2_distance(a,b):
     5     return np.sqrt(np.sum((a-b)**2,axis=1))
     6 # 分类器实现
     7 class KNN(object):
     8     # 定义一个初始化方法,是类的构造方法
     9     def __init__(self,n_neighbors=1,dist_func=l1_distance):
    10         self.n_neighbors=n_neighbors
    11         self.dist_func=dist_func
    12         
    13     # 训练模型方法
    14     def fit(self,x,y):
    15         self.x_train = x
    16         self.y_train = y
    17         
    18     # 模型预测方法
    19     def predict(self,x):
    20         # 初始化预测分类数组
    21         y_pred=np.zeros((x.shape[0],1),dtype=self.y_train.dtype)
    22         
    23         # 遍历输入的x数据点,取出每一个数据点的序号i和数据x_test
    24         for i,x_test in enumerate(x):
    25             # x_test跟所有训练数据计算距离
    26             distances = self.dist_func(self.x_train,x_test)
    27             # 得到的距离按照由近到远排序,取出索引值
    28             nn_index = np.argsort(distances)
    29             # 选取最近的k个点,保存他们对应的分类类别
    30             nn_y = self.y_train[nn_index[: self.n_neighbors]].ravel()
    31             # 统计类别出现频率最高的那个,赋给y_pred[i]
    32             y_pred[i]=np.argmax(np.bincount(nn_y))
    33         
    34         return y_pred

    3. 测试

     1 # 定义一个knn实例
     2 knn = KNN(n_neighbors = 3)
     3 # 训练模型
     4 knn.fit(x_train,y_train)
     5 # 传入测试数据,做预测
     6 y_pred=knn.predict(x_test)
     7 # 求出预测准确率
     8 accuracy = accuracy_score(y_test,y_pred)
     9 
    10 print("预测准确率:",accuracy)
    11 
    12 # 定义一个knn实例
    13 knn = KNN()
    14 # 训练模型
    15 knn.fit(x_train,y_train)
    16 # 保存结果list
    17 result_list=[]
    18 # 针对不同的参数选取,做预测
    19 for p in [1,2]:
    20     knn.dist_func=l1_distance if p==1 else l2_distance
    21     # 考虑不同的k取值,步长为2
    22     for k in range(1,10,2):
    23         knn.n_neighbors=k
    24         # 传入测试数据,做预测
    25         y_pred=knn.predict(x_test)
    26         # 求出预测准确率
    27         accuracy = accuracy_score(y_test,y_pred)
    28         result_list.append([k,'l1_distance' if p==1 else 'l2_distance',accuracy])
    29     
    30 df = pd.DataFrame(result_list,columns=['k','距离函数','预测准确率'])
    31 df    
  • 相关阅读:
    常见的MYSQL高可用解决方案
    CDN——到底用还是不用?
    Maven学习总结
    Git – Fast Forward 和 no fast foward
    Spring boot 打成jar包问题总结
    Spring Data JPA进阶——Specifications和Querydsl
    Arp攻击实战
    crontab命令
    mtr命令
    如何使用qperf来衡量网络带宽和延迟性能?
  • 原文地址:https://www.cnblogs.com/hyunbar/p/13072557.html
Copyright © 2011-2022 走看看