算法学习笔记：knn理论介绍

zoukankan html css js c++ java

算法学习笔记：knn理论介绍

阅读对象：了解指示函数,了解训练集、测试集的概念。

1.简介

knn算法是监督学习中分类方法的一种。所谓监督学习与非监督学习，是指训练数据是否有标注类别，若有则为监督学习，若否则为非监督学习。所谓K近邻算法，即是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例，这K个实例的多数属于某个类（加权），就把该输入实例分类到这个类中。

最初的近邻法是由Cover和Hart于1968年提出的，随后得到理论上深入的分析与研究，是非参数法中最重要的方法之一，它在论文Nearest Neighbor Pattern Classification中给出了算法准确率的详细描述，最近邻法的错误率是高于贝叶斯错误率。[没来得及看，标注，方便以后翻阅]

knn计算输入实例与每一个训练实例的距离，当训练集很大时，计算非常耗时，为了提高knn搜索的效率，可以考虑使用特殊结构存储训练数据，以减少计算距离的次数。[见参考资料1，本篇数据不大，暂时没有看]

2.k-最近邻分类算法

图1来自参考文献2

3.knn特性

计算量大、对噪声敏感、样本各个属性的量纲差异很大时要进行数据预处理。

图2来自参考文献2

参考资料：

[1]《统计学习方法》, 李航,P41-44

[2]数据挖掘导论（完整版）,Pang-Ning Tan、Michael Steinbach、Vipin Kumar著（范明、范宏建等译）,P137-139

end!!

查看全文

相关阅读:
要开学了，暂时停更
 day13 IP包头分析 | 路由器原理 1
day12 数据链路层 | 交换机基本命令
 day11 OSI与TCP-IP 5层协议 | 物理层相关知识
 day10 扫描与爆破
 day 09 简单渗透测试
 day07 PKI
day07 域
 day06 WEB服务器 | FTP服务器
 day05 DHCP部署与安全 | DNS部署与安全

原文地址：https://www.cnblogs.com/llfisher/p/6560460.html

算法学习笔记：knn理论介绍

1.简介

2.k-最近邻分类算法

3.knn特性