zoukankan html css js c++ java

统计学习方法三：K近邻

一、什么是K近邻？

K近邻是一种基本的分类和回归方法。
在分类时，对新的实例，根据其K个最近邻的训练实例的类别，通过多数表决权等方式预测其类别。
通俗的讲，找K个和其关系最近的邻居，哪个类别的邻居多，就把它划分到哪一类

特性：
（1）多分类
（2）判别模型
（3）三个基本要素：K值选择、距离度量、分类决策规则
（4）K=1时，称为最近邻算法

二、K近邻模型

1、模型：K近邻法的模型对应特征空间的一个划分，每一个划分对应一个类别

2、距离度量：
（1）通常使用欧氏距离
（2）更一般的Lp距离

3、K值选择：
（1）K值过小：整体模型复杂，容易过拟合 —— 只有最近的几个点起到作用，可能是噪声
（2）K值过大：整体模型简单 —— 距离过远（不相似）的点也会起到预测作用
（3）选择方法：在实际应用中，通常选择一个比较小的数值。通常采用交叉验证的方式选择最优的K值
（4）具体怎么选呢？？？—— 待补充

4、分类决策规则：多数表决权
    损失函数：0-1函数
    误分类率：1-正确分类率
    误分类率最小（经验风险最小）——> 正确分类率最大
    什么样的正确分类率最大？ —— 分到多数堆里....

三、K近邻法的实现：kd树
K近邻法实现考虑的一个重要问题：如何对训练数据进行快速K近邻搜索？
简单实现：线性扫描，计算输入实例与每个训练实例的距离。

kd树：
（1）二叉树
（2）每个结点对应于K维空间划分中的一个超矩形区域
（3）快速搜索，省去对大部分数据点的搜索减少搜索的工作量

查看全文

相关阅读:
无有和无穷
 算法设计熄灯问题
 WPF 路由事件总结
 C# params关键字
 WPF 布局总结
 C#结构体和类的区别
 C#装箱和拆箱（值类型和引用类型之间的转换）
OpenGL中平移、旋转、缩放矩阵堆栈操作
 OpenGL图元的颜色属性
 OpenGL基础图形的绘制

原文地址：https://www.cnblogs.com/naonaoling/p/5690283.html