《机器学习实战》学习（1）—— kNN算法

zoukankan html css js c++ java

《机器学习实战》学习（1）—— kNN算法
一些碎碎念：失踪人口回归（虽然也没人fo我，一个人自娱自乐啦）。新学期开始好久了，感觉需要系统性地学习一些东西，扫了一眼书架发现之前买的《机器学习实战》这本书还没看完，于是从这本书开始搭建自己的机器学习基础体系啦，顺便学习一下python。如果正文有什么描述不对的地方，麻烦给与指正啦...争取周更，不能拖拉。

star了一个github项目（本书配套代码） https://github.com/pbharrin/machinelearninginaction

kNN算法是分类算法，主要是通过测量比较输入测试数据与分类过的训练数据的（特征）距离进行分类的。当输入一个新的未分类（没有标签）的数据时，与样本集中的数据特征进行比较，选出与新数据最接近的k个数据，将出现频率最高的分类作为新数据的分类。

首先需要对数据进行处理，数据清洗和归一化，数据清洗是为了剔除异常数据，归一化是为了使各个特征不受数据取值大小的影响，当然也可以根据数据的重要性定权重。

以下是kNN的核心代码：
def classify0(inX, dataSet, labels, k): dataSetSize = dataSet.shape[0] diffMat = tile(inX, (dataSetSize, 1)) - dataSet sqDiffMat = diffMat**2 sqDistances = sqDiffMat.sum(axis=1) distances = sqDistances**0.5 sortedDistIndicies = distances.argsort() classCout = {} for i in range(k): voteIlabel = labels[sortedDistIndicies[i]] classCout[voteIlabel] = classCout.get(voteIlabel, 0) + 1 sortedClassCout = sorted(classCout.items(), key = operator.itemgetter(1), reverse = True) return sortedClassCout[0][0]
其中inX是输入数据（向量形式），dataSet和labels分别是样本数据和标签（分类），k是参与评价的点数。

代码首先求了输入数据与样本数据的距离，然后对距离排序，选出距离最近的k个点，返回k点内出现频率最高的标签作为分类结果。

此处距离的求解方法是欧式距离，还可以选用其他距离公式，视具体数据情况为定。

kNN简单有效但是当数据集较大时，所需内存和计算量也较大，也不能体现出各个数据特征之间的区别，这种分类方法还是十分硬核的，适用于简单的情况。
查看全文

相关阅读:
Java数据结构和算法总结-数组、二分查找
 Android开发必知--使用View.setId的正确姿势
 Fiddler基本用法以及如何对手机抓包
 Android学习笔记（十四）方便实用的首选项-PreferenceActivity
Android学习笔记（十三）SharedPreference必须掌握的基础
 设计模式之单例模式
 关于如何控制一个页面的Ajax读数据只读一次的简单解决办法！
ASP.NET MVC 表单提交多层子级实体集合数据到控制器中
 使用Bootstrap的popover标签中嵌入插件，并且为插件注册事件实现Ajax与后台交互
 关于.Net使用企业库访问MySql数据库

原文地址：https://www.cnblogs.com/chri330dj/p/9786495.html