机器学习10k均值 - 走看看

zoukankan html css js c++ java

机器学习10k均值

下面介绍无监督机器学习算法，与前面分类回归不一样的是，这个不知道目标变量是什么，这个问题解决的是我们从这些样本中，我们能发现什么。

这下面主要讲述了聚类算法，跟数据挖掘中的关联挖掘中的两个主要算法。

K均值算法工作流程，首先随机确定k个初始点作为质心。然后将数据集中的每个点分配到一个簇中。

具体的讲就是为每个点找到最近的质心，并将其分配给该质心所对应的簇，这一步完成之后，每个簇的质心更新为该簇所有点的平均值。

具体伪代码如下：

为了克服K-均值算法收敛于局部最小值问题，有人提出了二分K-均值算法。

该算法首先将所有点作为一个簇，然后将簇一分为二，之后选择其中一个簇继续进行划分，选择哪一个簇进行划分取决于对其划分是否可以最大程度降低SSE(误差平方的值）。这个过程不断重复，直到用户指定的簇数为止。

具体伪代码如下：

这本书后面的几个算法的思想都不复杂，后续进行实现，先放着。

查看全文

相关阅读:
xgqfrms™, xgqfrms® : xgqfrms's offical website of GitHub!
xgqfrms™, xgqfrms® : xgqfrms's offical website of GitHub!
xgqfrms™, xgqfrms® : xgqfrms's offical website of GitHub!
xgqfrms™, xgqfrms® : xgqfrms's offical website of GitHub!
只需这10步，通过历史控制文件恢复数据库
 直播丨Oracle 12.2系列安装
 Python爬虫入门教程 70-100 爬虫原理应用到多种场景，Python下载B站视频
 windows python2.7 安装pyqt5
Activiti任务参数的设置方式和作用域
 python 多线程2

原文地址：https://www.cnblogs.com/fengbing/p/3523613.html

Copyright © 2011-2022 走看看