无监督学习(Unsupervised Learning)

zoukankan html css js c++ java

无监督学习(Unsupervised Learning)
无监督学习(Unsupervised Learning)

聚类无监督学习

特点
- 只给出了样本, 但是没有提供标签
- 通过无监督学习算法给出的样本分成几个族(cluster), 分出来的类别不是我们自己规定的, 而是无监督学习算法自己计算出来的
K-means 聚类算法

规定
- (c^{(i)}): 表示(x^{(i)})属于哪个cluster, 如(x^{(1)})属于(c^{(1)})簇, 如果(c^{(1)}=1), 则(x^{(1)})划分在第1个类别
- (mu_k): 表示第k簇的聚类中心样本点
- (mu_{c^{(i)}}): 表示样本(x^{(i)})所在的聚类(c^{(i)})的聚类中心
- (m): 样本的数量
- (n): 特征的数量
步骤
1. 从现有的样本中调出K个样本作为聚类中心(采用随机初始化的方式选择样本)
2. 计算其余样本分别到这K个样本的欧拉距离
3. 某个样本距离这K个聚类中心的哪个最近, 就把这个样本归为那个类别, 以此类推, 将所有的样本进行归类
4. 在已经分好类的基础上, 计算出每一个类别的均值(中心), 再重复2和3步骤, 知道损失函数达到最优点(可能仅仅是达到了局部最优点(local optima), K-means算法最终聚类的结果与第1步中K的随机初始化的值后很大的关系, 因为在结束了K-means算法之后我们应该重复1-4步多次, 得到损失函数最小), 结束K-means算法
5. 注意: K值的选择需要人工调整
理性的认识
- 在K-means中主要就是要(min_{c^{(i)},mu^{(j)}}J(c^{(1)},c^{(2)},...,c^{(m)},mu^{(1)},mu^{(2)},...,mu^{(k)}))
1. 随机初始化K, K要小于m
2. 在for循环中一个一个的取出样本计算出所有样本到最近的中心的距离, 保证J最小
3. 在另外一个for循环中取出中心点, 移动中心点
4. 重复1-3步骤
如何选择K的值
- elbow method: 画出K与J的图像, 找出凸出点, 那个就是期望的K值
- 根据实际需求划分
查看全文

相关阅读:
用goto做异常处理
 零长度数组的妙用
 DTMF三种模式(SIPINFO,RFC2833,INBAND)
Myeclipse下的struts2.3.8 配置保证绝对好用
 Linux内核--内核数据类型
 Linux内核：kthread_create(线程)、SLEEP_MILLI_SEC
3.4.4 数据预留和对齐(skb_reserve, skb_push, skb_put, skb_pull)
Linux 2.6内核中新的锁机制--RCU
Linux中SysRq的使用（魔术键）
CentOS Linux服务器安全设置

原文地址：https://www.cnblogs.com/megachen/p/10030823.html

无监督学习(Unsupervised Learning)

无监督学习(Unsupervised Learning)

聚类无监督学习

特点

K-means 聚类算法

规定

步骤

理性的认识

如何选择K的值