无监督学习-聚类

zoukankan html css js c++ java

无监督学习-聚类

一.基本概念

1.无监督学习：数据无标签或者说是未知的，目标是通过对无标记数据的学习来揭示数据的内在性质和规律。主要研究方向有聚类，主要方法有降维

二.聚类

1.聚类：将数据样本划分为若干个通常是不相交的子集，这样每个子集就是一簇或者说是一类，每一类代表类中数据的某些规律，而且这个规律不在其他类中适用，类名由使用者来定义

2.目标：把无标签数据集分为若干类，同一簇的样本尽可能相似，不同簇的样本尽可能不同，簇之间的距离用中心点（平均）之间的距离来表示，簇之间最短距离用簇间最短样本距离来表示

3.聚类和分类：聚类是把所有无标签数据分类，类名（标签）和类的数量是自定义的，分类是模型学习标签数据的特点，从而对未知数据预测标签

三.聚类算法

（1）划分方法：k均值（k-means）

【1】初始化的聚类中心可能导致不好的局部最优：多次随机初始化选取其中代价最小的

【2】选择聚类数量：观察可视化图手动设置

【3】肘部法则：随着聚类数量的增大，损失函数也会降低，选择曲线拐点，但有时候拐点不容易看出，可以根据目的来决定聚类数量

（2）层次方法：对数据集进行层次似的分解，知道满足某个条件为止

【1】自底向上：初始每个数据样本都为一簇，通过合并相似簇来缩减类的数量

【2】自顶向下：初始所有数据为一类，通过分割最不相似的样本来增加类的数量

（3）基于密度：基于密度而不是距离，因为距离算法其实是类圆形的类划分，而基于密度则是某个区域中的密度大于某个值，就把它加到与之相似的聚类中

（4）基于模型：给每个类假定一种模型，寻找能够满足这个模型的数据

四.距离度量和相似度度量

1.两者同异

（1）同：都能表现两个样本的相似性，两个样本之间的距离越小，相似度越大，则两个样本越相似

（2）异：距离是指两个样本在空间中的距离，相似度是指两个样本的相似程度，所有距离都能在一定程度上表现相似性，不是所有相似性度量都是距离

2.距离度量

（1）p范数（闵可夫斯基距离）：各个维度距离的p次方后求和再开p次方。涉及到量纲影响的时候要注意：不同维度相同距离并不表示两者一样

（2）曼哈顿距离（L1范数）

（3）L2范数（欧式距离）（欧几里得距离）

（4）无穷范数（切比雪夫距离）

3.相似度度量

（1）余弦相似度（向量内积的变换）：适合高维度向量之间的相似度计算，主要衡量的是向量方向的差异

（2）Tonimoto系数：余弦相似度的改进，不仅考虑了两个向量的方向，还考虑了长度差异

（3）皮尔逊相关系数(Pearson Correlation)：用于度量两个正太分布的随机变量之间的线性相关程度，取值为[-1,1]，绝对值越大，相关性越高，正数表示正相关，负数表示负相关

（4）Jaccard相似系数：用于比较有限样本集合之间的相似性，

查看全文

相关阅读:
通过html()的方法获取文本内容， form表单组件显示的值与获取到的值不一致的问题
 quartz实例以及主要事项(注解)
解决因为链表过长，sql查询慢的问题
 query flot 直方图上显示对应的y值
 git error: RPC failed; curl 18 transfer closed with outstanding read data remaining error: 7777 bytes of body are still expected
iso七层模型及其功能作用
 计算机进制之间的转换，十进制转二进制换算
 libconfig++ 交叉编译流程
 Ubuntu 交叉编译( gcc-linaro-arm-linux-gnueabihf)环境搭建
 周立功IoT7000li编译移远EC20驱动记录

原文地址：https://www.cnblogs.com/yu-liang/p/12861195.html