机器学习
K-Means
-
原理:
- 随机的再原始数据的图像中选择几个随机的点
- 分别以这些点为k, 也就是为中心, 对数据中其他的点的距离进行判断, 那个点里这随意的点中的一个最近, 就认为该点和随机点是同一类的
- 分类之后, 再从新分成的每一个堆中的再随机取出一个中心点, 重复第二步
- 最终, 如果变化不明显了, 就不在迭代了
-
缺点:
一般只能处理线性的, 如果是圆环类型的, 不如对笑脸形状的散列图就无法而出期望的聚类
划分出来的也是线性的 -
是无监督学习算法
DBSCAN算法
- Density-Based Spatial Clustering of Applications with Noise
- 中心对象不再是随机的了, 而是如果某一个点的密度达到了算法设定的阈值则其为中心点
- 阈值为点的密度
- 需要一个半径
- 自己规定一个固定的半径进行画圆, 发展下线
- 缺点:
- 因为DBSCAN算法是基于密度的, 所以如果数据集是密度比较密集的就不好算了
特征增强
轮廓系数
- 有公式
- 计算样本i到同类其他样本的平均距离ai, ai越小, 说明样本越应该被聚类到该类别, 将ai称之为样本为i的类内不相似度
- 计算样本到其他类Cj的所有样本的平均距离bij, 称之为样本i与类Cj的不相似度, 定义为样本i的类内不相似度
EM算法
最大似然估计: 累乘求导时使用log转为累加求导
- 隐变量: 引入隐变量Z, 考虑Z所有的可能性
- 在机器学习中假设非常的重要, 有了假设就对该假设进行验证, 同时假设可以是多个, 比较各个假设得到的结果, 选择最好的假设
- Jensen不等式