无监督学习
1.K-means 聚类
算法步骤:对于具有n个属性的数据集,确定了聚类数量k以后,首先随机初始化k个不同的n维向量,它们被称为k个簇
然后不断重复
- 计算每个样本点到各个簇的距离,取最小值染色
- 对于同色的样本点,重新定位簇的位置
为了避免随机初始化导致的局部最优,往往会进行多次试验,取得最优的簇(也就是我们的优化目标最小)
[J(c^{(1)},c^{(2)},...,c^{(m)},u_1,...,u_k) = frac{1}{m}sum_{i=1}^{m}||x^{(i)}-u_{c^{(i)}}||^2 \
其中c^{(i)}是x^{(i)}的簇编号
]