1. unsupervised learning
可用于cluster analysis,常用方法可以分为两个大类:hierarchical methods, partitioning methods。前者为层级方式
对于同一个cluster来讲,需要同一个cluster里面的元素尽可能接近,不同cluster之间距离尽可能远
2. partitioning常用算法:K-means
随机选取K个中心点,将剩余点划分到据它最近的中心点上
忽略之前的中心点,选取现有cluster中的mean值作为新的中心点
不断重复直到cluster固定
K-means也可以帮助去掉outlier
有可能卡在局部最优的情况
3. Expectation Maximization(判断出属于各个cluster的概率)
与K-means不同,可能属于别的cluster
K个高斯分布混合成X个训练集,估计均值
可理解为给出一个学校所有同学的身高,但是没有给出每个数据是男生还是女生,分别求出男生以及女生的身高,且已知男生女生的身高均符合高斯分布
E step:假设男生身高及女生身高的mean值分别为μ1,μ2. 从而可以判断出每条数据更可能是男生还是女生并求出概率
M step:将原始μ1,μ2根据公式不断更新,使likelihood最大化
不断重复直到收敛
4. Hierarchical Clustering
找两个最相近的cluster,合并并更新
更新方式有single linkage, complete linkage, average linkage
具体步骤为:先计算每两个点之间的距离
选取距离最小的,合并
更新方式采取上述三个,single link即采取cluster里的点与剩下点距离最小的那个;complete即距离最远的两个点;average link同理
得到层级结构,在合适的地方切断得到对应数目的cluster
5. Elbow method:确定几个cluster最好,计算不同的K的情况下,每一个cluster内所有点到中心点距离和,画出图像选取拐点作为optical number
6. silhouette plot属于-1-1之间,a(i)指第i个点距离其他所有点距离的均值
d(i,C)指第i个点距离另一个cluster中点的均值
d(i,C)中最小的是b(i), 代入公式,越接近1越好
对每个点都能计算,求平均值
7. PCA:降维
如图片中二维图片的横纵坐标可替换成一个歇着的坐标轴,就变成一维
8. Autoencoders
x通过encoder降维,得到z; 再decoder得到x的预测,计算预测与真实x的loss function,根据loss继续