zoukankan      html  css  js  c++  java
  • 班课8

    1. unsupervised learning

    可用于cluster analysis,常用方法可以分为两个大类:hierarchical methods, partitioning methods。前者为层级方式

    对于同一个cluster来讲,需要同一个cluster里面的元素尽可能接近,不同cluster之间距离尽可能远

    2. partitioning常用算法:K-means

    随机选取K个中心点,将剩余点划分到据它最近的中心点上

    忽略之前的中心点,选取现有cluster中的mean值作为新的中心点

    不断重复直到cluster固定

    K-means也可以帮助去掉outlier

    有可能卡在局部最优的情况

    3. Expectation Maximization(判断出属于各个cluster的概率)

    与K-means不同,可能属于别的cluster

    K个高斯分布混合成X个训练集,估计均值

    可理解为给出一个学校所有同学的身高,但是没有给出每个数据是男生还是女生,分别求出男生以及女生的身高,且已知男生女生的身高均符合高斯分布

    E step:假设男生身高及女生身高的mean值分别为μ1,μ2. 从而可以判断出每条数据更可能是男生还是女生并求出概率

    M step:将原始μ1,μ2根据公式不断更新,使likelihood最大化

    不断重复直到收敛

    4. Hierarchical Clustering

    找两个最相近的cluster,合并并更新

    更新方式有single linkage, complete linkage, average linkage

    具体步骤为:先计算每两个点之间的距离

      选取距离最小的,合并

      更新方式采取上述三个,single link即采取cluster里的点与剩下点距离最小的那个;complete即距离最远的两个点;average link同理

      得到层级结构,在合适的地方切断得到对应数目的cluster

    5. Elbow method:确定几个cluster最好,计算不同的K的情况下,每一个cluster内所有点到中心点距离和,画出图像选取拐点作为optical number

    6. silhouette plot属于-1-1之间,a(i)指第i个点距离其他所有点距离的均值

    d(i,C)指第i个点距离另一个cluster中点的均值

    d(i,C)中最小的是b(i), 代入公式,越接近1越好

    对每个点都能计算,求平均值

    7. PCA:降维

    如图片中二维图片的横纵坐标可替换成一个歇着的坐标轴,就变成一维

    8. Autoencoders

    x通过encoder降维,得到z; 再decoder得到x的预测,计算预测与真实x的loss function,根据loss继续

  • 相关阅读:
    IIS请求筛选模块被配置为拒绝超过请求内容长度的请求(转)
    解决Android AVD启动报错问题
    找新朋友
    【枚举】【SDOI 2011】【bzoj 2241】打地鼠
    Invalidate、RedrawWindow与UpdateWindow的差别
    蓝牙DA14580开发:固件格式、二次引导和烧写
    【C/C++学院】0723-32位与64位/调戏窗体程序/数据分离算法/内存检索/二分查找法/myVC
    Maven 使用 二——nexus
    Linux程序编译链接动态库版本号的问题
    Key-Value Observing (键值监測)
  • 原文地址:https://www.cnblogs.com/eleni/p/12792266.html
Copyright © 2011-2022 走看看