zoukankan      html  css  js  c++  java
  • 机器学习(三)

    机器学习

    K-Means

    • 原理:

      • 随机的再原始数据的图像中选择几个随机的点
      • 分别以这些点为k, 也就是为中心, 对数据中其他的点的距离进行判断, 那个点里这随意的点中的一个最近, 就认为该点和随机点是同一类的
      • 分类之后, 再从新分成的每一个堆中的再随机取出一个中心点, 重复第二步
      • 最终, 如果变化不明显了, 就不在迭代了
    • 缺点:
      一般只能处理线性的, 如果是圆环类型的, 不如对笑脸形状的散列图就无法而出期望的聚类
      划分出来的也是线性的

    • 是无监督学习算法

    DBSCAN算法

    • Density-Based Spatial Clustering of Applications with Noise
    • 中心对象不再是随机的了, 而是如果某一个点的密度达到了算法设定的阈值则其为中心点
    • 阈值为点的密度
    • 需要一个半径
    • 自己规定一个固定的半径进行画圆, 发展下线
    • 缺点:
      • 因为DBSCAN算法是基于密度的, 所以如果数据集是密度比较密集的就不好算了

    特征增强

    轮廓系数

    • 有公式
    • 计算样本i到同类其他样本的平均距离ai, ai越小, 说明样本越应该被聚类到该类别, 将ai称之为样本为i的类内不相似度
    • 计算样本到其他类Cj的所有样本的平均距离bij, 称之为样本i与类Cj的不相似度, 定义为样本i的类内不相似度

    EM算法

    最大似然估计: 累乘求导时使用log转为累加求导

    • 隐变量: 引入隐变量Z, 考虑Z所有的可能性
    • 在机器学习中假设非常的重要, 有了假设就对该假设进行验证, 同时假设可以是多个, 比较各个假设得到的结果, 选择最好的假设
    • Jensen不等式
  • 相关阅读:
    典型并发任务
    第九章使用共享变量实现并发
    第八章goroutine和通道
    第七章接口
    第六章方法
    第一章
    第四章复合数据类型
    第三章基础数据类型
    Django其他
    VUE学习日记(五) ---- 组件定义 component
  • 原文地址:https://www.cnblogs.com/megachen/p/9555827.html
Copyright © 2011-2022 走看看