zoukankan      html  css  js  c++  java
  • 百面机器学习-非监督学习

    1、非监督学习主要包括两大类学习方法:数据聚类和特征变量关联。聚类是通过多次迭代来找到数据的最优的分割,特征变量关联则是利用各种相关性分析方法来找到变量之间的关系。

    分类:类别已知   聚类:是在不知道不知道类别标签的情况下,通过数据之间的内在关系,把样本分为若干类别,使得同类别样本之间的相似度高,不同类别的的样本相似度低。

    K均值聚类,是最基础的和最常用的聚类方法,通过迭代方式找到K个簇的一种划分方案,使得聚类结果对应的代价函数最小,代价函数可以定义为各个样本距离所属簇中心点的误差平方和

    K均值算法的步骤-1、数据预处理,如归一化,离散化处理 2、随机取K个簇中心,记为u1,u2,....uk 3、定义代价函数 4、令t=0,1,2...为迭代步数,直到J收敛

    2、K均值算法的优缺点:

    优点:对于大数据集,K均值聚类算法相对是可伸缩和高效的。

    缺点:易受初始值和离散点的影响,导致每次结果不稳定,不是全局而是局部最优解。无法解决数据簇分布差别比较大的情况。不太适用于离散分类。

    K均值算法的调优的角度:

    1、数据归一化和离散化处理(方法是基于欧式距离的,均值和方差对聚类结果产生影响)

    2、合理选择K值(K值的选择是K均值聚类最大的问题之一)

    3、采用核函数(核聚类方法的主要思想是通过一个非线性映射,将输入空间的数据点映射到高位的特征空间中,并在新的特征空间中进行聚类)

    高斯混合模型:

    高斯混合模型也是一种常见的聚类方法,与K均值方法类似,采用EM算法进行迭代计算,高斯混合模型假设每个簇都符合高斯帆布,当前数据呈现的分布是各个簇叠加的效果。

    高斯混合分布可以拟合出任意类型的分布。

    高斯混合模型和K均值算法的相同点是,他们都可以用于聚类算法,都需要指定K值,都是使用EM算法来求解,但往往智能收敛于局部最优,相比K均值,可以给出一个样本属于某类的概率是多少,还可用于概率估计,并且可用于生成新的样本点。

    自组织映射神经网络:

    是无监督学习的方法的一种,可以用作聚类,高维可视化,数据压缩,特征提取。

    学习过程可分为以下几个过程1、初始化 2、竞争 3、合作4、适应5、迭代

    自组织映射神经网络与K均值算法的区别如下:

    1、K均值受K值的影响大一些,自组织映射神经网络小一些

    2、K均值准确性相对高,但是易受noise data影响

    3、自组织映射神经网络可视化比较好

    设计过程:1、设定输出层神经元的个数2、设计输出层的节点的排列3、初始化权值4、设计拓补领域5、设计学习率

    聚类算法的评估:

    (1)、估计聚类趋势

    (2)、判定数据簇数

    (3)、测定聚类质量

  • 相关阅读:
    Linux免密登录
    HDFS shell 常用命令
    zabbix4.4图表中文显示乱码解决办法
    安装zabbix-agent
    安装配置zabbix4.4
    elasticsearch插件sql安装
    dedecms调用头部文件 dede:include时页面出现一行空白的解决方案
    DedeCMS <=5.7 SP2 file_class.php 任意文件上传漏洞
    DedeCMS后台文件任意上传漏洞media_add.php的修改方法
    织梦DEDECMS任意文件上传漏洞与注入漏洞修复方法
  • 原文地址:https://www.cnblogs.com/lyp1010/p/13411088.html
Copyright © 2011-2022 走看看