zoukankan      html  css  js  c++  java
  • 对The Curse of Dimensionality(维度灾难)的理解

    一个特性:低维(特征少)转向高维的过程中,样本会变的稀疏(可以有两种理解方式:1.样本数目不变,样本彼此之间距离增大。2.样本密度不变,所需的样本数目指数倍增长)。

    高维度带来的影响:

    1.变得可分。

       由于变得稀疏,之前低维不可分的,在合适的高维度下可以找到一个可分的超平面。

    2.过拟合风险。

      过高维度会带来过拟合的风险(会学习到数据集中的特例或异常,对现实测试数据效果较差)。增加维度的线性模型等效于低维空间里较复杂的非线性分类器。

    3.需要更多训练数据。我们需要更多的训练数据进行参数估计。

    4.过高维度会让分类变难。

        高维下数据更多分布在空间角落(因为单位球占单位立方体下的空间比例随着维度增加,越来越小。处于单位球内的可以看出靠近中心),而角落处的特征更难分,因为距离更大。

    5.高维度中用距离来衡量样本相似性的方法已经渐渐失效。

       (几乎所有的高维空间都远离其中心,任意两点的距离会趋向收敛,意思是任意两点的最大距离和最小距离会变为相同。因此基于欧式距离的k-means算法,会无法进行聚类(因为距离会趋于收敛)。而K-NN会的临近K个点中,会出现更多非同类的点(远多于低维度的情况)。)

  • 相关阅读:
    iOS Xcode8的适配
    iOS从生成证书到打包上架-02(详细2016-10最新)
    iOS从生成证书到打包上架-01(详细2016-10最新)
    PHP读取CSV文件
    magento批量导入评论加星
    magento调用static block
    Magento Block的几种调用方式
    JFinal项目中获取根目录
    清除UTF-8编码文件前端的DOM
    PhpStorm注册码(2,3,4,5)通用
  • 原文地址:https://www.cnblogs.com/dingz/p/9029395.html
Copyright © 2011-2022 走看看