zoukankan      html  css  js  c++  java
  • 高维数据分析的困难

    在实际应用过程中人们经常会碰到各种类型的海量数据,如各种贸易交易数据 基因表达数据 文档词频数据 用户评分数据 WEB使用数据及多媒体数据等,它们的维度(属性)通常可以达到成百上千维,甚至更高,这些数据在统计处理中通常称为高维数据。

    我们所处的空间是3维的,在3维或以下空间人类可以有比较直接的认知,例如,一个点是0维,一条直线是1维的,一个正方形是2维的,一个立方体是3维的,但到了4维以上就很难用简单直观的图来表示,不能用直接感知的普通方式对其思考,因此直观描述高维数据是一件比较困难的事情。

    在分析高维数据时,存在以下两个主要困难:

    一是欧氏距离问题 在2~10维的低维空间中欧氏距离是有意义的,可以用来度量数据之间的相似性,但在高维空间就没有太大意义了 由于高维数据的稀疏性,将低维空间中的距离度量函数应用到高维空间时,随着维数的增加,数据对象之间距离的对比性将不复存在,其有效性大大降低。

    二是维数膨胀问题 在分析高维数据过程中,碰到最大的问题就是维数的膨胀,也就是通常所说的 维数灾难 当维数越来越多时,数据计算量迅速上升,所需的空间样本数会随维数的增加而呈指数增长,分析和处理多维数据的复杂度和成本也是呈指数级增长的,因此就有必要对高维数据采用降维处理。

  • 相关阅读:
    C#多线程下更新UI的几种方法
    .net WebApi使用swagger 美化接口文档
    C#内存管理
    LINQ 推迟查询的执行
    C#多播委托详解
    泛型委托
    使用 ref 和 out 传递数组注意事项
    何时使用委托而不使用接口
    委托中的协变和逆变
    细说SQL Server数据类型
  • 原文地址:https://www.cnblogs.com/jiangkejie/p/13453364.html
Copyright © 2011-2022 走看看