zoukankan      html  css  js  c++  java
  • 高维数据分析的困难

    在实际应用过程中人们经常会碰到各种类型的海量数据,如各种贸易交易数据 基因表达数据 文档词频数据 用户评分数据 WEB使用数据及多媒体数据等,它们的维度(属性)通常可以达到成百上千维,甚至更高,这些数据在统计处理中通常称为高维数据。

    我们所处的空间是3维的,在3维或以下空间人类可以有比较直接的认知,例如,一个点是0维,一条直线是1维的,一个正方形是2维的,一个立方体是3维的,但到了4维以上就很难用简单直观的图来表示,不能用直接感知的普通方式对其思考,因此直观描述高维数据是一件比较困难的事情。

    在分析高维数据时,存在以下两个主要困难:

    一是欧氏距离问题 在2~10维的低维空间中欧氏距离是有意义的,可以用来度量数据之间的相似性,但在高维空间就没有太大意义了 由于高维数据的稀疏性,将低维空间中的距离度量函数应用到高维空间时,随着维数的增加,数据对象之间距离的对比性将不复存在,其有效性大大降低。

    二是维数膨胀问题 在分析高维数据过程中,碰到最大的问题就是维数的膨胀,也就是通常所说的 维数灾难 当维数越来越多时,数据计算量迅速上升,所需的空间样本数会随维数的增加而呈指数增长,分析和处理多维数据的复杂度和成本也是呈指数级增长的,因此就有必要对高维数据采用降维处理。

  • 相关阅读:
    ORB Test Hanson
    ajax异步传输中的乱码问题
    调用淘宝API遇到的问题
    doc命令查看电脑配置大全
    从关联数组中取得键名
    php图片上传
    doc命令查看电脑配置
    一个空间配置多个虚拟主机
    淘客网站中系统信息获取
    opendir(path,context)
  • 原文地址:https://www.cnblogs.com/jiangkejie/p/13453364.html
Copyright © 2011-2022 走看看