zoukankan      html  css  js  c++  java
  • 数据预处理-数据规约

    数据规约

    数据规约指通过选择替代的、较小的数据来减少数据量,包括有参数方法和无参数方法两类。

    有参数方法是使用一个模型来评估数据,只需存放参数,而不需要存放实际数据,例如回归(线性回归和多回归)和对数线性模型。无参数方法就需要存放实际数据,例如直方图、聚类、抽样。

    (1)直方图
    直方图实用分箱来近似数据分布,是一种流行的数据规约形式。属性A的直方图将A的数据分布划分为不想交的子集或桶。通过这种方式可以对数据进行规约,只用一个直方图表示大部分数据A属性的特征。

    (2)聚类
    聚类技术将数据元组视为对象。它将对象划分为簇,使一个簇中的对象那个相互“相似”,而与其他簇中的对象“相异”。在数据规约中,用数据的簇替换实际数据。该技术的有效性依赖于簇的定义是否符合分布性质。

    (3)抽样
    抽样应该是我们现实生活中最常采用也最多采用的数据规约技术,它的思路是用比原始数据小得多的随机样本表示原始数据集。假定原始数据集D包括N个元组,可以采用抽样方法对D进行抽样。

    (4)参数回归
    简单线性模型和对数模型可以采用近似描述给定的数据。线性模型对数据建模,使之拟合一条直线。

  • 相关阅读:
    编译错误
    __attribute__
    strcmp-sse2-unaligned.S: No such file or directory.
    boost多线程编译出错
    QByteArray与QString的互相转换
    ffplay播放黑广播的声音
    ./configure详解
    linux发行版安装vmci.sys版本错误
    linux命令
    open函数的打开标志所在文件
  • 原文地址:https://www.cnblogs.com/gaoxing2580/p/12817315.html
Copyright © 2011-2022 走看看