zoukankan      html  css  js  c++  java
  • 数据预处理-数据规约

    数据规约

    数据规约指通过选择替代的、较小的数据来减少数据量,包括有参数方法和无参数方法两类。

    有参数方法是使用一个模型来评估数据,只需存放参数,而不需要存放实际数据,例如回归(线性回归和多回归)和对数线性模型。无参数方法就需要存放实际数据,例如直方图、聚类、抽样。

    (1)直方图
    直方图实用分箱来近似数据分布,是一种流行的数据规约形式。属性A的直方图将A的数据分布划分为不想交的子集或桶。通过这种方式可以对数据进行规约,只用一个直方图表示大部分数据A属性的特征。

    (2)聚类
    聚类技术将数据元组视为对象。它将对象划分为簇,使一个簇中的对象那个相互“相似”,而与其他簇中的对象“相异”。在数据规约中,用数据的簇替换实际数据。该技术的有效性依赖于簇的定义是否符合分布性质。

    (3)抽样
    抽样应该是我们现实生活中最常采用也最多采用的数据规约技术,它的思路是用比原始数据小得多的随机样本表示原始数据集。假定原始数据集D包括N个元组,可以采用抽样方法对D进行抽样。

    (4)参数回归
    简单线性模型和对数模型可以采用近似描述给定的数据。线性模型对数据建模,使之拟合一条直线。

  • 相关阅读:
    Python 列表元素排重uniq
    Python正则表达式汇总
    Python 正则表达式:只要整数和小数
    c++写入txt文件
    OpenMP求完数
    Python分割list
    用ConfigParser模块读写配置文件——Python
    Python 正则表达式
    教程和工具--用wxPython编写GUI程序的
    matlab 之字体调整
  • 原文地址:https://www.cnblogs.com/gaoxing2580/p/12817315.html
Copyright © 2011-2022 走看看