zoukankan      html  css  js  c++  java
  • 数据预处理-数据规约

    数据规约

    数据规约指通过选择替代的、较小的数据来减少数据量,包括有参数方法和无参数方法两类。

    有参数方法是使用一个模型来评估数据,只需存放参数,而不需要存放实际数据,例如回归(线性回归和多回归)和对数线性模型。无参数方法就需要存放实际数据,例如直方图、聚类、抽样。

    (1)直方图
    直方图实用分箱来近似数据分布,是一种流行的数据规约形式。属性A的直方图将A的数据分布划分为不想交的子集或桶。通过这种方式可以对数据进行规约,只用一个直方图表示大部分数据A属性的特征。

    (2)聚类
    聚类技术将数据元组视为对象。它将对象划分为簇,使一个簇中的对象那个相互“相似”,而与其他簇中的对象“相异”。在数据规约中,用数据的簇替换实际数据。该技术的有效性依赖于簇的定义是否符合分布性质。

    (3)抽样
    抽样应该是我们现实生活中最常采用也最多采用的数据规约技术,它的思路是用比原始数据小得多的随机样本表示原始数据集。假定原始数据集D包括N个元组,可以采用抽样方法对D进行抽样。

    (4)参数回归
    简单线性模型和对数模型可以采用近似描述给定的数据。线性模型对数据建模,使之拟合一条直线。

  • 相关阅读:
    Linux之网络基础
    Tomcat配置虚拟目录并发布web应用
    Linux之权限管理操作
    Linux之shell编程基础
    Python简介
    Python代码注释 Python零基础入门教程
    Python Pycharm Anacanda 区别
    Python Hello World入门
    Python2.x 和 Python3.x,如何选择?
    数据库课程设计心得【1】
  • 原文地址:https://www.cnblogs.com/gaoxing2580/p/12817315.html
Copyright © 2011-2022 走看看