zoukankan      html  css  js  c++  java
  • weka数据预处理

    Weka数据预处理(一)

    对于数据挖掘而言,我们往往仅关注实质性的挖掘算法,如分类、聚类、关联规则等,而忽视待挖掘数据的质量,但是高质量的数据才能产生高质量的挖掘结果,否则只有"Garbage in garbage out"了。保证待数据数据质量的重要一步就是数据预处理(Data Pre-Processing),在实际操作中,数据准备阶段往往能占用整个挖掘过程6~8成的时间。本文就weka工具中的数据预处理方法作一下介绍。

    Weka 主要支持一种ARFF格式的数据,含有很多数据过滤方法。关于ARFF格式文件,可以在此处了解详情。

    Weka的数据预处理又叫数据过滤,他们可以在weka.filters中找到。根据过滤算法的性质,可以分为有监督的(SupervisedFilter)和无监督的(UnsupervisedFilter)。对于前者,过滤器需要设置一个类属性,要考虑数据集中类的属性及其分布,以确定最佳的容器的数量和规模;而后者类的属性可以不存在。同时,这些过滤算法又可归结为基于属性的(attribute)和基于实例的(instance)。基于属性的方法主要是用于处理列,例如,添加或删除列;而基于实例的方法主要是用于处理行,例如,添加或删除行。

    数据过滤主要解决以下问题(老生常谈的):

    数据的缺失值处理、标准化、规范化和离散化处理。

    数据的缺失值处理:weka.filters.unsupervised.attribute.ReplaceMissingValues。对于数值属性,用平均值代替缺失值,对于nominal属性,用它的mode(出现最多的值)来代替缺失值。

    标准化(standardize):类weka.filters.unsupervised.attribute.Standardize。标准化给定数据集中所有数值属性的值到一个0均值和单位方差的正态分布。

    规范化(Nomalize):类weka.filters.unsupervised.attribute.Normalize。规范化给定数据集中的所有数值属性值,类属性除外。结果值默认在区间[0,1],但是利用缩放和平移参数,我们能将数值属性值规范到任何区间。如:但scale=2.0,translation=-1.0时,你能将属性值规范到区间[-1,+1]。

    离散化(discretize):类weka.filters.supervised.attribute.Discretizeweka.filters.unsupervised.attribute.Discretize。分别进行监督和无监督的数值属性的离散化,用来离散数据集中的一些数值属性到分类属性。

    下文将详细介绍一下Weka数据过滤类。

    Weka数据预处理(二)

    首先来看一下,有关属性—有监督过滤器。

    AddClassification

    该过滤器使用给定的分类器对原始数据添加分类标签,并给出类的分布以及关于原始数据集的错误分类标记。

    其实就是利用分类算法对原始数据集进行预分类,其结果与在classify阶段得到的结果基本一致,同样包括分类的正确率等信息。

    AttributeSelection

    该过滤器,用于进行属性选择。根据给定的挖掘任务,利用合适的评估器,选择最有利于当前挖掘任务的属性。

    ClassOrder

    该过滤器用于改变的数据对象顺序,适用于binary对象和nominal对象。

    Discretize

    离散化过滤器,用于将连续属性离散化。使用频率非常高的一个过滤器,在实际应用当中,离散化也是很常见的数据预处理步骤。

    NorminalToBinary

    标称值转化为二分值。举个例子吧,看官请看下图,一目了然。

    1

    Nominal value

    2

    Binary value

    下面谈到的是实例—有监督过滤器

    Resample

    让人又爱又恨的抽样过滤器。利用放回或者不放回方法抽取特定大小的随机样本。

    抽样方法有很多种,基于水库的、链式抽样、分层抽样等等。

    SMOTE

    同样是抽样过滤器,叫综合少数过采样技术。他要求被采样的原始数据集必须全部存储在内存中。详细内容可以参考Synthetic Minority Over-sampling Technique

    SpreadSubsamp

    该分类器需要得知类标是属性中的哪一个.当获得了类标之后,他会计算出类标属性的分布,同时,按照参数M,指定类标分布的最大差距,比如当给出参数W时,调整数据实例的权重。

    注意,M参数设定值为l时,那么就认为是均匀分布,当设定为0的时候,那么不进行类标分布的拓展(SPread);如果设定大于l,那么这个值就表示了分布最大的类标属性(类标属性最为常见的值)和分布最小的属性(类标属性最为稀少的值)的分布的比例。

    StratfiedRemoveFold

    该过滤器简单的使用n重交叉验证的方法,将数据集进行分割,并返回按照参数指定的子集。

    关于无监督方法的过滤器,可以参考:http://www.cnblogs.com/htynkn/archive/2012/04/02/weka_3.html

     

    参考:

    http://www.pluscn.net/?p=1394

    http://www.pluscn.net/?p=1400

    输入数据与ARFF文件--数据挖掘学习和weka使用(二)

    数据预处理和weka.filters的使用--数据挖掘学习和weka使用(三)

  • 相关阅读:
    从程序设计到软件工程
    必应词典客户端软件测试报告
    软工第二次阅读作业:软件开发的轻与重
    结对编程2:电梯调度程序的UI设计 心得文档
    [MVC]如何提升命名空间的优先级
    asp,net 实现treeview 选种父节点其子节点也选种
    asp.net jmail发送邮件代码
    mysql workbench建表时的字段选项含义
    C#/.NET中的委托与事件
    C# 处理日期时间
  • 原文地址:https://www.cnblogs.com/549294286/p/3644108.html
Copyright © 2011-2022 走看看