zoukankan      html  css  js  c++  java
  • WEKA——数据挖掘与机器学习工具

    子将父做马,父愿子成龙

    参考书籍

    《数据挖掘与机器学习WEKA应用技术与实践》袁梅宇 编著
    《数据挖掘:使用机器学习工具与技术》

    Weka功能

    Weka 主界面称为Weka GUI 选择器。

    1. Explorer(探索者):通过选择菜单和填写表单可以调用Weka的所有功能。不过存在一些问题就是,要求它所需的数据需要一次性全部读入内存。
    2. KnowledgeFlow(知识流):可以使用增量方式的算法处理大型数据集,用户可以绘制处理数据流的方式和顺序。
    3. Experimenter(实验者):用于帮助用户解答实际应用分类和回归技术中遇到的一个基本问题——对于一个已知问题,哪种方法及参数值能够取得最佳效果。
    4. Simple CLI(简单命令行界面):为不提供自己命令行界面的操作系统提供的,该简单的命令行界面用于和用户进行交互,可以直接执行Weka命令。
      • CLI(command-line interface)

    机器学习分类

    机器学习分为两种主要类型:有监督学习和无监督学习。 有监督的学习是指在给定的一系列的I&O实例构成的数据集的条件下,学习输入x到输出y的映射关系。这里的数据集合称为训练集,实例个数称为样本个数。 无监督学习有时候也称为知识发现、描述学习。这类问题并没有明确的定义,因为我们不知道要寻找什么样的模式,也没有明显的误差度量可供使用。

    数据和数据集

    数据视为是待处理的数据对象的集合。数据对象有多个别名如记录、行、向量、点、样本、案例等;数据对象的描述可以用对象的基本特征属性来描述,属性也有多个别名如变量、字段、列、维、特征等。 属性可以分为四种类型:标称(nominal)、序数(ordinal)、区间(interval)和比率(ratio)。其中,标称属性的值不仅仅是不同的名称,标称值仅提供区分对象足够的信息,如性别(男、女)、颜色(红、绿、蓝)、天气(阴、晴、雨、多云)等;序数属性的值可以提供确定对象顺序的足够信息,如成绩等级(优良中差)、职称(初中高)、学生(本硕博)等;区间属性的值之间的差是有意义的,即存在度量单位,如温度、日历日期等;比率属性的值之间的差和比值都是意义的,如绝对温度、年龄、长度、成绩分数等。

    标称属性和序数属性统称为分类或者定性属性。他们的取值为集合,即使使用数值来表示,要不具备数的大部分的性质,因此,应该像对待符号一样对待;区间属性和比率属性称为定量活数值属性,定量属性采用数值来表示,具备数的大部分性质,可以使用整数值或连续值来表示。

    • ARFF(Attribute-Relation File Format)属性-关系文件格式。
      数据集是实例的集合,每个实例包含一定的属性。
      @relation weather
      定义内部数据集的名称
      @attribute outlook {sunny, overcast, rainy}
      定义标称型属性 给出预定义取值空间
      @attribute temperature real
      定义数值型属性,real类型
      @data
      各行构成数据集合,每一个实例样本用“,”分隔的值组成,顺序和 @attribute中定义的属性顺序一致。

    数据预处理

    避免数据质量问题
    • 数据质量问题的检测和纠正:在数据挖掘之前检测并且纠正数据的一些质量问题,这个过程叫做数据预处理。
    • 使用能够容忍低质量数据的算法:提高算法的健壮性。

       数据预处理的一些技术:聚集、抽样、维度归纳、属性选择、属性创建、离散化和二元化、变量变换。
      

    Weka版本使用

    首先下载最新版的适合自己系统的[版本](http://www.cs.waikato.ac.nz/ml/weka/downloading.html)
    1. 使用weka包管理器:从包管理器GUI进入管理页面,然后进行install。如果出现无法连接和超时链接的问题,这是因为包所在的SF网站有容量限制,该网站因为用户过多不堪重负。解决办法:找到C:Users***wekafilesprops目录之后,在目录中创建一个PackageRepository的文本文件,在第一行加入如下的内容weka.core.wekaPackageRepositoryURL=http://www.cs.waikato.ac.nz/ml/weka/packageMetaData

    2. 使用UTF-8数据集或者文件在RunWEKA.ini文件中修改fileEncoding=Cp1252改成fileEncoding=UTF-8。

    3. Weka访问数据库
    踏实 踏踏实实~
  • 相关阅读:
    【已解决】github中git push origin master出错:error: failed to push some refs to
    好记心不如烂笔头,ssh登录 The authenticity of host 192.168.0.xxx can't be established. 的问题
    THINKPHP 5.0目录结构
    thinkphp5.0入口文件
    thinkphp5.0 生命周期
    thinkphp5.0 架构
    Django template
    Django queryset
    Django model
    Python unittest
  • 原文地址:https://www.cnblogs.com/mrzhang123/p/5365816.html
Copyright © 2011-2022 走看看