zoukankan      html  css  js  c++  java
  • Weka中数据挖掘与机器学习系列之数据格式ARFF和CSV文件格式之间的转换(五)

      不多说,直接上干货!

    Weka介绍:

      Weka是一个用Java编写的数据挖掘工具,能够运行在各种平台上。它不仅提供了可以直接用于数据挖掘的软件,还提供了src代码,使用者可以修改源代码,进行二次开发。但是,由于其使用了Java虚拟机,导致其不适合处理大型数据,运行缓慢。处理超过一定大小数据,还会溢出heap size,使程序崩溃。但作为初学者,很适合通过处理一些小型数据集,以直观地了解各种数据挖掘方法。它还自带一些典型的数据集,可以直接使用。在安装目录下的data子目录中。

      Weka通常使用ARFF文件格式的文件。也可以直接使用CSV文件格式的文件,但与传统CSV文件不同,Weka能识别的CSV文件要求第一行给各列的定义。因为CSV文件比较容易获得,excel表格文件可以直接另存为csv文件。推荐使用csv文件。

      以著名数据挖掘数据集鸢尾花为例,该数据集对应的iris.csv文件应如下所示:

    sepal-length,sepal-width,petal-length,petal-width,class  
    5.1,3.5,1.4,0.2,Iris-setosa  
    4.9,3.0,1.4,0.2,Iris-setosa  
    4.7,3.2,1.3,0.2,Iris-setosa  
    4.6,3.1,1.5,0.2,Iris-setosa  

    1、使用Weka工具,将ARFF文件转换成CSV文件

      进入Explorer模块,点击界面上方的按钮“open file”打开文件选择面板,将面板下方的文件类型选择“所有文件”,找到

    iris.arff文件即可将数据导入到Explorer如下图所示。

     

       得到

     

     

     

    2、使用Weka工具,将CSV文件转换成ARFF文件

      打开Weka的Explorer界面

      

      比如,这里,我先把iris.arff拷贝到桌面去。

      然后,在preprocess->open file

      将面板下方的文件类型选择“所有文件”,找到iris.csv

     

      通过save可以将CSV文件另存为ARFF文件。格式如下图所示:

     

     

     

      成功!

  • 相关阅读:
    SSRS 实用技巧 ---- 为表格添加展开/折叠操作(明细报表)
    Log4J & elk 事故总结
    Java基础-反射
    Fork/Join 框架-设计与实现(翻译自论文《A Java Fork/Join Framework》原作者 Doug Lea)
    Java 泛型中的PECS原则
    Java并发编程-Executor框架集
    mongodb oplog与数据同步
    Java并发编程-移相器
    Java并发编程-信号量
    Java并发编程-闭锁
  • 原文地址:https://www.cnblogs.com/zlslch/p/6842115.html
Copyright © 2011-2022 走看看