zoukankan      html  css  js  c++  java
  • weka及其数据格式(转)

    http://hi.baidu.com/stockfans/blog/item/489c4b1010584304213f2e98.html

    文件结构

    识别ARFF文件的重要依据是分行,因此不能在这种文件里随意的断行。空行(或全是空格的行)将被忽略。

    以“%”开始的行是注释,WEKA将忽略这些行。如果你看到的“weather.arff”文件多了或少了些“%”开始的行,是没有影响的。

    除去注释后,整个ARFF文件可以分为两个部分。第一部分给出了头信息(Head information),包括了对关系的声明和对属性的声明。第二部分给出了数据信息(Data information),即数据集中给出的数据。从“@data”标记开始,后面的就是数据信息了。

    头信息

    数据信息

    其他格式转换成ARFF

    虽然Weka也支持其他一些格式的文件,但是ARFF格式是支持的最好的。因此有必要在数据处理之前把数据集的格式转换成ARFF。

    CSV

    • 将CSV转换为ARFF最迅捷的办法是使用WEKA所带的命令行工具。
    运行WEKA的主程序,在菜单中找到“Simple CLI”模块,它可提供命令行功能。在新窗口的最下方(上方是不能写字的):输入框写上
    java weka.core.converters.CSVLoader filename.csv > filename.arff
    即可完成转换。
    • 在WEKA 3.5中提供了一个“Arff Viewer”模块,我们可以用它打开一个CSV文件将进行浏览,然后另存为ARFF文件。
    • 进入“Exploer”模块,从上方的按钮中打开CSV文件然后另存为ARFF文件亦可。

    C4.5

    与CSV文件类似。

    XLS

    Excel的XLS文件可以让多个二维表格放到不同的工作表(Sheet)中,我们只能把每个工作表存成不同的CSV文件。打开一个XLS文件并切换到需要转换的工作表,另存为CSV类型,点“确定”、“是”忽略提示即可完成操作。

    接下来把得到的CSV文件按照前述步骤转换为ARFF即可。

    MAT

    在Matlab中的二维表格是一个矩阵,我们通过这条命令把一个矩阵存成CSV格式。

    csvwrite('filename',matrixname)

    需要注意的是,Matllab给出的CSV文件往往没有属性名(Excel给出的也有可能没有)。而WEKA必须从CSV文件的第一行读取属性名,否则就会把第一行的各属性值读成变量名。因此我们对于Matllab给出的CSV文件需要用文本编辑软件打开,手工添加一行属性名。注意属性名的个数要跟数据属性的个数一致,仍用逗号隔开。

  • 相关阅读:
    再见2011,展望2012!
    软件测试经验分享
    常用window命令
    测试报告编写
    酒桌上的计算机网络
    OA压力测试案例
    FileSystemObject和Folders使用详细介绍
    关于盘点的问题汇总
    PB 图表数据窗口操作
    sqlserver2005中行转列的方法
  • 原文地址:https://www.cnblogs.com/finallyliuyu/p/1806414.html
Copyright © 2011-2022 走看看