weka使用笔记1FPGrowth注意事项和参数说明

zoukankan html css js c++ java

weka使用笔记1FPGrowth注意事项和参数说明

weka是一个很好的数据挖掘实验的工具，可以进行标准的数据挖掘的各种实验，首先来说一下关联规则的挖掘。

在linux环境下，在使用weka之前，要配置好环境变量，将weka目录下的weka.jar的位置加到classpath中，然后就可以调用weka的命令行进行数据挖掘了。weka的apriori算法优化非常不好，相当占用内存，大约50w的属性开14G的内存都不够用，所以如果在本机进行数据量较大的实验的话，要选FPGrowth算法。FPGrowth算法只需要扫面两遍数据库，虽然他是递归的选择rules的，也比较占用内存，但是如果有4G以上的内存的话，基本上就够用了。至于FPGrowth的算法实现，就不做赘述了，网上一大堆，理解起来也不是很难。

weka默认的数据形式是.arff格式的，arff格式很简单，支持稀疏格式，一般的关联规则都要用稀疏格式的数据，提醒一点的是，构建稀疏格式的arff文件的时候，数据行上一定不要忘记加上｛｝。

FPGrowth的参数：-t，系统默认参数，是指定要进行挖掘的数据文件的；-N，是给出要输出多少条规则；-T是指定选择哪个量进行排序，weka提供四种排序方法，0=confidence ，1=lift ， 2=leverage ， 3=Conviction。4种参数代表的意义一查就有，0，1，3都是越大越好，2一般出来都是0。-C是指你选定的那个排序参数的那个最小值，-M是是支持度的最小值，-U是支持度的最大值。

进行挖掘的时候如果想把输出结果保存的话，可以利用linux的管道，命令后面加上| tee yourFilename就好了。

查看全文

相关阅读:
mysql中字符集和排序规则说明
 结束进程的批处理文件
 内有干货！2个人3个月怎样从零完毕一款社区App《林卡》
九度OJ 1006 ZOJ问题（这题測试数据有问题）
简易版的堆的写法
 hbase
JNDI配置c3p0连接池
 [effictive c++] 条款04 确定对象被使用前已被初始化
 第九十五题（推断一字符串是不是对称的）
OpenFace库(Tadas Baltrusaitis)中基于Haar Cascade Classifiers进行人脸检測的測试代码

原文地址：https://www.cnblogs.com/fbiswt/p/2732422.html