zoukankan      html  css  js  c++  java
  • weka使用笔记1FPGrowth注意事项和参数说明

    weka是一个很好的数据挖掘实验的工具,可以进行标准的数据挖掘的各种实验,首先来说一下关联规则的挖掘。

    在linux环境下,在使用weka之前,要配置好环境变量,将weka目录下的weka.jar的位置加到classpath中,然后就可以调用weka的命令行进行数据挖掘了。weka的apriori算法优化非常不好,相当占用内存,大约50w的属性开14G的内存都不够用,所以如果在本机进行数据量较大的实验的话,要选FPGrowth算法。FPGrowth算法只需要扫面两遍数据库,虽然他是递归的选择rules的,也比较占用内存,但是如果有4G以上的内存的话,基本上就够用了。至于FPGrowth的算法实现,就不做赘述了,网上一大堆,理解起来也不是很难。

    weka默认的数据形式是.arff格式的,arff格式很简单,支持稀疏格式,一般的关联规则都要用稀疏格式的数据,提醒一点的是,构建稀疏格式的arff文件的时候,数据行上一定不要忘记加上{}。

    FPGrowth的参数:-t,系统默认参数,是指定要进行挖掘的数据文件的;-N,是给出要输出多少条规则;-T是指定选择哪个量进行排序,weka提供四种排序方法,0=confidence ,1=lift , 2=leverage , 3=Conviction。4种参数代表的意义一查就有,0,1,3都是越大越好,2一般出来都是0。-C是指你选定的那个排序参数的那个最小值,-M是是支持度的最小值,-U是支持度的最大值。

    进行挖掘的时候如果想把输出结果保存的话,可以利用linux的管道,命令后面加上| tee yourFilename就好了。

  • 相关阅读:
    百度之星资格赛1001——找规律——大搬家
    HDU1025——LIS——Constructing Roads In JGShining's Kingdom
    DP(递归打印路径) UVA 662 Fast Food
    递推DP UVA 607 Scheduling Lectures
    递推DP UVA 590 Always on the run
    递推DP UVA 473 Raucous Rockers
    博弈 HDOJ 4371 Alice and Bob
    DFS(深度) hihoCoder挑战赛14 B 赛车
    Codeforces Round #318 [RussianCodeCup Thanks-Round] (Div. 2)
    DP(DAG) UVA 437 The Tower of Babylon
  • 原文地址:https://www.cnblogs.com/fbiswt/p/2732422.html
Copyright © 2011-2022 走看看