zoukankan      html  css  js  c++  java
  • 2014-08-4

      今天做的就是将fpg跑出来的结果进行各种指标计算,但是因为用python还是不是特别熟悉,因为没有找到python能处理类似SequenceFile这样的类库,所以就用java编写,这下就是折腾各种包引用,就是classpath的引用。由于涉及到hadoop和mahout的包,这样需要添加到classpath里面的包就很多很多,如果自己一个一个的添加,也许一天下来就差不多完了(我自己就这样折腾了好几个小时),最后在网上到处搜找到了“classpath多个包添加”这个方法。还有用shell的,但是自己还不会。程序差不多就跑通了。那今天目前遇到的问题:

      1、classpath的添加

      2、java的OutOfMemoryError:Java heap space:分开处理了part-r-00000,和part-r-00001

      3、还有就是最后关联规则的度量标准,虽然知道有哪些,但是还是不是特别明白其数值大小代表什么意思。

      http://www.cnblogs.com/fengfenggirl/p/3255173.html;

      http://web.engr.illinois.edu/~hanj/pdf/pkdd07_twu.pdf;

      http://www.nyu.edu/classes/jcf/g22.3033-002/slides/session6/MiningFrequentPatternsAssociationAndCorrelations.pdf;

      4、一开始的数据的处理就有问题:对于关联规则,一、不存在时间顺序问题,二、每一个事物里面不要用重复的数据,这样用python处理的话,就要考虑用到数据结构。python处理: http://woodpecker.org.cn/diveintopython/native_data_types/lists.html;http://woodpecker.org.cn/diveintopython/index.html;http://sebug.net/paper/python/ch09s04.html;

    http://wangwei007.blog.51cto.com/68019/903426

      5、数据的report和action,不能每一个都有记录,只保留需要加载的:view0,view1,related。

  • 相关阅读:
    [刷题] IDA*
    [BZOJ1330] Editing a Book
    [BZOJ5449] 序列
    [刷题] 搜索剪枝技巧
    [XJOI3529] 左右
    [CF920E] Connected Components?
    [第18届 科大讯飞杯 J] 能到达吗
    洛谷 P4779 【模板】单源最短路径(标准版)
    洛谷 P1175 表达式的转换
    pipioj 1291 中缀表达式转后缀表达式I
  • 原文地址:https://www.cnblogs.com/leewiki/p/3891104.html
Copyright © 2011-2022 走看看