zoukankan      html  css  js  c++  java
  • mahout RecommenderJob 参数含义

    --input(path): 存储用户偏好数据的目录,该目录下可以包含一个或多个存储用户偏好数据的文本文件;

    --output(path): 结算结果的输出目录

    --similarityClassname (classname): 向量相似度计算类,可选的相似度算法包括CityBlockSimilarity,CooccurrenceCountSimilarity,CosineSimilarity,CountbasedMeasure,EuclideanDistanceSimilarity,LoglikelihoodSimilarity,PearsonCorrelationSimilarity, TanimotoCoefficientSimilarity。注意参数中要带上包名。

    --usersFile (path): 指定一个包含了一个或多个存储userID的文件路径,仅为该路径下所有文件包含的userID做推荐计算 (该选项可选)

    --itemsFile (path): 指定一个包含了一个或多个存储itemID的文件路径,仅为该路径下所有文件包含的itemID做推荐计算 (该选项可选)

    --filterFile (path): 指定一个路径,该路径下的文件包含了[userID,itemID]值对,userID和itemID用逗号分隔。计算结果将不会为user推荐[userID,itemID]值对中包含的item (该选项可选)

    --maxPrefsPerUser (integer): 在最后计算推荐结果的阶段,针对每一个user使用的偏好数据的最大数量,默认为10

    --maxSimilaritiesPerItem (integer): 针对每个item的相似度最大值,默认为100

    --minPrefsPerUser (integer): 在相似度计算中,忽略所有偏好数据量少于该值的用户,默认为1

    --maxPrefsPerUserInItemSimilarity (integer): 在item相似度计算阶段,针对每个用户考虑的偏好数据最大数量,默认为1000

    --threshold (double): 忽略相似度低于该阀值的item,默认值为4.9E-324

    用hadoop运行hadoop jar mahout-core-0.9-job.jar org.apache.mahout.cf.taste.hadoop.item.RecommenderJob --input /user/mahout/file --output /user/mahout/result --tempDir /tmp --similarityClassname org.apache.mahout.math.hadoop.similarity.cooccurrence.measures.LoglikelihoodSimilarity 

  • 相关阅读:
    (转)Linux系统调用和库函数调用的区别
    一个“梦想实践重度障碍者”的思考
    按字节输出数据
    内存区划分、内存分配、常量存储区、堆、栈、自由存储区、全局区[C++][内存管理]
    VimdiffVIM的比较和合并工具
    [每天进步一点 流水账]回顾总结
    计算机就业方向
    ofstream和ifstream详细用法(转)
    ECMAScript 运算符关系运算符
    ECMAScript 语句标签语句
  • 原文地址:https://www.cnblogs.com/native-hadoop/p/4332922.html
Copyright © 2011-2022 走看看