zoukankan      html  css  js  c++  java
  • mahout的数据处理--【根据文本文件创建vector】

    mahout有根据目录下文本转换为Vectors的工具。

    在创建vector前需要将文档转换为SequenceFile格式【hadoop存储文件的格式】

    SequenceFile是key--value形式的存储。

    DocumentVectorizer 需要以unique类型为key,UTF-8格式的文本内容为value的数据格式。

    您可能会发现有助于提卡http://lucene.apache.org/tika转换成二进制文件以文本

    mahout有一个漂亮的工具,它读取目录以及它的子目录分块方式为我们创建SequenceFile格式的数据生成的文档的ID<PREFIX><RELATIVE PATH FROM PARENT>/document.txt的形式。

    运行的命令如下

    $MAHOUT_HOME/bin/mahout seqdirectory 
    --input <PARENT DIR WHERE DOCS ARE LOCATED> --output <OUTPUT DIRECTORY> 
    <-c <CHARSET NAME OF THE INPUT DOCUMENTS> {UTF-8|cp1252|ascii...}> 
    <-chunk <MAX SIZE OF EACH CHUNK in Megabytes> 64> 
    <-prefix <PREFIX TO ADD TO THE DOCUMENT ID>>

    将SequenceFile格式转换为vector格式的命令:

    $MAHOUT_HOME/bin/mahout seq2sparse 
    -i <PATH TO THE SEQUENCEFILES> -o <OUTPUT DIRECTORY WHERE VECTORS AND DICTIONARY IS GENERATED> 
    <-wt <WEIGHTING METHOD USED> {tf|tfidf}> 
    <-chunk <MAX SIZE OF DICTIONARY CHUNK IN MB TO KEEP IN MEMORY> 100> 
    <-a <NAME OF THE LUCENE ANALYZER TO TOKENIZE THE DOCUMENT> org.apache.lucene.analysis.standard.StandardAnalyzer> 
    <--minSupport <MINIMUM SUPPORT> 2> 
    <--minDF <MINIMUM DOCUMENT FREQUENCY> 1> 
    <--maxDFPercent <MAX PERCENTAGE OF DOCS FOR DF. VALUE BETWEEN 0-100> 99> 
    <--norm <REFER TO L_2 NORM ABOVE>{INF|integer >= 0}>"
    <-seq <Create SequentialAccessVectors>{false|true required for running some algorithms(LDA,Lanczos)}>"

    - minSupport被认为作为一个特征出现最小频率的词 - minDF在一个词出现的最小的文件数。
    - maxDFPercent是在一个文档中,一个良好特征需要的最大的表达式的值一个词文档中的频数/总的文档数有助于消除频率的特征,如停用词。

  • 相关阅读:
    Javascript的私有变量和方法、共有变量和方法以及特权方法、构造器、静态共有属性和静态共有方法
    Spring4整合Hibernate4出现的错误的解决
    Javascript类的创建
    Kettle学习总结(一)
    Kettle Excel导入数据到数据库
    Python 爬虫 2 (转)
    Js仿腾讯微博效果
    飘雪效果
    列表获取对应图片
    飞入购物车
  • 原文地址:https://www.cnblogs.com/AI001/p/3368863.html
Copyright © 2011-2022 走看看