zoukankan      html  css  js  c++  java
  • mahout处理路透社语料步骤,转换成须要的格式

    首先下载路透社语料(百度就能够下载):



    然后上传Linux 并解压到指定文件夹。Tips:此处我放在可 /usr/hadoop/mahout/reutersTest/reuters


    tar -zxvf /usr/hadoop/mahout/reutersTest/reuters/reuters21578.tar.gz





    接下来转换语料格式。要求步骤是:


    .sgm文件  ===> .txt文件  ===>  sequence文件  ===> vector 文件


    结合写一个java代码。使用mahout的org.apache.lucene.benchmark.utils.ExtractReuters类依照

    一个新闻一个文档的形式 把格式转换为.txt文件。



    <strong><span style="font-size:18px;">/***
     * @author YangXin
     * @info 处理路透社语料编程.txt格式
     */
    package unitEight;
    
    import java.io.File;
    
    import org.apache.lucene.benchmark.utils.ExtractReuters;
    
    public class TestExtractReuters {
    	public static void main(String[] args) {
    	    // TODO Auto-generated method stub
    	    File inputFolder = new File("G:\reuter"); 
    	    File outputFolder = new File("G:\reuters-Text");
    	    ExtractReuters extractor = new ExtractReuters(inputFolder, outputFolder);
    	    extractor.extract();
    		}
    }</span></strong>
    


    数据比較多,我就截了一部分:



    接着输入:

    mahout seqdirectory -c UTF-8 -i /usr/hadoop/mahout/reutersTest/reuters-Text -o reuters-seqfiles


    然后能够查看到hdfs上出现了例如以下文件夹:




    接着输入:

    mahout seq2sparse -i reuters-seqfiles/ -o reuters-vectors -ow





    最后能够下载下来查看。



  • 相关阅读:
    Swift,数组
    Android-Binder(一)
    Android 前台服务
    Android-Service和Thread
    Android-认识Service
    Android-属性动画
    Android-Activity的切换效果
    Android-LayoutAnimation
    django模板解析 循环列表中 切片和求长度
    ubuntu16 安装cron 以及使用
  • 原文地址:https://www.cnblogs.com/liguangsunls/p/7122057.html
Copyright © 2011-2022 走看看