zoukankan      html  css  js  c++  java
  • mahout处理路透社语料步骤,转换成须要的格式

    首先下载路透社语料(百度就能够下载):



    然后上传Linux 并解压到指定文件夹。Tips:此处我放在可 /usr/hadoop/mahout/reutersTest/reuters


    tar -zxvf /usr/hadoop/mahout/reutersTest/reuters/reuters21578.tar.gz





    接下来转换语料格式。要求步骤是:


    .sgm文件  ===> .txt文件  ===>  sequence文件  ===> vector 文件


    结合写一个java代码。使用mahout的org.apache.lucene.benchmark.utils.ExtractReuters类依照

    一个新闻一个文档的形式 把格式转换为.txt文件。



    <strong><span style="font-size:18px;">/***
     * @author YangXin
     * @info 处理路透社语料编程.txt格式
     */
    package unitEight;
    
    import java.io.File;
    
    import org.apache.lucene.benchmark.utils.ExtractReuters;
    
    public class TestExtractReuters {
    	public static void main(String[] args) {
    	    // TODO Auto-generated method stub
    	    File inputFolder = new File("G:\reuter"); 
    	    File outputFolder = new File("G:\reuters-Text");
    	    ExtractReuters extractor = new ExtractReuters(inputFolder, outputFolder);
    	    extractor.extract();
    		}
    }</span></strong>
    


    数据比較多,我就截了一部分:



    接着输入:

    mahout seqdirectory -c UTF-8 -i /usr/hadoop/mahout/reutersTest/reuters-Text -o reuters-seqfiles


    然后能够查看到hdfs上出现了例如以下文件夹:




    接着输入:

    mahout seq2sparse -i reuters-seqfiles/ -o reuters-vectors -ow





    最后能够下载下来查看。



  • 相关阅读:
    Python使用struct处理二进制
    ProtoBuf与Python结合使用初步
    智能指针shared_ptr的用法
    C++模板
    mac 安装protobuf,并编译为java,c++,python
    java的HashCode方法
    JVM的内存结构
    HashSet与TreeSet的比较
    面向对象的特征有哪些方面?
    Collection与Collections的区别是什么?
  • 原文地址:https://www.cnblogs.com/liguangsunls/p/7122057.html
Copyright © 2011-2022 走看看