mahout处理路透社语料步骤，转换成须要的格式

zoukankan html css js c++ java

mahout处理路透社语料步骤，转换成须要的格式
首先下载路透社语料（百度就能够下载）：

然后上传Linux 并解压到指定文件夹。Tips:此处我放在可 /usr/hadoop/mahout/reutersTest/reuters

tar -zxvf /usr/hadoop/mahout/reutersTest/reuters/reuters21578.tar.gz

接下来转换语料格式。要求步骤是：

.sgm文件 ===> .txt文件 ===> sequence文件 ===> vector 文件

结合写一个java代码。使用mahout的org.apache.lucene.benchmark.utils.ExtractReuters类依照

一个新闻一个文档的形式把格式转换为.txt文件。

<strong><span style="font-size:18px;">/*** * @author YangXin * @info 处理路透社语料编程.txt格式 */ package unitEight; import java.io.File; import org.apache.lucene.benchmark.utils.ExtractReuters; public class TestExtractReuters { public static void main(String[] args) { // TODO Auto-generated method stub File inputFolder = new File("G:\reuter"); File outputFolder = new File("G:\reuters-Text"); ExtractReuters extractor = new ExtractReuters(inputFolder, outputFolder); extractor.extract(); } }</span></strong>

数据比較多，我就截了一部分：

接着输入：

mahout seqdirectory -c UTF-8 -i /usr/hadoop/mahout/reutersTest/reuters-Text -o reuters-seqfiles

然后能够查看到hdfs上出现了例如以下文件夹：

接着输入：

mahout seq2sparse -i reuters-seqfiles/ -o reuters-vectors -ow

最后能够下载下来查看。
查看全文

相关阅读:
设计模式Day02
OA,ERP等源码一部分演示
 第三方登录
 其实没那么复杂！探究react-native通信机制
 学习面试题（day01）
学习面试题Day02
学习面试题Day03
python 字典排序
 Mac系统下adb工具的配置
 Mac adb 安装

原文地址：https://www.cnblogs.com/liguangsunls/p/7122057.html