在linux上一行代码不用写实现自动采集+hadoop分词 - 走看看

zoukankan html css js c++ java

在linux上一行代码不用写实现自动采集+hadoop分词

在linux上一行代码不用写实现自动采集+hadoop分词

将下面的shell脚本保存成到xxx.sh，然后执行即可

cd /opt/hadoop
mkdir spider
wget -O spider/test.html "http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html"
hadoop fs -mkdir /spider
hadoop fs -put spider/test.html /spider

hadoop jar share/hadoop/mapreduce/wordcount.jar wordcount.wordcount /spider/test.html /fenci2

执行结果如下：

查看全文

相关阅读:
用python实现简单的调度场算法
 数据结构顺序表python
数据结构顺序表C
python绘制5角形，6角星方法
 TsinghuaX+00740043_2X C++程序设计进阶 C7-3
Struts2开发环境搭建，及一个简单登录功能实例
 Javascript进度条
 java.util.Date与java.sql.Date
Error while performing database login with the sqljdbc driver:Unable to create connection. Check your URL.
java.sql.SQLException: [Microsoft][ODBC 驱动程序管理器] 在指定的 DSN 中，驱动程序和应用程序之间的体系结构不匹配

原文地址：https://www.cnblogs.com/bdccloudy/p/7665264.html

Copyright © 2011-2022 走看看