HiBench学习笔记

zoukankan html css js c++ java

HiBench学习笔记
HiBench资源及教程：https://github.com/intel-hadoop/HiBench

介绍：

Hadoop新人

环境 linux

该笔记针对英语弱鸡&自己在使用过程用遇到的问题的记录。

步骤：

首先创建一个文件夹HiBench：mkdir HiBench

cd HiBench

git clone https://github.com/intel-hadoop/HiBench

先介绍一下我的测试集群的环境：

master
resourcemanager
datanode1
datanode2
datanode3

概述

HiBench是用来在速度方面评估不同的大数据框架的，它包括一系列的Hadoop，Spark，streaming工作负载，包括sort，wordcount，TeraSort, Sleep, SQL, PageRank, Nutch indexing, Bayes, Kmeans, NWeight and enhanced DFSIO,等。同样也为park Streaming, Flink, Storm and Gearpump提供工作负载。

Getting Started
- Build HiBench
- Run HadoopBench
- Run SparkBench
- Run StreamingBench (Spark streaming, Flink, Storm, Gearpump)
Build HiBench

运行mvn -Dscala=2.11 clean package 是Build All，即建立HiBench的所有模块。

可能遇到的问题：

1.bash: mvn : command not found

原因：你的系统上没有安装maven

解决方法：去官网下载

2.执行过程中出现失败

原因：可能是网络的问题吧，我也不是很清楚

解决方法：重复执行该命令，最后出现build succeed 即可。

Run HadoopBench

1.确保：
- Python 2.x(>=2.6) is required.
- Supported Hadoop version: Apache Hadoop 2.x, CDH5.x, HDP
- Build HiBench according to build HiBench.
- Start HDFS, Yarn in the cluster.
2.创建并修改配置文件hadoop.conf

在HiBench的conf下：mkdir hadoop.conf

在HiBench下: cp conf/hadoop.conf.template conf/hadoop.conf

然后修改配置文件： vim hadoop.conf

按照下图的规范：

注意：

1.hibench.hadoop.home是你本机上hadoop的安装路径

2.在配置hibench.hdfs.master的时候我傻傻地写了hdfs://localhost:8020/user/username。。。导致后来运行脚本一直不成功。

首先localhost是你的机器的IP，也可以在命令行输入hostname，用hostname来代替localhost即可。

后面的端口号也不是8020，要根据本机的端口，在命令行输入vi ~/local/hadoop-2.7.3/etc/hadoop/core-site.xml，可以观察到

hdfs://master:9000代替hdfs://localhost:8020，

username写的是你把数据存在了usr下的那个文件里

我配置完的情况是：

接下来就是在HiBench下运行脚本
```
bin/workloads/micro/wordcount/prepare/prepare.sh
 bin/workloads/micro/wordcount/hadoop/run.sh
如果前面都没有问题的话，是能正常执行的。
执行完成以后，你可以在HiBench/report/hibench.report中查看 workload name, execution duration, data size, throughput per cluster, throughput per node等信息
```
```
数据规模也是可以设置的：修改conf/hibench.conf里面的hibench.scale.profile项。


未完待续。。。
```
查看全文

相关阅读:
wgcloud问题处理——被监控的客户机掉线
 WGCLOUD下发指令时候如何屏蔽linux敏感字符
 WGCLOUD左侧菜单如何保持展开状态
 zerotier 实现 minecraft 局域网联机 | 我的世界联机教程 | minecraft联机
 [ UVa 12096 详解] The Set Stack Computer 集合栈计算机 | map、set、vector、stack、宏函数等知识点简单应用
 [ Uva 101 详解 ] the block problem 木块问题
 Python操作数据库基本操作-sqlalchemy
统计目录下程序源程序的行数之和-Python
凯撒密码C++实现
 【题解】[AGC036F] Square Constraints

原文地址：https://www.cnblogs.com/PJQOOO/p/6899988.html

HiBench学习笔记

Getting Started