测试用例

HiBench

Intel-bigdata/HiBench: HiBench is a big data benchmark suite. (github.com)

一个大数据测试集，用于评估大数据框架的速度、吞吐量、系统资源利用率。测试集包括Hadoop、Spark、流式处理的工作负载。

工作负载

经典任务：Sort、WordCount、……
机器学习：Naive Bayes、 $k$ -means、LDA、PCA、XGBoost、……
数据库：Scan、Join、……
网页查询：PageRank、……
……

Docker

HiBench/docker at master · Intel-bigdata/HiBench (github.com)

在Ubuntu 14.04上的伪分布式环境。

使用HiBench

HiBench/docs at master · Intel-bigdata/HiBench (github.com)

构建HiBench

首先需要有Maven环境。

构建所有

一次性构建所有测试，比较耗时，下载的第三方库较多。

1	mvn -Dspark=2.4 -Dscala=2.11 clean package

构建特定框架的测试

1	mvn -Phadoopbench -Dspark=2.4 -Dscala=2.11 clean package

1	mvn -Phadoopbench -Psparkbench -Dspark=2.4 -Dscala=2.11 clean package

构建特定测试模块

1	mvn -Psparkbench -Dmodules -Psql -Dspark=2.4 -Dscala=2.11 clean package

运行Hadoop测试

环境依赖

Python 2.x ( $\geqslant 2.6$ )
Linux bc 支持
Apache Hadoop 2.x
开启 HDFS、Yarn

配置文件

属性	含义
hibench.hadoop.home	Hadoop安装位置
hibench.hadoop.executable	Hadoop可执行文件路径
hibench.hadoop.configure.dir	Hadoop配置文件路径
hibench.hdfs.master	存储HiBench数据的HDFS根路径
hibench.hadoop.release	填写“apache”

运行测试

1 2	bin/workloads/micro/wordcount/prepare/prepare.sh bin/workloads/micro/wordcount/hadoop/run.sh

测试结果

<HiBench_Root>/report/hibench.report包含负载名称、运行时间、数据大小、吞吐量。

TPC-H

TPC-H是业界常用的一套Benchmark，由TPC委员会制定发布，用于评测数据库的分析型查询能力。TPC-H查询包含8张数据表、22条复杂的SQL查询，大多数查询包含若干表Join、子查询和Group-by聚合等。

官网暂时打不开

TPC-H测试 (aliyun.com)

分布式框架调度器的测试用例和算法

测试用例

HiBench

工作负载

Docker

使用HiBench

构建HiBench

构建所有

构建特定框架的测试

构建特定测试模块

运行Hadoop测试

环境依赖

配置文件

运行测试

测试结果

TPC-H

大数据平台