测试用例

HiBench

Intel-bigdata/HiBench: HiBench is a big data benchmark suite. (github.com)

一个大数据测试集,用于评估大数据框架的速度、吞吐量、系统资源利用率。测试集包括Hadoop、Spark、流式处理的工作负载。

工作负载

  • 经典任务:Sort、WordCount、……

  • 机器学习:Naive Bayes、kk-means、LDA、PCA、XGBoost、……

  • 数据库:Scan、Join、……

  • 网页查询:PageRank、……

  • ……

Docker

HiBench/docker at master · Intel-bigdata/HiBench (github.com)

在Ubuntu 14.04上的伪分布式环境。

使用HiBench

HiBench/docs at master · Intel-bigdata/HiBench (github.com)

构建HiBench

首先需要有Maven环境。

构建所有

一次性构建所有测试,比较耗时,下载的第三方库较多。

1
mvn -Dspark=2.4 -Dscala=2.11 clean package
构建特定框架的测试
1
mvn -Phadoopbench -Dspark=2.4 -Dscala=2.11 clean package
1
mvn -Phadoopbench -Psparkbench -Dspark=2.4 -Dscala=2.11 clean package
构建特定测试模块
1
mvn -Psparkbench -Dmodules -Psql -Dspark=2.4 -Dscala=2.11 clean package

运行Hadoop测试

环境依赖
  • Python 2.x (2.6\geqslant 2.6)

  • Linux bc 支持

  • Apache Hadoop 2.x

  • 开启 HDFS、Yarn

配置文件
属性 含义
hibench.hadoop.home Hadoop安装位置
hibench.hadoop.executable Hadoop可执行文件路径
hibench.hadoop.configure.dir Hadoop配置文件路径
hibench.hdfs.master 存储HiBench数据的HDFS根路径
hibench.hadoop.release 填写“apache”
运行测试
1
2
bin/workloads/micro/wordcount/prepare/prepare.sh
bin/workloads/micro/wordcount/hadoop/run.sh
测试结果

<HiBench_Root>/report/hibench.report包含负载名称、运行时间、数据大小、吞吐量。

TPC-H

TPC-H是业界常用的一套Benchmark,由TPC委员会制定发布,用于评测数据库的分析型查询能力。TPC-H查询包含8张数据表、22条复杂的SQL查询,大多数查询包含若干表Join、子查询和Group-by聚合等。

官网暂时打不开

TPC-H测试 (aliyun.com)

大数据平台