分布式框架调度器的测试用例和算法
测试用例
HiBench
Intel-bigdata/HiBench: HiBench is a big data benchmark suite. (github.com)
一个大数据测试集,用于评估大数据框架的速度、吞吐量、系统资源利用率。测试集包括Hadoop、Spark、流式处理的工作负载。
工作负载
-
经典任务:Sort、WordCount、……
-
机器学习:Naive Bayes、-means、LDA、PCA、XGBoost、……
-
数据库:Scan、Join、……
-
网页查询:PageRank、……
-
……
Docker
HiBench/docker at master · Intel-bigdata/HiBench (github.com)
在Ubuntu 14.04上的伪分布式环境。
使用HiBench
构建HiBench
首先需要有Maven环境。
构建所有
一次性构建所有测试,比较耗时,下载的第三方库较多。
1 | mvn -Dspark=2.4 -Dscala=2.11 clean package |
构建特定框架的测试
1 | mvn -Phadoopbench -Dspark=2.4 -Dscala=2.11 clean package |
1 | mvn -Phadoopbench -Psparkbench -Dspark=2.4 -Dscala=2.11 clean package |
构建特定测试模块
1 | mvn -Psparkbench -Dmodules -Psql -Dspark=2.4 -Dscala=2.11 clean package |
运行Hadoop测试
环境依赖
-
Python 2.x ()
-
Linux
bc
支持 -
Apache Hadoop 2.x
-
开启 HDFS、Yarn
配置文件
属性 | 含义 |
---|---|
hibench.hadoop.home | Hadoop安装位置 |
hibench.hadoop.executable | Hadoop可执行文件路径 |
hibench.hadoop.configure.dir | Hadoop配置文件路径 |
hibench.hdfs.master | 存储HiBench数据的HDFS根路径 |
hibench.hadoop.release | 填写“apache” |
运行测试
1 | bin/workloads/micro/wordcount/prepare/prepare.sh |
测试结果
<HiBench_Root>/report/hibench.report
包含负载名称、运行时间、数据大小、吞吐量。
TPC-H
TPC-H是业界常用的一套Benchmark,由TPC委员会制定发布,用于评测数据库的分析型查询能力。TPC-H查询包含8张数据表、22条复杂的SQL查询,大多数查询包含若干表Join、子查询和Group-by聚合等。
官网暂时打不开
大数据平台
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 11D_Beyonder's Blog!