在“大数据产业峰会—分布式数据库技术论坛”上,华东师范大学数据科学工程学院教授张蓉带来主题演讲,围绕《面向应用的数据库评测基准》做出了详尽分享。
华东师范大学数据科学工程学院教授张蓉
评测基准(benchmark)指一套用于评测、比较不同系统性能的规范。基准评测(benchmarking)指制定、利用评测基准,对系统进行评测的过程。
基准评测,一个是客观反映各系统的性能差距,第二是推动技术进步,形成良性竞争局面,第三是引导行业健康发展。
大数据管理系统处于高速发展、百花齐放的阶段BDMS系统功能、接口层次、架构、实现技术、面向应用和底层硬件不同。BDMS系统间的竞争比上世纪80年代RDBMS系统间的竞争更激烈,竞争环境更复杂。
系统类型和任务类型更为多样,基准评测有助于引领大数据管理系统和实现技术进入良性发展阶段。
TPCTC会议、年都以大数据环境下的基准评测为主要论题,欧盟第七框架项目年即开始资助新型评测基准的研究,以期实现新型数据环境下的“TPC”欧盟“地平线”科研计划将评测基准列。
为年“大数据”主题的首要研究任务ICT16BigDataresearch(H-ICT-)企业和科研组织:
?Teradata:BigBench,BigDataTop
?Facebook:LinkBench
?AMPLab:BigDataBenchmark
?中科院计算所:BigDataBench
研究目标:
?一个是过仿真性,评测基准能够忠实模。
?二是可适配性,评测基准能够通过配置,满足不同类型应用的模拟和评测需求。
?三是可参考性,评测指标公平、客观、可用。
?四是可扩展性,评测可满足不同的测试任务需求。
随着客户端的增加,我的负载能够上去,这点也是能够增加的,也是能够支持的,我们这个组,现在定义了一个新的,模拟的是抢购任务,我们跟技术人员做过交互,我们定义了八张表,十一个负载,我们也实现了自己的工具,这个工具现在已经开源了,我们实现这个工具的同时,秉承着刚才四个维度上的控制,提供给用户的控制能力,去定义自己负载在资源上的竞争,模拟在时间维度上的变化,以及不同类型的负载本身的分布,我们都可以提供。开源的网址在上面,如果大家感兴趣可以看一看。
我们根据PTCC做了相关的实验,当我们的数据库表大到一定程度,整体的性能是下降的,而不是数据库性能会上升,当你的表大的时候,我数据库的性能会下降,通过这样的方式,我去控制资源其实是比较难的。
第二点,我们通过函数的倾斜度控制负载对资源的竞争,当倾斜度变大,数据库性能下降,当负载落在数据级,相对来说大一点,整个数据库性能的影响其实是很小的,这几条线还是比较平的。我们可以提供两个参数,一个是冲突比例,一个是冲突参数,能够非常有效的看到资源的竞争对数据库性能的影响。
现在对于AP数据库测试常用的benchmark就是tpc-h,负载会更复杂,总量会更多。
tpc-h这种是的benchmark也是抽象于现实的应用,把现实中应用的共有和通用的负载出来。底层数据量和数据分布对于测试出来的数据库性能影响比较大,我们仅仅