数据库管理系统(DBMS)厂商间的激烈竞争造就了一个数千亿美元的市场。数据库评测(Database Benchmarking)确保了竞争的公平,引导了行业的健康发展。现有方法在支持新型分布式数据库评测以及面向应用场景的数据库系统性能评测上能力可能不够,导致评测结果无法展示数据库系统特性以及比较不同DBMS之间的差异。10月29日上午,华东师范大学数据学院举办以“数据库系统评测和性能分析”为主题的研究生学术沙龙,介绍混部系统的性能分析与数据库系统评测的相关技术。

1636267020602067181.png


本次报告现场吸引了学院不同实验室的同学前来交流学习。在张蓉老师进行了简单的开场介绍后,华东师范大学的郭健美教授、学院DBHammer实验室的博士研究生李可强、王清帅,硕士研究生瞿璐祎分别针对数据中心混部系统的性能分析、HTAP数据库功能评测、面向分析型应用的负载仿真、分布式事务型数据库评测基准,这四个主题进行了精彩的分享。


报告一 数据中心混部系统的性能分析

郭健美老师介绍了大规模异构数据中心集群资源利用的情况,分析了对数据中心进行性能优化的难点与机遇,总结了数据中心性能的衡量指标和优化性能的方法。具体来说,云数据中心市场已很庞大,并仍在快速增长,数据中心已成为支撑大规模互联网服务的标准基础设施,但大规模异构数据中心仍存在集群资源利用率普遍低下、宕机与服务中断频发、混部应用导致竞争加剧等问题。目前还没有统一的标准来衡量数据中心的性能优化情况。报告介绍了Google提出的基于IPC(每cycle的指令数)来衡量的性能评估方法WSMeter,以及阿里提出的用RUE(资源使用效率)来评估集群性能的方法。最后,报告总结了对集群进行评测的难点:首先,很难提取出精简的、有代表性的负载,并且每一次基准测试都有其限定的运行环境和软硬件配置,这些配置设定对性能的影响可能很大;另外,做性能分析需要对系统指标的充分理解,不要只是想着数据处理和计算,还应该注意这些数据是怎么采集的,否则可能会得到一些误导性的结果。

 

1636267477305057742.png


报告二 HTAP数据库功能评测

李可强同学介绍了如何使用大规模的HTAP混合负载,测试整个系统在长时间且有效的TP和AP高压情况下,数据库的事务执行正确性,以及大数据集下的计算正确和读版本一致性。具体来说,为了确保数据库生成具有代表性,测试数据库的模式要在满足可配置的情况下随机生成;数据生成采用确定性随机方法,保证静态数据上的操作结果可计算,特别是针对AP业务来说,可计算的结果验证将大大提高测试效率,节约测试成本;为了验证事务型数据库的正确性,通过结合静态数据和动态修订的状态数据,并采用基于窗口的执行历史追踪方法,从而支持并发控制协议的正确性验证;最后,为了确保测试负载的高覆盖度和有效性,在满足数据库的模式约束以及数据关联约束的情况下,拟采用模糊测试的方法,通过负载访问分布控制,尽可能覆盖边缘情况。

1636267524709003622.png


报告三 面向分析型应用的负载仿真 

王清帅同学首先介绍了面向分析型应用的负载仿真任务,介绍了其应用背景与难点,并介绍了针对简单过滤算子与Join算子的具体方案。具体地,在目标应用场景下的数据库性能和服务稳定性是决定是否部署数据库的关键因素,如TPC-H,SSB等已经被普遍用于性能评估,但对于一个新的应用,这些基准可能缺乏代表性。因为不同的工作负载具有不同的特征。但是面向分析型应用的负载仿真技术受制于四个关键性挑战,即:灵活性、复杂性、高效性和保密性。为了应对上述挑战,王清帅同学提出了一种新颖的查询感知生成器,它使用概率密度估计的方式在既定概率分布的负载上求解满足约束的负载参数。并提出Join处理时,利用整数规划快速合并多个Join的方式,并使用基于规则的方式记录约束信息,以有效地压缩内存。最后王清帅同学提出对于复杂的Join和Aggregation的处理是进一步需要研究和探索的方向。

 

1636267581079059397.png


报告四 分布式事务型数据库评测基准

瞿璐祎同学介绍分布式事务型数据库评测基准,提出一个评测基础测试当前的数据库是否是分布式事务型数据以及设计不同类似的负载评测被测数据库的优化手段对性能的提升效果。具体来说,随着对可扩展性和强一致性的双重追求,分布式事务型数据库应运而生,典型的分布式事务型数据库架构有:Share-Nothing 计算存储不分离架构,如OceanBase等,Share-Nothing 计算存储分离,如Spanner等,Share-Storage架构,如Aurora架构。不同的分布式事务库有不同的架构,同一个架构中实现技术也有所不一样。通过事务型评测基准可以评测数据库的事务处理能力,但是据我们总结现有的事务型评测基准并不能覆盖我们提出的两个问题,因此我们对此,提出一个新的面向分布式事务型数据库的评测基准,要求它满足以下4个设计要点:功能健全性、微观性、定量性和动态性。最后,我们希望通过功能上的评测和性能上的评测两个访问评价被测数据库,如功能健全性验证、可扩展性等。

在整场报告中,同学们通过数据库系统评测的相关技术了解了数据库系统评测的难点与重点,重新认识到了数据库系统评测并不单单是简单的重复,而需要详细地了解数据库系统知识,整体而全面地进行评测系统的设计与实现。在后续的学习过程中,同学们应该充分了解基础数据库系统的评测技术,从各个方面对数据库系统和数据库相关的技术进行了解与学习。

 

撰稿:王清帅 

摄影:陈婷

排版:程盛霖


来源:华东师范大学数据学院