非均匀数据分布下的MapReduce连接查询算法优化

TP311.130; MapReduce分布式计算框架有助于提升大规模数据连接查询的效率,但当连接属性分布不均匀时,其简单的散列策略容易导致计算节点间负载不均衡,影响作业的整体性能.针对连接查询操作中的数据倾斜问题,研究了MapReduce框架下大规模数据连接查询操作的优化算法.首先对经典的改进重分区连接查询算法进行实验分析,研究了传统MapReduce计算框架下连接查询操作的执行流程,找出了基于MapReduce计算框架的连接查询算法在数据分布不均匀时的性能瓶颈;进而提出了组合分割平衡分区优化策略,设计并实现了基于组合分割平衡分区优化策略的改进型连接查询算法.实验结果表明,提出的优化策略在大...

Full description

Saved in:
Bibliographic Details
Published in计算机科学与探索 Vol. 11; no. 5; pp. 752 - 767
Main Authors 张敬伟, 尚宏佳, 钱俊彦, 周萍, 杨青
Format Journal Article
LanguageChinese
Published 桂林电子科技大学广西云计算与大数据协同创新中心,广西桂林541004%桂林电子科技大学广西可信软件重点实验室,广西桂林,541004%桂林电子科技大学广西自动检测技术与仪器重点实验室,广西桂林,541004 2017
桂林电子科技大学广西可信软件重点实验室,广西桂林541004
Subjects
Online AccessGet full text
ISSN1673-9418
DOI10.3778/j.issn.1673-9418.1604022

Cover

More Information
Summary:TP311.130; MapReduce分布式计算框架有助于提升大规模数据连接查询的效率,但当连接属性分布不均匀时,其简单的散列策略容易导致计算节点间负载不均衡,影响作业的整体性能.针对连接查询操作中的数据倾斜问题,研究了MapReduce框架下大规模数据连接查询操作的优化算法.首先对经典的改进重分区连接查询算法进行实验分析,研究了传统MapReduce计算框架下连接查询操作的执行流程,找出了基于MapReduce计算框架的连接查询算法在数据分布不均匀时的性能瓶颈;进而提出了组合分割平衡分区优化策略,设计并实现了基于组合分割平衡分区优化策略的改进型连接查询算法.实验结果表明,提出的优化策略在大规模数据的连接查询处理上很好地解决了数据倾斜带来的性能影响,具有好的时间性能和可扩展性.
ISSN:1673-9418
DOI:10.3778/j.issn.1673-9418.1604022