빅데이터 처리 및 분석을 위한 Rhipe 플랫폼

R과 Hadoop의 통합환경인 Rhipe 개발로 인해 분산처리 환경 하에서대용량 데이터 분석이 가능해졌다. 본 논문에서는 Rhipe을 이용하여실제 데이터와 모의실험 데이터에서 다양한 데이터 크기에 따라 다중회귀분석을 구현하였다. Hadoop의 가상분산 모드(pseudo-dstributedmode)와 완전분산 모드(fully- distributed mode) 구축 시스템비교에서 완전분산 모드 시스템이 가상분산 모드 시스템보다 처리속도가 빠르고 데이터 노드의 수가 많을수록 계산 시간이 점점줄어드는 것을 알 수 있었다. 또한, 제안된 R...

Full description

Saved in:
Bibliographic Details
Published inŬngyong tʻonggye yŏnʼgu Vol. 27; no. 7; pp. 1171 - 1185
Main Authors 정병호, Byung Ho Jung, 신지은, Ji Eun Shin, 임동훈, Dong Hoon Lim
Format Journal Article
LanguageKorean
Published 한국통계학회 2014
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:R과 Hadoop의 통합환경인 Rhipe 개발로 인해 분산처리 환경 하에서대용량 데이터 분석이 가능해졌다. 본 논문에서는 Rhipe을 이용하여실제 데이터와 모의실험 데이터에서 다양한 데이터 크기에 따라 다중회귀분석을 구현하였다. Hadoop의 가상분산 모드(pseudo-dstributedmode)와 완전분산 모드(fully- distributed mode) 구축 시스템비교에서 완전분산 모드 시스템이 가상분산 모드 시스템보다 처리속도가 빠르고 데이터 노드의 수가 많을수록 계산 시간이 점점줄어드는 것을 알 수 있었다. 또한, 제안된 Rhipe 플랫폼의 성능을평가하기 위해 기본 R 패키지인 stats와 bigmemory 상에서 유용한biglm 패키지와 처리 속도를 비교하였다. 실험결과 Rhipe은 데이터의크기가 클수록 map task 개수가 증가되고 동시에 병렬 처리로 인해다른 패키지들보다 빠른 처리속도를 보였다. Rhipe that integrates R and Hadoop environment, made it possibleto process and analyze massive amounts of data using a distributedprocessing environment. In this paper, we implemented multiple regression analysis usingRhipe with various data sizes of actual data and simulated data. Experimental results for comparing the computing speeds ofpseudo-distributed and fully-distributed modes for configuringHadoop cluster, showed fully-distributed mode was more fast thanpseudo-distributed mode and computing speeds of fully-distributedmode were faster as the number of data nodes increases. We also compared the performance of our Rhipewith stats and biglm packages available on bigmemory. The resultsshowed that our Rhipe was more fast than other packages owing toparalleling processing with increasing the number of map tasks asthe size of data increases.
Bibliography:The Korean Statistical Society
KISTI1.1003/JNL.JAKO201403460492559
ISSN:1225-066X
2383-5818