체격 및 신체조성 측정 자료의 결측값 대체 방법 비교

이 연구는 국가대표 선수들의 체력 및 신체조성 자료에 대한 결측값을 대체하는 방법을 4가지로 구분하고 결측값비율에 따라 나타나는 실제 관찰 자료와의 차이를 통해 결측값 대체 결과를 비교하는데 목적을 두었다. 이 연구에서사용한 결측값 대체 방법은 평균, 중앙치, k-NN 최대근접이웃함수, 연쇄 방정식을 이용한 다중대체 방법이었으며, 기존 자료의 5%, 10%, 15%, 20%에 해당하는 자료를 무작위로 결측시킨 후, 실제 관찰값과 추정값을 비교하였다. 4가지 결측값 대체 방법의 결과 비교를 위하여 평균 제곱근 오차(RMSE: root...

Full description

Saved in:
Bibliographic Details
Published in한국체육측정평가학회지 Vol. 21; no. 4; pp. 149 - 158
Main Authors 최형준(Hyongjun CHOI), 이윤수(Yun Soo Lee)
Format Journal Article
LanguageKorean
Published 한국체육측정평가학회 01.12.2019
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:이 연구는 국가대표 선수들의 체력 및 신체조성 자료에 대한 결측값을 대체하는 방법을 4가지로 구분하고 결측값비율에 따라 나타나는 실제 관찰 자료와의 차이를 통해 결측값 대체 결과를 비교하는데 목적을 두었다. 이 연구에서사용한 결측값 대체 방법은 평균, 중앙치, k-NN 최대근접이웃함수, 연쇄 방정식을 이용한 다중대체 방법이었으며, 기존 자료의 5%, 10%, 15%, 20%에 해당하는 자료를 무작위로 결측시킨 후, 실제 관찰값과 추정값을 비교하였다. 4가지 결측값 대체 방법의 결과 비교를 위하여 평균 제곱근 오차(RMSE: root mean squared error)를 사용하여 얻은결과는 다음과 같다. 첫째, 체력 및 신체조성 결측 자료에 대한 변수별 결측값 대체 결과, k-NN 최대근접이웃함수를이용한 결측값 대체 방법은 타 결측값 대체 방법에 비해서 결측값 비율에 관계없이 가장 낮은 평균 제곱근 오차를 나타냈다. 또한, 4가지 결측값 대체 방법의 평균 제곱근 오차에 대한 편차는 체중 변수에서 가장 높게 나타났으며, 하퇴위 변수에서 가장 낮게 나타났다. 둘째, 4가지 결측값 대체 방법에 의한 평균 제곱근 오차는 결측값의 비율이 5%, 10%, 15%, 20%로 증가함에 따라서 모두 증가하는 것으로 나타났다. 더불어 결측값의 비율이 증가함에 따라서 4가지결측값 대체 방법 간 평균 제곱근 오차의 편차가 가장 높은 변수는 체중 변수로 나타났다. 향후 다양한 체육 및 스포츠 자료의 특성에 맞는 효율적인 결측값 대체를 위하여 후속 연구가 지속적으로 이루어져야 한다고 사료된다. The purpose of this study was to compare between actual observed values and estimated values using 4 difference methods for missing values imputation based on body measurement data and body composition data of Korean representatives athletes. The methods for missing values imputation in this study were using by mean, by median, by k-Nearest Neighbor functions, and by Multivariate Imputation by Chained Equation(MICE). The missing values were conducted into 5%, 10%, 15%, and 20% from the original dataset. And then, the actual observed values and the estimated by 4 different methods of missing values imputation were compared with RMSE(root mean squared error). The results of this study were as following belows. First of all, The lowest values of RMSE was found on the using with k-NN functions and it was not depending on the difference conditions of missing values ratio(such as 5%, 10%, 15%, and 20%). Also, the deviation of RMSE between the methods of missing values imputation was the fewest on the ‘weight’ variable, and was the greatest on the ‘bottom length’ variable. Secondly, the increasing rates of ratio of missing values from 5% to 20% influenced upon all methods of missing values imputation such as mean, median, k-NN and MICE. Additionally, the ‘weight’ variable has the greatest deviation of RMSE depending on the increasing ratio of missing values. Consequently, increasing numbers of further researches relevant to this study are required in the field of sports science and physical education in order to apply the missing values imputation efficiently. KCI Citation Count: 0
ISSN:1229-4225
2671-9134
DOI:10.21797/ksme.2019.21.4.012