疫学調査データにおける欠損値が解析結果に与える影響の評価

欠損値のあるデータは,推定精度や検出力の低下といった影響を及ぼす。従来の欠損値処理法であるリストワイズ法(欠損値除去法)や代入法は推定値にバイアスが生じる場合があり,多重代入法が新たな手法として応用されつつある。本研究では,実際の疫学調査データを用いて疑似欠損データを作出し,欠損値が推定結果に与える影響をリストワイズ法と多重代入法で検証した。検証には,牛白血病の飼養衛生管理に関する既存の疫学調査データを用いた。欠損値はその発生メカニズムにより,欠損が完全にランダムに発生するMCAR(Missing Completely At Random),欠損が観察した他の変数と関連するMAR(Missin...

Full description

Saved in:
Bibliographic Details
Published inJapan society of veterinary epidemiology Vol. 20; no. 2; pp. 111 - 117
Main Authors 早山, 陽子, 山本, 健久, 小林, 創太, 村井, 清和, 筒井, 俊之
Format Journal Article
LanguageJapanese
Published 獣医疫学会 2016
Online AccessGet full text

Cover

Loading…
More Information
Summary:欠損値のあるデータは,推定精度や検出力の低下といった影響を及ぼす。従来の欠損値処理法であるリストワイズ法(欠損値除去法)や代入法は推定値にバイアスが生じる場合があり,多重代入法が新たな手法として応用されつつある。本研究では,実際の疫学調査データを用いて疑似欠損データを作出し,欠損値が推定結果に与える影響をリストワイズ法と多重代入法で検証した。検証には,牛白血病の飼養衛生管理に関する既存の疫学調査データを用いた。欠損値はその発生メカニズムにより,欠損が完全にランダムに発生するMCAR(Missing Completely At Random),欠損が観察した他の変数と関連するMAR(Missing At Random),欠損が観測されていない変数や欠損のある変数自身に関連するNMAR(Not Missing At Random)に分類される。そこで,疑似欠損データとして,欠損値発生メカニズムと欠損値割合が異なる5種類のデータを調査データを用いて各100セット作出した。疑似欠損データに対して,2種類の欠損値処理法を適用してロジスティック回帰分析を行い,牛白血病の発生に関連する変数の推定値を比較した。その結果,リストワイズ法は,多重代入法よりも推定値のバラツキが大きく,MARとNMARでは推定値にバイアスが生じていた。多重代入法は,MCARとMARでは推定値のバラツキ,バイアスともに小さく,良好な推定精度を示したが,NMARの場合は推定値にバイアスが生じていた。以上から,欠損値による推定結果のバイアスや精度の低下は,多重代入法により改善が見込まれることが確認された。
Bibliography:910602
ZZ00015317
ISSN:1343-2583
1881-2562
DOI:10.2743/jve.20.111