Reducing bias due to misclassified exposures using instrumental variables

Exposures are often misclassified in observational studies. Any analysis that does not make proper adjustments for misclassification may result in biased estimates of model parameters, resulting in distorted inference. Settings where a multicategory exposure variable has more than two nominal catego...

Full description

Saved in:
Bibliographic Details
Published inCanadian journal of statistics Vol. 51; no. 2; pp. 503 - 530
Main Authors Manuel, Christopher, Sinha, Samiran, Wang, Suojin
Format Journal Article
LanguageEnglish
Published Hoboken, USA John Wiley & Sons, Inc 01.06.2023
Wiley Subscription Services, Inc
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:Exposures are often misclassified in observational studies. Any analysis that does not make proper adjustments for misclassification may result in biased estimates of model parameters, resulting in distorted inference. Settings where a multicategory exposure variable has more than two nominal categories or where no validation data are available to assess misclassification probabilities are common in practice but seldom considered in the literature. This article presents a novel method of analyzing cohort data with a misclassified, multicategory exposure variable and a binary response variable that uses instrumental variables in lieu of a validation dataset. First, a sufficient condition is obtained for model identifiability. Then, methods for model estimation and inference are proposed after adopting a sufficient condition for identifiability. We consider a variational Bayesian inference procedure aided by automatic differentiation along with Markov chain Monte Carlo‐based computation. Operating characteristics of the proposed methods are assessed through simulation studies. For the purpose of illustration, the proposed Bayesian methods are applied to the U.S. breast cancer mortality data sampled from the Surveillance Epidemiology and End Results database, where reported treatment therapy is the misclassified multicategory exposure variable. Résumé En études observationnelles, il est fréquent que les expositions soient mal classées. Toute analyse qui ne tient pas compte proprement des erreurs de classification produira éventuellement des biais dans l'estimation des paramètres du modèle et dans l'inférence sous‐jacente. Or peu de travaux s'intéressent au cas fréquent où une variable d'exposition a plus de deux catégories nominales ou aucune donnée de validation n'est disponible pour évaluer les probabilités de classification erronée. Cet article présente une nouvelle méthode d'analyse des données de cohorte avec une variable d'exposition multicatégories mal classée et une variable de réponse binaire qui utilise des variables instrumentales au lieu d'un ensemble de données de validation. Les auteurs de ce travail commencent par déterminer une condition suffisante pour l'identifiabilité du modèle; puis, en adoptant une telle condition, ils proposent des méthodes d'estimation et d'inférence du modèle. À cet effet, une procédure d'inférence bayésienne variationnelle assistée par la différenciation automatique et le calcul basé sur les MCMC est mise en œuvre. Les auteurs évaluent les méthodes proposées avec des études de simulation et les appliquent à des données échantillonnées à partir de la base de données américaines sur la mortalité par cancer du sein: “Surveillance Epidemiology and End Results”. Dans cette application, le traitement thérapeutique déclaré joue le rôle de la variable d'exposition multicatégorie mal classée.
ISSN:0319-5724
1708-945X
DOI:10.1002/cjs.11705