Noisy matrix completion for longitudinal data with subject‐ and time‐specific covariates

In this article, we consider the imputation of missing responses in a longitudinal dataset via matrix completion. We propose a fixed‐effect, longitudinal, low‐rank model that incorporates both subject‐specific and time‐specific covariates. To solve the optimization problem, a two‐step optimization a...

Full description

Saved in:
Bibliographic Details
Published inCanadian journal of statistics Vol. 53; no. 3
Main Authors Sun, Zhaohan, Zhu, Yeying, Dubin, Joel A.
Format Journal Article
LanguageEnglish
Published Hoboken, USA John Wiley & Sons, Inc 01.09.2025
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:In this article, we consider the imputation of missing responses in a longitudinal dataset via matrix completion. We propose a fixed‐effect, longitudinal, low‐rank model that incorporates both subject‐specific and time‐specific covariates. To solve the optimization problem, a two‐step optimization algorithm is proposed, which provides good statistical properties for the estimation of the fixed effects and the low‐rank term. In a theoretical investigation, the non‐asymptotic error bounds on the fixed effects and low‐rank term are presented. We illustrate the finite‐sample performance of the proposed algorithm via simulation studies, and apply our method to a power plant SO2$$ {}_2 $$ emissions dataset in which the monthly recorded amounts of emissions data on monitors are subject to missingness. Résumé Cet article aborde l'imputation des données manquantes dans un contexte longitudinal par des techniques de complétion de matrice. Les auteurs proposent un modèle longitudinal de rang faible à effets fixes qui prend en compte tant les covariables propres aux sujets que celles liées au temps. Pour résoudre le problème d'optimisation associé, ils développent un algorithme en deux étapes offrant de bonnes propriétés statistiques pour l'estimation conjointe des effets fixes et du terme de rang faible. Leur analyse théorique établit des bornes d'erreur non asymptotiques pour ces deux composantes. La performance de l'algorithme est évaluée à l'aide d'études de simulation sur des échantillons finis, puis appliquée à un jeu de données relatif aux émissions de SO2$$ {}_2 $$ des centrales électriques, où les mesures mensuelles enregistrées présentent des valeurs manquantes.
Bibliography:Correction added on 29 March 2025, after first online publication: Author name Joel A. Dubin has been updated in this version.
ISSN:0319-5724
1708-945X
DOI:10.1002/cjs.70002