A new test for high‐dimensional regression coefficients in partially linear models
Partially linear regression models are semiparametric models that contain both linear and nonlinear components. They are extensively used in many scientific fields for their flexibility and convenient interpretability. In such analyses, testing the significance of the regression coefficients in the...
Saved in:
Published in | Canadian journal of statistics Vol. 51; no. 1; pp. 5 - 18 |
---|---|
Main Authors | , , |
Format | Journal Article |
Language | English |
Published |
Hoboken, USA
John Wiley & Sons, Inc
01.03.2023
Wiley Subscription Services, Inc |
Subjects | |
Online Access | Get full text |
Cover
Loading…
Summary: | Partially linear regression models are semiparametric models that contain both linear and nonlinear components. They are extensively used in many scientific fields for their flexibility and convenient interpretability. In such analyses, testing the significance of the regression coefficients in the linear component is typically a key focus. Under the high‐dimensional setting, i.e., “large p, small n,” the conventional F‐test strategy does not apply because the coefficients need to be estimated through regularization techniques. In this article, we develop a new test using a U‐statistic of order two, relying on a pseudo‐estimate of the nonlinear component from the classical kernel method. Using the martingale central limit theorem, we prove the asymptotic normality of the proposed test statistic under some regularity conditions. We further demonstrate our proposed test's finite‐sample performance by simulation studies and by analyzing some breast cancer gene expression data.
Résumé
Les modèles de régression partiellement linéaires sont des modèles semi‐paramétriques à deux composantes, l'une linéaire et l'autre non‐linéaire. De par leur flexibilité et leur facilité d'interprétation, ils sont largement utilisés dans de nombreux domaines scientifiques. En règle générale, dans de tels modèles, tester si des coefficients de la composante linéaire sont significatifs constitue un objectif clé. Aussi, dans le cadre de régression en haute dimension, c'est‐à‐dire «p est grand , n est petit», le test F usuel ne peut pas être utilisé car les coefficients du modèle sont estimés à l'aide de techniques de régularisation. Les auteurs de ce travail proposent un nouveau test basé sur une U‐statistique d'ordre deux reposant sur une pseudo estimation de la composante non linéaire. La pseudo estimation en question est construite à l'aide de l'estimateur à noyau classique. Ils obtiennent ensuite, sous certaines conditions de régularité, la normalité asymptotique de la statistique du test en faisant appel au théorème central limite des martingales. Enfin, ils illustrent la performance du test proposé sur des échantillons de taille finie à l'aide de simulations et présentent l'analyse d'un jeu de données génétiques sur le cancer du sein. |
---|---|
ISSN: | 0319-5724 1708-945X |
DOI: | 10.1002/cjs.11665 |