What does a zero mean? Understanding false, random and structural zeros in ecology

Zeros (i.e. events that do not happen) are the source of two common phenomena in count data: overdispersion and zero‐inflation. Zeros have multiple origins in a dataset: false zeros occur due to errors in the experimental design or the observer; structural zeros are related to the ecological or evol...

Full description

Saved in:
Bibliographic Details
Published inMethods in ecology and evolution Vol. 10; no. 7; pp. 949 - 959
Main Authors Blasco‐Moreno, Anabel, Pérez‐Casany, Marta, Puig, Pedro, Morante, Maria, Castells, Eva, O'Hara, Robert B.
Format Journal Article Publication
LanguageEnglish
Published London John Wiley & Sons, Inc 01.07.2019
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:Zeros (i.e. events that do not happen) are the source of two common phenomena in count data: overdispersion and zero‐inflation. Zeros have multiple origins in a dataset: false zeros occur due to errors in the experimental design or the observer; structural zeros are related to the ecological or evolutionary restrictions of the system under study; and random zeros are the result of the sampling variability. Identifying the type of zeros and their relation with overdispersion and/or zero inflation is key to select the most appropriate statistical model. Here we review the different modelling options in relation to the presence of overdispersion and zero inflation, tested through the dispersion and zero inflation indices. We then examine the theory of the zero‐inflated (ZI) models and the use of the score tests to assess overdispersion and zero inflation over a model. In order to choose an adequate model when analysing count data we suggest the following protocol: Step 1) classify the zeros and minimize the presence of false zeros; Step 2) identify suitable covariates; Step 3) test the data for overdispersion and zero‐inflation and Step 4) choose the most adequate model based on the results of step 3 and use score tests to determine whether more complex models should be implemented. We applied the recommended protocol on a real dataset on plant–herbivore interactions to evaluate the suitability of six different models (Poisson, NB and their zero‐inflated versions—ZIP, ZINB). Our data were overdispersed and zero‐inflated, and the ZINB was the model with the best fit, as predicted. Ignoring overdispersion and/or zero inflation during data analyses caused biased estimates of the statistical parameters and serious errors in the interpretation of the results. Our results are a clear example on how the conclusions of an ecological hypothesis can change depending on the model applied. Understanding how zeros arise in count data, for example identifying the potential sources of structural zeros, is essential to select the best statistical design. A good model not only fits the data correctly but also takes into account the idiosyncrasies of the biological system. Resum Els zeros (és a dir, successos que no s'esdevenen) són la font de dos fenòmens comuns en les dades de recompte: la sobredispersió i la zero inflació. L'origen dels zeros pot ser divers: els zeros falsos són el resultat d'errors en el disseny experimental o en l'observador; els zeros estructurals es relacionen amb les restriccions ecològiques o evolutives del sistema d'estudi; i els zeros aleatoris s'esdevenen per la variabilitat en el mostreig. Identificar els tipus de zeros i la seva relació amb la sobredispersió i/o la zero inflació és clau per seleccionar el model estadístic més apropiat. En aquest article hem revisat les diferents opcions per modelar dades amb sobredispersió i zero inflació, característiques que hem determinat mitjançant els índex de sobredispersió i zero inflació. Hem revisat la teoria dels models zero‐inflats (ZI) i l'ús dels score tests per determinar sobredispersió i zero inflació sobre un model. Per tal d'escollir el model estadístic més adequat quan analitzem dades de recomptes, suggerim aplicar el següent protocol: Pas 1) classificar els zeros i minimitzar la presència de zeros falsos; Pas 2) identificar les covariables adequades; Pas 3) comprovar si les dades estan sobredispersades o zero inflades; i Pas 4) escollir el model estadístic més adequat en base als resultats obtinguts al pas 3, i aplicar els score tests per determinar si cal implementar altres models més complexes. Hem aplicat el protocol recomanat en unes dades reals d'interaccions planta‐herbívor per avaluar l'adequació de sis models diferents (Poisson, NB i les seves versions zero‐inflades—ZIP, ZINB). Les dades estaven sobredipersades i zero inflades, i el model ZINB oferia el millor ajust, tal com preveiem. Quan ignoravem la sobredipsersió i/o la zero inflació en l'anàlisi de les dades l'estima dels paràmetres estadístics resultava esbiaixada, fet que provocava errors seriosos en la interpretació dels resultats. Els nostres resultats són un clar exemple de com les conclusions d'una hipòtesi ecològica poden canviar depenent del model estadístic aplicat. Per seleccionar el millor disseny estadístic és essencial entendre com es generen els zeros, per exemple identificant fonts potencials de zeros estructurals. Un bon model estadístic no només s'ha d'ajustar a les dades correctament sinó que també ha de contemplar les idiosincràsies del sistema biològic.
ISSN:2041-210X
2041-210X
DOI:10.1111/2041-210X.13185