Kapitel 18 Limitierungen des linearen Modells

Bisher sind wir davon ausgegangen, dass die Daten zu den Annahmen des linearen Modells passen. In der Realität ist dies oft nicht so.

Die Probleme können vielfältig sein:

  • die Fehler folgen einer andern Verteilung - oftmals lassen sich die Fehler mit Hilfe einer Verteilung der Exponentialfamile (Poisson, negativ binomial, binomial, Gamma, Beta) beschreiben, dann gehen wir vom linearen Modell zum generalisierten linearen Modell (GLM) über (s. Zuur et al. (2009), Faraway (2006)). Falls weitere Verteilungen benötigt werden, bietet das package VGAM weitere Möglichkeiten. Falls wir bei Zähldaten zuviele Nullwerte haben, kommen zeroinflated oder hurdle Modelle zum Einsatz, die Zäldatenverteilungen mit Binomialverteilungen kombinieren (Zuur et al. 2009).
  • die Fehler sind zeitlich autokorreliert, wie es bei Zeitreihen i.d.R. vorkommt - hier kann - falls die Daten ansonsten mit einer Normalverteilung beschrieben werden können zur Methode Generalized Least Squares übergegangen werden, bei der die Fehlerstruktur mithilfe von AR, MA oder ARMA oder ARIMA Modellen modelliert werden (s. Faraway (2006)).
  • die Fehler sind räumlich autokorreliert, was bei räumlichen Daten oft vorkommt. Die Methoden werden im Kurs Spatial Data Science behandelt.
  • die Daten sind hierarchisch Strukturiert, d.h. die Fehler sind innerhalb von Blöcken, Gruppen, Individuen etc. korreliert. Dies führt zu gemischten (generalisierten) Modellen oder bayesischen hierarchischen Modellen (s. Zuur et al. (2009), Faraway (2006), Pinheiro and Bates (2006))
  • die funktionale Beziehung lässt sich auch mit Interaktionen und polynomialen Termen nicht adäquat beschreiben: Übergang zu Methoden des maschinellen Lernens (shallow learning): generalisierte (gemischt) additive Modelle GAM(M) (Wood (2007), Zuur et al. (2009)), Regressionsbäume (regression trees), random forest, boosted regression trees, support vector machines etc. (Hastie, Tibshirani, and Friedman (2009), Berk (2010))

Weiterführende/zitierte Literatur

Berk, Richard. 2010. “An Introduction to Statistical Learning from a Regression Perspective.” Handbook of Quantitative Criminology, 725–40.
———. 2006. Extending the Linear Model with R - Generalized Linear, Mixed Effects and Nonparametric Regression Models. Edited by Chapman & Hall/CRC. Chapman & Hall/CRC.
Hastie, Trevor, Robert Tibshirani, and Jerome Friedman. 2009. The Elements of Statistical Learning - Data Mining, Inference, and Prediction. Springer.
Pinheiro, José, and Douglas Bates. 2006. Mixed-Effects Models in S and S-PLUS. Springer science & business media.
Wood, S. N. 2007. Generalized Additive Models: An Introduction with R. Chapman & Hall/CRC. https://doi.org/10.1111/j.1467-985X.2006.00455_15.x.
Zuur, Alain F, Elena Ieno, Neil J Walker, Anatoly A Saveliev, and Graham M Smithe. 2009. Mixed Effect Models and Extensions in Ecology with R. Springer. https://doi.org/10.1017/CBO9781107415324.004.