Kapitel 19 Generalisierte lineare Modelle

Generalisierte lineare Modell beruhen alle darauf, dass sich ein nicht-linearer Zusammenhang zwischen Response und Prädiktor durch eine Link-Funktion linearisieren lässt. Wir fitten nicht mehr:

\[y= \beta_0 + \beta_1 * x_1 + ... + \epsilon\] sondern:

\[g(y) = \beta_0 + \beta_1 * x_1 + ... + \epsilon \]

\(g(y)\) ist dabei die Link-Funktion. Welche Link Funktion angewandt wird, ergibt sich anhand der Verteilungsannahme. Allerdings stehen für einzelne Verteilungen auch mehrere Link-Funktionen zur Verfügung, so dass die Auswahl anhand anderer Kriterien erfolgen muss.

Weiterhin ändert sich die Beziehung zwischen Mittelwert und Varianz.

Ebenfalls ändert sich die Art und Weise, wie die Likelihood optimiert wird. Hierbei ist das Konzept der Deviance entscheident. Die Deviance leitet sich aus der Differenz der log-Likelihoods des gerade geschätzten und des gesättigten (oder maximalen) Modells - das die Daten perfekt beschreibt - her:

\[ D(y, \hat{y}) = -2( log(p(y |\hat{\theta}_m)) - log(p(y|\hat{\theta}_s))) \]

Wobei \(D(y, \hat{y})\) die deviance für den response y und das Modell m. \(\hat{\theta}_m)\) sind die gefitteten Modellparameter des Modells m, während \(\hat{\theta}_s)\) die Modellparameter des maximalen Modells angibt.

Wenn man die entsprechenden log-Likelihood Definition der Verteilungen einsetzt, erhält man die Formel für die Deviance.

Der Vorfaktor von -2 in der Definition stellt bei einem Test ob das Modell einen signifikanten Erklärungswert hat sicher, dass die Deviance gegen eine \(\chi^2\) Verteilung konvergiert falls \(H_0\) wahr ist und die Deviance damit mit Hilfe dieser Verteilung getestet werden kann. \(H_0\) ist hier das sich die beiden log-Likelihoods nicht unterscheiden, das Verhältnis also 1 ist. Die Herleitung beruht auf dem Theorem von Wilk, das besagt das das Verhältnis von log-Likelihoods asmyptotisch normalverteilt ist. ⁷⁹ Die Anzahl Freiheitsgrade der \(\chi^2\)-Verteilung ergibt sich - in den meisten Fällen - als Differenz zwischen den Anzahl Parametern im gesättigten Modell (oftmals die Anzahl Datenpunkte) und den Parametern im gerade geschätzten Modells.

19.1 Übersicht der wichtigsten Vertreter der Exponentialverteilung

Ein paar der wichtigsten Vertreter der Exponentialverteilung im Überblick. \(\hat{y}\) entspricht dabei \(\hat{\mu}\), den anhand des Modells geschätzten Vorhersagewerte (\(\hat{y}\)), was dem im Mittel vorhergesagten Wert \(\hat{\mu}\) entspricht.

19.1.1 Normal-/Gaussverteilung

Die Kanonische Link-Funktion ist die Identity Funktion, d.h.

\[g(y) = y\] Die Varianzfunktion ist 1, d.h. die Varianz ändert sich nicht mit dem Mittelwert von y. \[\sigma^2= 1\]

Die Normalverteilung wird für kontinuierlich verteilte Daten angewendet.

Deviance:

\[ D(y, \hat{y})= \sum (y-\hat{y})^2 \]

19.1.2 Poisson-Verteilung

Eingesetzt für Zähldaten und Dichten (Zähldaten mit Offset)

Kanonische Link Funktion:

\[y=log(y)\] Varianzfunktion:

\[\sigma^2=\mu\] Deviance:

\[D(y, \hat{y}) = 2 \sum (y \cdot log(\frac{y}{\hat{y}}) -(y-\hat{y})) \]

19.1.3 Binomial-Verteilung

Für Präsenz-Absenz Daten (N=1) oder Prozentwerte (N>1). N ist dabei die Anzahl der Elemente, aus denen die Menge der eingetretenen Ereignisse ermittelt wird, z.B. die Einwohner, die dem Risiko ausgesetzt sind, die Anzahl Münzwürfe, aus denen die Anzahl von Kopf-Ereignissen ermittelt wird oder die Anzahl von Rasterzellen, in denen eine Landnutzungsveränderung auftreten kann.

Kanonische Link Funktion:

\[y= N \cdot log(\frac{y}{1-y})\]

Varianzfunktion:

\[\sigma^2= N \cdot \mu(1-\mu)\] Deviance:

\[ D(y, \hat{y}, N)= 2 \sum (y \cdot log(\frac{y}{\hat{y}}) + (N-y) \cdot log(\frac{N-y}{N-\hat{y}} ) \]

19.1.4 Gamma-Verteilung:

Für kontinuierliche Werte.

Kanonische Link Funktion:

\[y=\frac{1}{y}\]

Varianzfunktion:

\[\sigma^2 = \frac{\mu^2}{\upsilon}\]

Deviance:

\[ D(y, \hat{y})= 2 \sum ( -log(\frac{y}{\hat{y}}) + \frac{(y-\hat{y})}{\hat{y}}) \]

19.1.5 reziprok-normalverteilte (inverse Gaussian)-Verteilung:

Für Lebenserwartungsverteilungen mit konstanter Ausfallrate.

Kanonische Link Funktion:

\[y=\frac{1}{y^2}\]

Varianzfunktion:

\[\sigma^2 = \frac{\mu^3}{\upsilon}\]

Deviance:

\[D(y, \hat{y})= \sum \frac{(y-\hat{y})^2}{\hat{y}^2 \cdot y} \]

Die Annahme gilt allerdings nur, wenn der zu testende Parameter nicht auf dem Rand des zu testenden Intervalls liegt. In diesem Fall sind die Irrtumswahrscheinlichkeiten nicht exakt. Dies betrifft z.B. gemischte Modelle, bei denen einzelnen Zufallseffekte (random effects) Varianzkomponenten von näherunhgsweise Null haben.↩︎