Einführung in die Statistik für Geographen, Universität Heidelberg
1
Vorwort
I Vorbereitung
2
Arbeiten mit R und RStudio
2.1
Setting up R & RStudio
2.2
R packages
2.3
RStudio interface
2.4
Paths and .Rproj
2.5
Rmarkdown
2.6
Further ressources
3
Erste Schritte mit R
3.1
Laden von Daten
3.2
Packages - Zusatzfunktionen
3.3
Filtern
3.4
Plotten mit ggplot2
4
How to do it in R
4.1
Daten laden
4.1.1
Textdateien
4.2
Data wrangling
4.2.1
Daten erzeugen
4.2.1.1
Vektoren anlegen
4.2.1.2
Leeren Vektor bestimmten Datentyps anlegen:
4.2.1.3
Vorgegebene Werte
4.2.1.4
Listen anlegen
4.2.1.5
Matrizen anlegen
4.2.1.6
data.frame anlegen
4.2.1.7
Leeres Objekt anlegen
4.2.2
Filtern und Selektieren
4.2.2.1
Subset
4.2.2.2
Der $-Operator
4.2.2.3
Der []-Operator - Zeilen und Spalten selektieren
4.2.2.4
Daten filtern mit which() und []
4.2.2.5
Spalten selektieren mit dplyr::select
4.2.3
Runden von Ergebnissen
4.2.3.1
round
4.2.3.2
Runden zur nächsten kleineren größeren ganzen Zahl
4.2.3.3
Runden auf signifikante Stellen
4.3
Arbeiten mit Faktoren
4.4
Plotten
4.4.1
ggplot2
4.4.1.1
Scatterplot
4.4.1.2
Histogram
4.4.1.3
Boxplot
4.5
Statistische Tests
4.6
Regressionsmodelle
4.7
Kontrollstrukturen
4.7.1
If-Verzweigungen
4.7.2
For-Schleifen
II Statistische Grundkonzepte
5
Womit beschäftigt sich Statistik?
5.1
Wissenschaftstheoretische Einordnung
5.2
Einige Bereiche der Statisik
5.3
Schließende Statistik
6
Beschreibung von Verteilungen
6.1
Lagemaße
6.1.1
Mittelwert und Erwartungswert
6.1.1.1
Erwartungswert
6.1.1.2
Aritmethisches Mittel
6.1.1.3
Gewichtetes arithmetisches Mittel
6.1.1.4
Harmonisches Mittel
6.1.1.5
Geometrisches Mittel
6.1.2
Quantile
6.1.3
Vergleich Median und arithmetisches Mittel
6.1.4
Modus
6.2
Verteilungsmaße
6.2.1
Varianz und Standardabweichung
6.2.2
Spannbreite
6.2.3
Interquantile Range / Interquantilabstand
6.2.4
Variationskoeffizient
6.3
Schiefe
6.4
Kurtosis
6.5
Beispiele für die Charakterisierung von empirischen Verteilungen
6.5.1
Gesamtbevölkerung
6.5.2
Mietpreise
III Hypothesentests
7
Hypothesentests - Übersicht
7.1
Generelle Idee
7.2
Nullhypothese und Alternativhypothese
7.3
Test auf Unterschiede im Mittelwert zweier Gruppen - der Zwei-Stichproben t-Test
7.3.1
Verteilungswerte abfragen
7.3.2
t-Test
7.4
Fehler 1. und 2. Art
7.4.1
Cohen’s d
7.5
Trennschärfe eines Tests
7.5.1
Power Berechnungen in R
7.6
Statistische Freiheitsgrade
8
Verteilungen
8.1
Kontinuierliche Verteilungen
8.1.1
Normalverteilung
8.1.1.1
Standardnormalverteilung
8.1.2
Halbnormalverteilung
8.1.3
Testverteilungen
8.1.4
Studentsche t-Verteilung
8.1.5
Chi-Quadrat Verteilung
8.1.6
F-Verteilung
8.1.7
Log-Normalverteilung
8.1.8
Gamma-Verteilung
8.1.9
Exponential-Verteilung
8.1.10
Cauchy-Verteilung
8.1.11
Weibull-Verteilung
8.1.12
Gumbel Verteilung
8.2
Diskrete-Verteilungen
8.2.1
Binomial-Verteilung
8.2.2
Poisson-Verteilung
8.2.3
Negative Bionomial-Verteilung
8.2.4
Hypergeometrische-Verteilung
8.3
Schätzen von Verteilungsparametern mittels Maximum Likelihood
8.3.1
Likelihood
8.3.2
Beispiel aus der Ökologie (
mark-recapture
) mittels hypergeometrischer Verteilung
8.3.3
Schätzen mittels fitdistr
8.3.4
Fallstudie Temperaturdaten
8.3.5
Fallstudie Abflussganglinien
8.3.5.1
Weibull-Verteilung
8.3.5.2
Exponential Verteilung
8.3.5.3
Log-Normal Verteilung
8.3.5.4
Gumbel
8.3.5.5
Normalverteilung
8.3.5.6
Vergleich der Verteilungen
8.3.6
Fallstudie aus der Ökologie - negative binomial Verteilung
8.4
Zentraler Grenzwertsatz
8.5
Kontrollfragen
IV Schließende Statistik
9
Von der Stichprobe zur Grundgesamtheit - schließende Statistik
9.1
Gesetz der großen Zahlen
9.2
Standardfehler
9.2.1
Standardfehler des Mittelwertes
9.2.2
Standardfehler für andere statistische Kennzahlen
9.2.3
Simulation des Standardfehlers
9.2.4
Entwicklung des Standardfehlers für wachsende Stichprobengröße
9.3
Konfidenzintervall
9.3.1
Schätzung des Konfidenzintervalls des Mittelwertes für normalverteilte Daten
9.3.2
Beispiel mit simulierten Daten
9.3.2.1
Simulation der t-basierten Konfidenzintervalle je Stichprobe
9.3.3
Entwicklung des Konfidenzintervalls für wachsende Stichprobengröße
9.4
Kontrollfragen
10
Statistische Tests - Überblick
10.1
Parametrische Tests
10.1.1
Vergleich von Mittelwerten
10.1.1.1
t-Test
10.1.1.2
Vergleich einer Stichprobe mit Referenzwert (
one sampled t-test
)
10.1.1.3
Vergleich zweier gepaarter Stichproben (
paired sample t-test
)
10.1.1.4
Vergleich zweier ungepaarter Stichproben (
two sample t-test
)
10.1.1.5
Welch-Satterhaite Korrektur für ungleiche Stichprobenvarianz
10.1.2
Varianzanalyse mittels F-Test
10.1.3
Wald Test
10.1.4
Likelihood Ratio Test
10.1.5
Lagrange Multiplier oder Score-Tests
10.1.6
Weitere parametrische Tests
10.2
Nicht parametrische Tests
10.2.1
Vergleich von Verteilungen mittels des Kolmogorow-Smirnoff Tests
10.2.1.1
Weitere Verteilungstests
10.2.1.2
Kritische Anmerkungen zu Verteilungstests
10.2.2
Wilcoxon-Vorzeichen-Rang-Test
10.2.3
Wilcoxon-Mann-Whitney-Test
10.2.3.1
Kritische Anmerkungen zu Rangtransformationstests
10.2.4
Permutationstests
10.3
Kontrollfragen
V Assoziation
11
Assoziation zwischen Variablen
11.1
Kovarianz
11.1.1
Fallbeispiel langjährige Jahresmitteltemperatur und Geländehöhe
11.1.1.1
Preprocessing und explorative Analyse
11.2
Korrelation
11.2.1
Pearsons r
11.2.1.1
Anscombes Quartett
11.2.1.2
Standardfehler und Signifikanztest
11.2.2
Spearmans rho
11.2.3
Kendals tau
11.3
Tests auf Assoziation für kategorische Variablen
11.3.1
\(\chi^2\)
-Test
11.3.1.1
Einfluss der Stichprobengröße auf die Irrtumswahrscheinlichkeit
11.3.1.2
Der Kontingenz-Koeffizient
11.3.1.3
Voraussetzungen für die Anwendung des
\(\chi^2\)
-Tests
11.3.2
Fishers exakter Test
11.3.3
G-Test
11.3.4
Anmerkungen zur Auswahl des Test
11.3.5
Erzeugen von Kreuztabellen
11.4
Punktbi-/polyseriale und bi-/polyseriale sowie bi-/polychorische Korrelation
11.4.1
Details zur polyserialen Korrelation
11.5
Visualisierung von Assoziationen
11.5.1
Mittels corrplot
11.5.2
Mittels pairs
11.6
Relevante Funktionen in R
11.7
Kontrollfragen
VI Regression
12
Lineares Model - univariates lineares Modell
12.1
Theorie
12.1.1
Matrixmultiplikation
12.1.2
Annahmen
12.1.2.1
Annahme hinsichtlich des Fehlerterms der unabhängigen Variablen
12.1.2.2
Fehlerfrei gemessene Prädiktoren
12.1.3
Weitere Aspekte
12.1.4
Maximum-likelihood Schätzung beim linearen Modell
12.1.5
Hat-Matrix
12.1.6
Modellvorhersagen
12.2
Univariates lineares Modell am Beispiel von Temperaturdaten
12.2.1
Fitten und Interpretieren eines linearen Modells
12.2.2
Güte des Modells anhand von
\(R^2\)
12.2.3
Modellkoeffizienten
12.2.4
Modellvorhersage
12.3
Kontrollfragen
13
Multivariates Lineares Modell
13.1
Anwendungsbeispiel - Temperaturdaten in Russland
13.2
Modellselektion
13.2.1
Hilfsfunktionen für die Modellselektion
13.4
Plots für ein verbessertes Verständnis multivariater Modelle
13.4.1
Conditioning Plots
13.4.2
Zusätzliches Modellverständnis durch Added Variable und Partial Residual Plots
13.4.2.1
Partial Regression oder Added Variable Plots
13.4.2.2
Partial Residual Plot
14
Lineares Modell - Unsicherheit
14.1
Vorbereitung
14.2
Unsicherheit
14.3
Unsicherheit der Vorhersage
14.4
Konfidenz- und Vorhersagebänder
15
Lineares Modell - polynomiale Effekte und Interaktionen
15.1
Theorie
15.2
Anwendungsbeispiel Temperaturdaten
15.2.1
Russland
15.2.1.1
Polynomiale Effekt
15.2.1.2
Interaktionen
15.2.2
Kanada
15.2.3
All-subset Regression
15.3
Anwendungsbeispiel CO2 Konzentrationen
15.4
Anwendungsbeispiel Baumdichte und Klima
15.4.1
Explorative Analyse
15.4.2
Haupteffekte
15.4.3
Interaktionen
15.4.4
Polynomiale Terme
15.4.5
Polynomiale Terme und Interaktionen
15.4.6
Polynomiale Terme und Interaktionen
15.4.7
Generalisierungsfehler
16
Lineares Modell - Modelldiagnose
16.1
Struktur in den Residuen?
16.1.1
Beispiele für Probleme
16.2
Verteilung der Residuen: QQ-Plot
16.2.1
Beispiele für Probleme
16.3
Einflußreiche Punkte: Leverage Points und Cook’s Distance
16.3.1
Leverage (#leverage)
16.4
Cook’s Distance (#cooksdistance)
17
Lineares Modell und Faktorvariablen
17.1
Kategorielle Prädiktoren in R
17.2
ANOVA - Einsatz kategorieller Variablen in linearen Modellen
17.3
ANCOVA - Einsatz kategorialer und numerischer Variablen in linearen Modellen
18
Limitierungen des linearen Modells
19
Generalisierte lineare Modelle
19.1
Übersicht der wichtigsten Vertreter der Exponentialverteilung
19.1.1
Normal-/Gaussverteilung
19.1.2
Poisson-Verteilung
19.1.3
Binomial-Verteilung
19.1.4
Gamma-Verteilung:
19.1.5
reziprok-normalverteilte (inverse Gaussian)-Verteilung:
20
Generalisierte lineare Modelle für Zähldaten
20.1
Einführendes Beispiel
20.1.1
Können wir ein lineares Modell verwenden?
20.2
GLM mit Poissonverteilung
20.2.1
Modellselektion
20.2.2
Modell-Diagnose
20.2.3
Residuen
20.3
Overdispersion
20.3.1
Quasi-Poisson GLM
20.3.1.1
Modellselektion im Quasipoisson GLM
20.3.2
Negativ-binomial-verteiltes GLM
20.4
Aufgabe
20.4.1
Workflow
20.5
Ergänzende Literatur
21
Generalisierte Modelle für binomialverteilte Daten
VII Forschungsdesign
22
Forschungsdesign
22.1
Abgrenzung verschiedener Forschungsdesigns
22.1.1
Randomisierte kontrollierte Studie
22.1.2
Natürliche Experimente
22.1.3
Quasi-Experimente
22.1.4
Beobachtungsstudien
22.2
Stichprobendesign für Beobachtungsstudien
22.2.1
Einstufige Stichprobenverfahren - einfache Zufallsstichprobe
22.3
Mehrstufige Stichprobenverfahren
22.3.1
Stratifizierte Stichprobe
22.3.1.1
Beispiel
22.3.2
Geclustertes Stichprobendesign (
cluster sampling
)
22.3.3
Mehrstufiges Stichprobendesign (
multi-stage sampling
)
22.4
Experimentelles Design
Weiterführende/zitierte Literatur
|
Published with bookdown
Methoden in der Geographie: Statistik Einführung
Kapitel 21
Generalisierte Modelle für binomialverteilte Daten