Statistische Analyse unvollständiger Daten

Online-Workshop vom 20. bis 21. Juli 2020

Dozent: Dr. Florian Meinfelder

Seminarinhalt
Der Workshop vermittelt einen Einstieg in den Umgang mit Item Nonresponse, wobei zunächst einfache (aber verbreitete) Verfahren wie listwise deletion und Mittelwertsergänzung diskutiert werden, bevor schwerpunktmäßig Multiple Imputation (MI) behandelt wird. Während am ersten Tag hauptsächliche einige theoretische Grundlagen und wichtige Annahmen wie Ignorierbarkeit der fehlenden Daten (Missing at Random und Distinctness) vermittelt werden, und praktisches Arbeiten sich auf Visualisierungen von Datenausfallmuster und -mechanismen beschränkt, ist der zweite Tag praxis-orientierter: Neben einem Überblick über diverse MI-Implementierungen beschäftigt sich der Kurs dann mit softwareübergreifenden Parallelen der zugrundeliegenden Algorithmen und deren Parameter. Datenaufbereitung und Beispiele erfolgen in R und mit dort vorwiegend mit dem R-Paket mice, aber es werden auch Vergleiche zu den Implementationen in Stata (und SPSS) gezogen, deren Aufbau sehr ähnlich ist. Ein besonderes Augenmerk kommt der Regressionsanalyse mit fehlenden Werten in den X-Variablen und/oder der Y-Variable zu. Abschließend werden Anwendungsbeispiele wie Fragenbogensplitting oder Datenfusion vorgestellt, bei denen ein bewusstes missing-by-design in Kauf genommen wird.

Zielgruppe
Empirisch arbeitende Forscher, die mit survey-basierten Daten arbeiten, die teilweise fehlend sind.

Lernziel
Kursteilnehmer können am Ende des Kurses selbständig entscheiden, wie sie mit fehlenden Daten am besten verfahren und sind in der Lage, Daten mithilfe gängiger Software (multipel) zu ergänzen und zu analysieren.

Voraussetzungen
Grundkenntnisse in Statistischer Inferenz (Zufallsvariable, Stichprobenschätzer, Verteilungen…) und der Statistik-Software R sind wünschenswert.

Zur Registrierung (Link)