R
als das Programm der WahlR
als das Programm der WahlEin herzliches Willkommen zu dieser Einführung in die
politikwissenschaftlichen Statistik mit R
!
Dieser Kurs wurde als Selbstlernkurs für Sie konzipiert. Sein Ziel
ist es, Ihnen die Nutzung der Programmiersprache R
in ihrem
politikwissenschaftlichen Studium zu ermöglichen. Dieser Kurs ergänzt
Ihre bestehenden Statistikvorlesungen anwendungsorientiert, setzt aber
auch die Inhalte der Vorlesungen voraus. Er wurde bewusst als
Online-Kurs konzipiert, sodass Sie auch zu Hause arbeiten können.
Für den Besuch dieses Kurses spricht eine ganze Reihe von Gründen, die über den Erwerb einer Studienleistung hinaus gehen:
Bessere Noten: Innerhalb des politikwissenschaftlichen Studiums wird die Notwendigkeit immer größer, statistische Verfahren nicht nur passiv verstehen zu können, sondern auch gängige Verfahren aktiv anzuwenden. Ohne diese Fertigkeiten können letztlich keine eigenständigen empirischen Haus- und Abschlussarbeiten geschrieben werden. Ein erfolgreicher Besuch dieses Kurses hebt also Ihr potenzielles Notenniveau deutlich an.
Eigenständige Analysen: Politikwissenschaft ist auch eine empirische Wissenschaft, in der wir politische Systeme und deren Regeln sowie das Verhalten von Akteuren (z.B. Parteien, Interessengruppen, Politikern und Bürgern) verstehen und erklären wollen. Der Besuch dieses Kurses erlaubt es Ihnen, selbstständige Analysen vorzunehmen als auch gegebene Analysen kritisch durch Replikation hinterfragen und nicht nur passiv die Arbeit anderer zu konsumieren.
Textanalyse: Innerhalb der Politikwissenschaft, ebenso wie in den
Sprachwissenschaften, wird das Thema automatische Textanalyse immer
wichtiger. In der Politikwissenschaft haben wir Zugang zu einer großen
Masse an politischen Dokumenten (z.B. Wahlprogramme, Gesetze, Tweets,
Zeitungsartikel, Pressemitteilungen). Diese sind wegen ihrer breiten
Verfügbarkeit und großen Masse kaum noch qualitativ auszuwerten, sondern
werden mithilfe automatischer Textanalyse ausgewertet. Die
Programmiersprache R
ist hier das Instrument der Wahl,
während klassischen Statistikprogrammen enge Grenzen gesetzt sind. Der
Kurs bietet Ihnen die Grundlage für einen Einstieg in diese
Welt.
Arbeitsmarkt: Die Fähigkeit zur quantitativen Datenanalyse ist quasi ein Job-Garant für Sie. Sich damit systematisch auseinanderzusetzen, eröffnet Arbeitsmarktperspektiven im Bereich “Data Science” und auch “Big Data”. Aber auch in klassischen Arbeitsmärkten für Politikwissenschaftler/innen wie z.B. Journalismus, wird dies immer wichtiger und ist nachgesucht.
R
als das Programm der WahlHinsichtlich des Statistikprogrammes haben wir uns bewusst für
R
entschieden. Zum Ersten handelt es sich im Gegensatz zu
Stata und SPSS um eine Freeware, die nicht zu Lizenzkosten führt bzw.
Sie sich bei Ihrer Universität für eine begrenzte Zeit laufende Lizenzen
besorgen müssen. R
läuft sowohl auf Windows als auch auf
Mac. Zum Zweiten ist R vielseitig anwendbar z.B. bezogen auf
quantitative Textanalyse.
In den ersten drei Sitzungen führen wir Sie in das Programm
R
ein. Da es sich um eine Programmiersprache handelt, die
deutlich mehr kann als beispielsweise die Statistikprogramme SPSS und
Stata, gilt es zuerst die Grundlagen der Nutzung zu vermitteln. Dafür
sind drei Sitzungen eingeplant.
Die fachlichen Sitzungen ab Sitzung 4 sind immer gleich strukturiert:
Es wird nochmals knapp auf das jeweilige statistische Verfahren eingegangen, das Sie in der Vorlesung erlernt haben.
Es wird der Code für die Anwendung des Verfahrens am Beispiel von zwei politikwissenschaftlichen Datensätzen vorgestellt (incl. des zu erwartenden Outputs).
Es werden kleine Aufgaben zur eigenständigen Lösung aus den beiden Datensätzen vorgegeben (incl. der Lösungen).
In der Statistikausbildung wird in Vorlesungen ein Schwerpunkt auf die mathematische Basis gelegt oder wenn Vorlesungen von Professor/innen anderer Fächer unterrichtet werden, sind die Beispiele oft nicht politikwissenschaftlicher Natur. Wir haben in der Vergangenheit festgestellt, dass deshalb Studierenden oft nicht klar ist, wozu sie eigentlich die Statistikvorlesungen in ihrem Studium benötigen.
Didaktisch haben wir uns in diesem Kurs bei Beispielen und Aufgaben auf zwei Datensätze der politischen Soziologie sowie der vergleichenden Politikwissenschaft gestützt, um den Nutzen so besser verdeutlichen zu können.
Politische Soziologie: Hier nutzen wir den “Nachwahl-Querschnitt der German Longitudinal Election Study (GLES)” von 2017. Der Datensatz umfasst 607 Variablen und 2112 Fälle. Dieser ist ein Standarddatensatz der deutschen Wahlsystemforschung.
Vergleichende Politikwissenschaft: Hier nutzen wir “Patterns of Democracy” von Arend Lijphart. Der Datensatz umfasst zehn Variablen und 36 Fälle. Dieser gehört zu den Klassikern der vergleichenden Politikwissenschaft.
Die Auswahl der beiden Datensätze wurde getroffen, um verschiedene Bereiche der Politikwissenschaft zu bedienen und verschiedene Formen von Daten zeigen zu können (Individualdaten vs. Aggregatdaten). Die Datensätze beinhalten Variablen auf unterschiedlichen Skalenniveaus und sind unterschiedlich umfangreich hinsichtlich der Variablen- und Fallzahlen. Gleichzeitig wollten wir uns aber auf diese beiden Datensätze fokussieren, damit Sie ein Gespür für Inhalt und Umfang der beiden Datensätze bekommen und nicht ständig zwischen Ihnen unbekannten Datensätzen hin- und herspringen müssen.
In diesem Kurs werden Sie die Grundlagen des Programms erlernen sowie Datensatzaufbereitung, deskriptive und multivariate Statistik. Ebenefalls wichtig ist das Thema Visualisierung, dem wir drei Sitzungen widmen.
Konkret werden folgende Themen abgehandelt:
Ein herzliches Willkommen zu dieser Einführung in die
politikwissenschaftliche Statistik mit R
!
Kleinere Institute für Politikwissenschaft stehen oftmals vor der Herausforderung, dass sie keine eigenständige Methoden- bzw Statistikprofessur haben, sondern dass die Methoden- und Statistikausbildung aus der Soziologie oder anderen Fächern in Form von Vorlesungen zugeliefert wird. Von Seite der Studierenden wird dann oftmals bemängelt, dass die Statistikkurse entweder zu mathematisch und zu wenig anwendungsorientiert sind, oder die Beispiele nicht aus dem eigenen Fach kommen.
Die zweite Herausforderung besteht darin, dass innerhalb des
politikwissenschaftlichen Studiums die Notwendigkeit immer größer wird,
statistische Verfahren nicht nur passiv verstehen zu können, sondern
gängige Verfahren mit Programmen wie SPSS, Stata oder R
aktiv anzuwenden. Ohne diese Fertigkeiten können letztlich keine
eigenständigen empirischen Haus- und Abschlussarbeiten geschrieben
werden.
Die Studierenden kommen oft mit diesem Spannungsbogen nicht klar, dass sie zwar statistische Verfahren nutzen sollen, die Ausbildung jedoch oft zu weit von ihren realen Anforderungen im Bachelor entfernt ist. Das frustriert zutiefst.
Idealerweise würde man das Erlernen von statistischen Verfahren und ihre Anwendung in einem Statistikprogramm in Form von die Vorlesungen begleitenden Seminaren durchführen. Die dafür notwendigen finanziellen Ressourcen für Mitarbeiter/innen stehen jedoch oft nicht zur Verfügung.
Dieser Kurs wurde als Selbstlernkurs konzipiert, der zum Ziel hat, die vorlesungslastige und mathematisch orientierte Statistikausbildung im Fach Politikwissenschaft bei begrenzten dafür zur Verfügung stehenden Ressourcen zu verbessern. Er wurde bewusst als Online Kurs konzipiert, sodass die Studierenden auch zu Hause am Material arbeiten können.
Er kann durch Tutor/innen begleitet werden, die dann für die Fehlersuche und Beseitigung zur Verfügung stehen. Dies ist jedoch nicht zwingend erforderlich.
Studierende im Bachelor können Kenntnisse in der Programmiersprache R und in der eigenständigen Analyse von Daten mit diesem Kurs erwerben. In Verbindung mit den theoretischen Hintergründen aus den Statistikvorlesungen können sie somit sowohl selbstständig Analysen vornehmen, als auch gegebene Analysen kritisch durch Replikation hinterfragen. In der Konsequenz können die Studierenden direkt und anwendungsorientiert Fragen der deskriptiven und Inferenzstatistik beantworten. In der praktischen Bearbeitung und eigenständigen Analyse politikwissenschaftlicher Datensätze sollen die Studierenden sich mit dem Thema Statistik und dessen Nutzen besser identifizieren.
Dieser Kurs hat den Umfang von 2 Semesterwochenstunden (SWS). Er setzt voraus, dass die Studierenden Vorlesungen in Statistik besuchen und die mathematischen Grundlagen gängiger statistischer Verfahren vermittelt bekommen. Sein Ziel ist es nicht, nochmals die statistischen Grundlagen komplett zu wiederholen.
Das Ziel des Kurses ist es, die Nutzung von R
anhand von
gängigen politikwissenschaftlichen Datensätzen zu vermitteln. Er geht
dazu wie folgt in jeder Sitzung vor: (1) Es wird nochmals knapp auf das
jeweilige statistische Verfahren eingegangen. (2) Es wird der Code für
die Anwendung des Verfahrens am Beispiel von zwei
politikwissenschaftlichen Datensätzen vorgestellt (incl. des zu
erwartenden Outputs). (3) Es werden kleine Aufgaben zur eigenständigen
Lösung aus den beiden Datensätzen vorgegeben (incl. der Lösungen).
In den ersten drei Sitzungen führen wir in das Programm
R
ein. Wie immer beim Programmieren hakt es oft an kleinen
Fehlern im Code bereits bei den Grundlagen, was dann zu Frustration
führt. Dies wollten wir vermeiden und sehen diese drei Sitzungen als
gutes Investment.
R
als das Programm der WahlHinsichtlich des Statistikprogrammes haben wir uns bewusst für
R
entschieden. Zum Ersten handelt es sich im Gegensatz zu
Stata und SPSS um eine Freeware, die nicht zu Lizenzkosten in
Abhängigkeit von den (nicht vorhandenen) Rahmenverträgen der jeweiligen
Universität führt. Zum Zweiten wird das Thema automatische Textanalyse
in der politikwissenschaftlichen Forschung immer wichtiger. Klassischen
Statistikprogrammen sind hier im Gegensatz zur Programmiersprache
R
enge Grenzen gesetzt. Insofern ist die Wahl von
R
auch perspektivisch hinsichtlich der Master-Ausbildung
gedacht.
In diesem Kurs werden die Studierenden die Grundlagen des Programms erlernen, Datensatzaufbereitung, deskriptive und multivariate Statistik. Dies geschieht anhand von verbreiteten politikwissenschaftlichen Datensätzen. Konkret werden folgende Themen abgehandelt:
Didaktisch haben wir uns bei Beispielen und Aufgaben auf zwei Datensätze der politischen Soziologie sowie der vergleichenden Politikwissenschaft gestützt.
Politische Soziologie: Hier nutzen wir den “Nachwahl-Querschnitt der German Longitudinal Election Study (GLES)” von 2017. Der Datensatz umfasst 607 Variablen und 2112 Fälle.
Vergleichende Politikwissenschaft: Hier nutzen wir “Patterns of Democracy” von Arend Lijphart. Der Datensatz umfasst zehn Variablen und 36 Fälle.
Die Auswahl der beiden Datensätze wurde getroffen, um verschiedene Bereiche der Politikwissenschaft zu bedienen und verschiedene Formen von Daten zeigen zu können (Individualdaten vs. Aggregatdaten). Die Datensätze beinhalten Variablen auf unterschiedlichen Skalenniveaus und sind unterschiedlich umfangreich hinsichtlich der Variablen- und Fallzahlen. Gleichzeitig wollten wir uns aber auf diese beiden Dstensätze fokussieren, damit die Studierenden ein Gespür für Inhalt und Umfang dieser beiden Datensätze bekommen und nicht ständig zwischen ihnen unbekannten Datensätzen hin- und herspringen müssen.
In diesem Kurs basiert die Erläuterung der statistischen Methoden der Politikwissenschaft im wesentlichen auf Kühnel/Krebs (2014) und Diaz-Bone (2019). Als Datensätze werden Lijphart (2012) und GLES (2019) verwendet.
Quellen:
Diaz-Bone, Rainer (2019): Statistik für Soziologen. 4. überarbeitete Auflage. München: UVK-Verlag.
GLES (2019). Nachwahl-Querschnitt (GLES 2017). GESIS Datenarchiv, Köln. ZA6801 Datenfile Version 4.0.1, https://doi.org/10.4232/1.13235
Kühnel, Steffen-M./Dagmar Krebs (2014): Statistik für die Sozialwissenschaften. Grundlagen Methoden Anwendungen. 7. Auflage. Reinbek bei Hamburg: Rowohlt.
Lijphart, Arend (2012): Patterns of Democracy. Government Forms and Performance in Thirty-Six Countries. 2nd Edition. New Haven/London: Yale University Press.
Wir danken dem Niedersächsischen Ministerium für Wissenschaft und Kunst (MWK) für die Förderung des Projektes “Digitalisierung in einer Massenveranstaltung: Peer-begleitetes E-Learning in der politikwissenschaftlichen Statistikausbildung mit der Programmiersprache R” aus dem Programm “Innovative Lehr- und Lernkonzepte: Innovation plus (2020/21), Projektnummer 25”.
Ebenso danken wir Frau Dr. Ines Katenhusen als Referentin des Präsidiums sowie dem Studiendekanat der Philosophischen Fakultät, insbesondere Sandra Templin, für Kommentare zum Antrag.
Update 2024
Im Zuge der neuen Professur für Quantitative Methoden der Politikwissenschaft an der Leibniz Universität (Prof. Dr. Dominic Nyhuis) wurde dieser Selbstlernkurs als Teil des Moduls “Politikwissenschaftliche Statistik” an die Vorlesung angepasst.
Und nun wünschen wir Ihnen viel Spass und Erfolg bei der Nutzung des Kurses!
Christoph Garwe, Philipp Meyer, Laura Brune, Timor Othersen & Christoph Hönnige
Hannover, 16. April 2024