1. Herzlich Wilkommen, sehr geehrte Studierende!

Ein herzliches Willkommen zu dieser Einführung in die politikwissenschaftlichen Statistik mit R!

1.1. Zielsetzung des Selbstlernkurses

Dieser Kurs wurde als Selbstlernkurs für Sie konzipiert. Sein Ziel ist es, Ihnen die Nutzung der Programmiersprache R in ihrem politikwissenschaftlichen Studium zu ermöglichen. Dieser Kurs ergänzt Ihre bestehenden Statistikvorlesungen anwendungsorientiert, setzt aber auch die Inhalte der Vorlesungen voraus. Er wurde bewusst als Online-Kurs konzipiert, sodass Sie auch zu Hause arbeiten können.

1.2. Gründe für diesen Kurs

Für den Besuch dieses Kurses spricht eine ganze Reihe von Gründen, die über den Erwerb einer Studienleistung hinaus gehen:

  1. Bessere Noten: Innerhalb des politikwissenschaftlichen Studiums wird die Notwendigkeit immer größer, statistische Verfahren nicht nur passiv verstehen zu können, sondern auch gängige Verfahren aktiv anzuwenden. Ohne diese Fertigkeiten können letztlich keine eigenständigen empirischen Haus- und Abschlussarbeiten geschrieben werden. Ein erfolgreicher Besuch dieses Kurses hebt also Ihr potenzielles Notenniveau deutlich an.

  2. Eigenständige Analysen: Politikwissenschaft ist auch eine empirische Wissenschaft, in der wir politische Systeme und deren Regeln sowie das Verhalten von Akteuren (z.B. Parteien, Interessengruppen, Politikern und Bürgern) verstehen und erklären wollen. Der Besuch dieses Kurses erlaubt es Ihnen, selbstständige Analysen vorzunehmen als auch gegebene Analysen kritisch durch Replikation hinterfragen und nicht nur passiv die Arbeit anderer zu konsumieren.

  3. Textanalyse: Innerhalb der Politikwissenschaft, ebenso wie in den Sprachwissenschaften, wird das Thema automatische Textanalyse immer wichtiger. In der Politikwissenschaft haben wir Zugang zu einer großen Masse an politischen Dokumenten (z.B. Wahlprogramme, Gesetze, Tweets, Zeitungsartikel, Pressemitteilungen). Diese sind wegen ihrer breiten Verfügbarkeit und großen Masse kaum noch qualitativ auszuwerten, sondern werden mithilfe automatischer Textanalyse ausgewertet. Die Programmiersprache R ist hier das Instrument der Wahl, während klassischen Statistikprogrammen enge Grenzen gesetzt sind. Der Kurs bietet Ihnen die Grundlage für einen Einstieg in diese Welt.

  4. Arbeitsmarkt: Die Fähigkeit zur quantitativen Datenanalyse ist quasi ein Job-Garant für Sie. Sich damit systematisch auseinanderzusetzen, eröffnet Arbeitsmarktperspektiven im Bereich “Data Science” und auch “Big Data”. Aber auch in klassischen Arbeitsmärkten für Politikwissenschaftler/innen wie z.B. Journalismus, wird dies immer wichtiger und ist nachgesucht.

1.3. R als das Programm der Wahl

Hinsichtlich des Statistikprogrammes haben wir uns bewusst für R entschieden. Zum Ersten handelt es sich im Gegensatz zu Stata und SPSS um eine Freeware, die nicht zu Lizenzkosten führt bzw. Sie sich bei Ihrer Universität für eine begrenzte Zeit laufende Lizenzen besorgen müssen. R läuft sowohl auf Windows als auch auf Mac. Zum Zweiten ist R vielseitig anwendbar z.B. bezogen auf quantitative Textanalyse.

1.4. Didaktischer Aufbau

In den ersten drei Sitzungen führen wir Sie in das Programm R ein. Da es sich um eine Programmiersprache handelt, die deutlich mehr kann als beispielsweise die Statistikprogramme SPSS und Stata, gilt es zuerst die Grundlagen der Nutzung zu vermitteln. Dafür sind drei Sitzungen eingeplant.

Die fachlichen Sitzungen ab Sitzung 4 sind immer gleich strukturiert:

  1. Es wird nochmals knapp auf das jeweilige statistische Verfahren eingegangen, das Sie in der Vorlesung erlernt haben.

  2. Es wird der Code für die Anwendung des Verfahrens am Beispiel von zwei politikwissenschaftlichen Datensätzen vorgestellt (incl. des zu erwartenden Outputs).

  3. Es werden kleine Aufgaben zur eigenständigen Lösung aus den beiden Datensätzen vorgegeben (incl. der Lösungen).

1.5. Politikwissenschaftliche Beispiele

In der Statistikausbildung wird in Vorlesungen ein Schwerpunkt auf die mathematische Basis gelegt oder wenn Vorlesungen von Professor/innen anderer Fächer unterrichtet werden, sind die Beispiele oft nicht politikwissenschaftlicher Natur. Wir haben in der Vergangenheit festgestellt, dass deshalb Studierenden oft nicht klar ist, wozu sie eigentlich die Statistikvorlesungen in ihrem Studium benötigen.

Didaktisch haben wir uns in diesem Kurs bei Beispielen und Aufgaben auf zwei Datensätze der politischen Soziologie sowie der vergleichenden Politikwissenschaft gestützt, um den Nutzen so besser verdeutlichen zu können.

  1. Politische Soziologie: Hier nutzen wir den “Nachwahl-Querschnitt der German Longitudinal Election Study (GLES)” von 2017. Der Datensatz umfasst 607 Variablen und 2112 Fälle. Dieser ist ein Standarddatensatz der deutschen Wahlsystemforschung.

  2. Vergleichende Politikwissenschaft: Hier nutzen wir “Patterns of Democracy” von Arend Lijphart. Der Datensatz umfasst zehn Variablen und 36 Fälle. Dieser gehört zu den Klassikern der vergleichenden Politikwissenschaft.

Die Auswahl der beiden Datensätze wurde getroffen, um verschiedene Bereiche der Politikwissenschaft zu bedienen und verschiedene Formen von Daten zeigen zu können (Individualdaten vs. Aggregatdaten). Die Datensätze beinhalten Variablen auf unterschiedlichen Skalenniveaus und sind unterschiedlich umfangreich hinsichtlich der Variablen- und Fallzahlen. Gleichzeitig wollten wir uns aber auf diese beiden Datensätze fokussieren, damit Sie ein Gespür für Inhalt und Umfang der beiden Datensätze bekommen und nicht ständig zwischen Ihnen unbekannten Datensätzen hin- und herspringen müssen.

2. Herzlich Wilkommen, sehr geehrte Dozierende!

Ein herzliches Willkommen zu dieser Einführung in die politikwissenschaftliche Statistik mit R!

2.1 Motivation und Ausgangsproblem

Kleinere Institute für Politikwissenschaft stehen oftmals vor der Herausforderung, dass sie keine eigenständige Methoden- bzw Statistikprofessur haben, sondern dass die Methoden- und Statistikausbildung aus der Soziologie oder anderen Fächern in Form von Vorlesungen zugeliefert wird. Von Seite der Studierenden wird dann oftmals bemängelt, dass die Statistikkurse entweder zu mathematisch und zu wenig anwendungsorientiert sind, oder die Beispiele nicht aus dem eigenen Fach kommen.

Die zweite Herausforderung besteht darin, dass innerhalb des politikwissenschaftlichen Studiums die Notwendigkeit immer größer wird, statistische Verfahren nicht nur passiv verstehen zu können, sondern gängige Verfahren mit Programmen wie SPSS, Stata oder R aktiv anzuwenden. Ohne diese Fertigkeiten können letztlich keine eigenständigen empirischen Haus- und Abschlussarbeiten geschrieben werden.

Die Studierenden kommen oft mit diesem Spannungsbogen nicht klar, dass sie zwar statistische Verfahren nutzen sollen, die Ausbildung jedoch oft zu weit von ihren realen Anforderungen im Bachelor entfernt ist. Das frustriert zutiefst.

Idealerweise würde man das Erlernen von statistischen Verfahren und ihre Anwendung in einem Statistikprogramm in Form von die Vorlesungen begleitenden Seminaren durchführen. Die dafür notwendigen finanziellen Ressourcen für Mitarbeiter/innen stehen jedoch oft nicht zur Verfügung.

2.2 Zielsetzung des Selbstlernkurses

Dieser Kurs wurde als Selbstlernkurs konzipiert, der zum Ziel hat, die vorlesungslastige und mathematisch orientierte Statistikausbildung im Fach Politikwissenschaft bei begrenzten dafür zur Verfügung stehenden Ressourcen zu verbessern. Er wurde bewusst als Online Kurs konzipiert, sodass die Studierenden auch zu Hause am Material arbeiten können.

Er kann durch Tutor/innen begleitet werden, die dann für die Fehlersuche und Beseitigung zur Verfügung stehen. Dies ist jedoch nicht zwingend erforderlich.

Studierende im Bachelor können Kenntnisse in der Programmiersprache R und in der eigenständigen Analyse von Daten mit diesem Kurs erwerben. In Verbindung mit den theoretischen Hintergründen aus den Statistikvorlesungen können sie somit sowohl selbstständig Analysen vornehmen, als auch gegebene Analysen kritisch durch Replikation hinterfragen. In der Konsequenz können die Studierenden direkt und anwendungsorientiert Fragen der deskriptiven und Inferenzstatistik beantworten. In der praktischen Bearbeitung und eigenständigen Analyse politikwissenschaftlicher Datensätze sollen die Studierenden sich mit dem Thema Statistik und dessen Nutzen besser identifizieren.

2.3 Voraussetzungen der Nutzung

Dieser Kurs hat den Umfang von 2 Semesterwochenstunden (SWS). Er setzt voraus, dass die Studierenden Vorlesungen in Statistik besuchen und die mathematischen Grundlagen gängiger statistischer Verfahren vermittelt bekommen. Sein Ziel ist es nicht, nochmals die statistischen Grundlagen komplett zu wiederholen.

Das Ziel des Kurses ist es, die Nutzung von R anhand von gängigen politikwissenschaftlichen Datensätzen zu vermitteln. Er geht dazu wie folgt in jeder Sitzung vor: (1) Es wird nochmals knapp auf das jeweilige statistische Verfahren eingegangen. (2) Es wird der Code für die Anwendung des Verfahrens am Beispiel von zwei politikwissenschaftlichen Datensätzen vorgestellt (incl. des zu erwartenden Outputs). (3) Es werden kleine Aufgaben zur eigenständigen Lösung aus den beiden Datensätzen vorgegeben (incl. der Lösungen).

In den ersten drei Sitzungen führen wir in das Programm R ein. Wie immer beim Programmieren hakt es oft an kleinen Fehlern im Code bereits bei den Grundlagen, was dann zu Frustration führt. Dies wollten wir vermeiden und sehen diese drei Sitzungen als gutes Investment.

2.4 R als das Programm der Wahl

Hinsichtlich des Statistikprogrammes haben wir uns bewusst für R entschieden. Zum Ersten handelt es sich im Gegensatz zu Stata und SPSS um eine Freeware, die nicht zu Lizenzkosten in Abhängigkeit von den (nicht vorhandenen) Rahmenverträgen der jeweiligen Universität führt. Zum Zweiten wird das Thema automatische Textanalyse in der politikwissenschaftlichen Forschung immer wichtiger. Klassischen Statistikprogrammen sind hier im Gegensatz zur Programmiersprache R enge Grenzen gesetzt. Insofern ist die Wahl von R auch perspektivisch hinsichtlich der Master-Ausbildung gedacht.

2.6 Politikwissenschaftliche Beispiele

Didaktisch haben wir uns bei Beispielen und Aufgaben auf zwei Datensätze der politischen Soziologie sowie der vergleichenden Politikwissenschaft gestützt.

  1. Politische Soziologie: Hier nutzen wir den “Nachwahl-Querschnitt der German Longitudinal Election Study (GLES)” von 2017. Der Datensatz umfasst 607 Variablen und 2112 Fälle.

  2. Vergleichende Politikwissenschaft: Hier nutzen wir “Patterns of Democracy” von Arend Lijphart. Der Datensatz umfasst zehn Variablen und 36 Fälle.

Die Auswahl der beiden Datensätze wurde getroffen, um verschiedene Bereiche der Politikwissenschaft zu bedienen und verschiedene Formen von Daten zeigen zu können (Individualdaten vs. Aggregatdaten). Die Datensätze beinhalten Variablen auf unterschiedlichen Skalenniveaus und sind unterschiedlich umfangreich hinsichtlich der Variablen- und Fallzahlen. Gleichzeitig wollten wir uns aber auf diese beiden Dstensätze fokussieren, damit die Studierenden ein Gespür für Inhalt und Umfang dieser beiden Datensätze bekommen und nicht ständig zwischen ihnen unbekannten Datensätzen hin- und herspringen müssen.

3. Grundlagenliteratur und verwendete Datensätze

In diesem Kurs basiert die Erläuterung der statistischen Methoden der Politikwissenschaft im wesentlichen auf Kühnel/Krebs (2014) und Diaz-Bone (2019). Als Datensätze werden Lijphart (2012) und GLES (2019) verwendet.

Quellen:

Diaz-Bone, Rainer (2019): Statistik für Soziologen. 4. überarbeitete Auflage. München: UVK-Verlag.

GLES (2019). Nachwahl-Querschnitt (GLES 2017). GESIS Datenarchiv, Köln. ZA6801 Datenfile Version 4.0.1, https://doi.org/10.4232/1.13235

Kühnel, Steffen-M./Dagmar Krebs (2014): Statistik für die Sozialwissenschaften. Grundlagen Methoden Anwendungen. 7. Auflage. Reinbek bei Hamburg: Rowohlt.

Lijphart, Arend (2012): Patterns of Democracy. Government Forms and Performance in Thirty-Six Countries. 2nd Edition. New Haven/London: Yale University Press.

4. Hintergrund des Kurses

Wir danken dem Niedersächsischen Ministerium für Wissenschaft und Kunst (MWK) für die Förderung des Projektes “Digitalisierung in einer Massenveranstaltung: Peer-begleitetes E-Learning in der politikwissenschaftlichen Statistikausbildung mit der Programmiersprache R” aus dem Programm “Innovative Lehr- und Lernkonzepte: Innovation plus (2020/21), Projektnummer 25”.



Ebenso danken wir Frau Dr. Ines Katenhusen als Referentin des Präsidiums sowie dem Studiendekanat der Philosophischen Fakultät, insbesondere Sandra Templin, für Kommentare zum Antrag.

 

Update 2024

Im Zuge der neuen Professur für Quantitative Methoden der Politikwissenschaft an der Leibniz Universität (Prof. Dr. Dominic Nyhuis) wurde dieser Selbstlernkurs als Teil des Moduls “Politikwissenschaftliche Statistik” an die Vorlesung angepasst.

Und nun wünschen wir Ihnen viel Spass und Erfolg bei der Nutzung des Kurses!

Christoph Garwe, Philipp Meyer, Laura Brune, Timor Othersen & Christoph Hönnige

Hannover, 16. April 2024