Analysieren Sie selbst, über welche Themen der deutsche Bundestag seit 1949 spricht. Wählen Sie aus 73 Themen und filtern Sie die Sprecher:innen nach Geschlecht, Alter, Partei und mehr.
Wählen Sie unten das erste Thema für Ihre Analyse
Abgebildet ist, wie stark sich der Bundestag seit 1949 mit verschiedenen Themen auseinandersetzt. Auf der X-Achse sind die Jahre 1949 - 2020 abgebildet, die Y-Achse zeigt die Relevanz, mit der ein Thema besprochen wurde.
Vereinfacht gesagt bedeutet eine Relevanz von 0.5 beim Thema Volkswirtschaft, dass das Thema die Hälfte aller Reden eingenommen hat. Zu beachten ist, dass eine Rede sich aus mehreren Themen zusammensetzen kann.
Betrachten wir ein Beispiel: In Willy Brandts Rede vom 04. Oktober 1990 behandelte er das Thema Wiedervereinigung, aber auch Themen wie Verteidigungspolitik, Ost-West Konflikt, öffentliche Verwaltung, Arbeit und andere werden in der Rede angeschnitten.
Bei dieser Rede ergeben sich folgende Relevanzwerte für die einzelnen Themen (Auszug):
Thema | Relevanz |
---|---|
Wiedervereinigung | 0.081 |
Verteidigungspolitik | 0.152 |
Außenpolitik: Ost-West Konflikt | 0.058 |
Öffentliche Verwaltung | 0.058 |
Page 1 of 1
In dieser Rede nutzt Willy Brandt allerdings gar nicht das Wort Wiedervereinigung. Stattdessen spricht er von der Mauer, Einigung, Zusammenwachsen und Ost-West-Entspannung.
Themen sind also Ansammlungen von Wörtern, die auf dieses Thema hinweisen. So kann Willy Brandt über die Wiedervereinigung sprechen, ohne dieses Wort selbst zu verwenden.
Mittels eines LDA Topic Models haben wir die Reden des Bundestages analysiert und automatisch die Wörter zu Themen zusammengefasst. Die durchschnittliche Relevanz von 73 Themen haben wir auf dieser Seite interaktiv zur Verfügung gestellt.
Als Grundlage für die Analyse dient der Open Discourse Datensatz (v.1.0.0) mit über 900.000 Redebeiträgen des deutschen Bundestages. Die Schritte bis zum Modell sind dabei wie folgt:
1. Part-of-Speech Tagging, Lemmatisierung & Stemming
Zuerst werden mittels eines Part-of-Speech Taggings nur die Substantive von Reden extrahiert. Diese werden dann auf ihre lexikalische Grundform zurückgeführt. Zusätzlich werden die Worte gestemmed . Somit werden Wörter normalisiert und damit besser vergleichbar gemacht.
2. Entfernung seltener Worte
Um die Anzahl der Wörter zu verringern werden Wörter entfernt, die weniger als 10-mal gesagt wurden. Dies sind bspw. Wörter wie Ellenbogenpolitik. Dieses Verfahren erlaubt es die Größe des “Wörterbuches” (die Anzahl der einzelnen Substantive im Korpus) zu reduzieren. Insgesamt wurden rund 519.000 dieser seltenen Wörter entfernt. Dies verbessert das Modell und die Trainingszeit. Die vollständige Liste seltener Begriffe ist hier zu finden.
3. Iteratives Training des Topic Models
Anschließend wird das Latent Dirichlet Allocation (LDA) Topic Model auf dem vorbereiteten Korpus trainiert. Dabei werden nur Reden berücksichtigt, die mindestens 10 Substantive enthalten. Dadurch fallen kurze organisatorische Redebeiträge wie bspw. die Moderation durch die Vorsitzenden der Sitzung weg, da diese in der Regel kein inhaltlicher Beitrag sind. Das Topic Model wurde auf 400 Themen trainiert. Wiederholt wurden nach dem Training dabei geprüft, welche Wörter in sehr vielen Themen vorkommen. Dies sind die spezifischen Stoppwörter des Bundestages, bspw. Gesetzesvorlage, Gegenstimmen oder Ausschuss. Dabei wurden etwa 4.500 solcher Wörter identifiziert und aus dem Korpus entfernt. Eine vollständige Liste dieser Worte kann hier eingesehen werden. Als Ergebnis aus diesem Schritt entsteht eine große Tabelle, die jeder Rede zu jedem der 400 Themen einen Wert zuweist. Dieser Wert beschreibt, wie stark ein Thema in dieser Rede abgedeckt wurde. Ein Thema wird stärker abgedeckt, wenn die identifizierten Wörter des Themas genutzt werden. Die Summe der 400 Themen addiert sich pro Rede auf 1.
4. Zusammenführen der identifizierten Themen
Nach dem Training gibt es die 400 Themen mit den automatisch zugewiesenen Wörtern. Nun kommt der einzige qualitative Teil dieses Modells zum Tragen: Für die Benennung der Themen haben wir uns an der Deutsch-Englische Version des internationalen CAP Codebook (Comparative Agenda Projektes )* orientiert. Eine Übersicht der relevanten Wörter pro Thema ist hier zu finden.
*Quelle: Christian Breunig and Tinette Schnatterer. 2018. German Policy Agendas - Data Set and Descriptive Insights. Working paper - University of Konstanz.
Durch die Zusatzinformationen des Open Discourse Datensatzes können detaillierte Filter genutzt werden, um Teilgruppen des Bundestages zu vergleichen. Folgende Filter sind verfügbar:
Filter | Beschreibung |
---|---|
Geschlecht | Geschlecht der Sprecher:in auf Grundlage der Stammdaten des Deutschen Bundestages |
Alter | Alter der Sprecher:in zum Zeitpunkt der Rede. Geteilt in über 50 und unter 50 Jahre (Durchschnittsalter des Bundestages) |
Partei | Parteimitgliedschaft zum Zeitpunkt der Rede |
Beruflicher Hintergrund | Berufsgruppe der Politiker:in auf Grundlage der Stammdaten. Mehr Informationen finden Sie unterhalb dieser Tabelle. |
Wahlbundesland | Bundesland über welches die Politiker:in eingezogen ist, geteilt in neue und alte Bundesländer. Mehr Informationen finden Sie unterhalb dieser Tabelle. |
Page 1 of 1
Diese Filter können beliebig kombiniert werden. Ein Beispiel für komplexe Filter ist hier zu finden. Weitere Informationen zum beruflichen Hintergrund von Politiker:innen sind hier zu finden, Informationen zum Wahlbundesland sind hier zu finden.
Um die Visualisierungen zuverlässig auf dieser Website zu ermöglichen, mussten wir uns auf eine Teilmenge der über 4000 Politiker:innen im Open Discourse Datensatz beschränken. Dabei haben wir folgende Auswahl getroffen:
Zusätzlich haben wir alle Politiker:innen aus dieser Liste entfernt, die unter 30 Reden gehalten haben. Als Ergebnis stehen nun 261 Politiker:innen zur Auswahl.
Automatisierte Textanalysen können gewisse Schwächen bergen: