workshop-repr

Übersicht

Bei der Beurteilung von Forschungsergebnissen stellt sich die Frage, ob eine Stichprobe repräsentativ für die Grundgesamtheit ist. Im Workshop werden wir gemeinsam erarbeiten, inwiefern eine Abweichung der Stichprobe von der Grundgesamtheit zu einer Verzerrung von Forschungsergebnissen führen kann und wie in einem solchen Falle bei der Berichterstattung der Ergebnisse vorgegangen werden kann. Im analytischen Teil des Workshops wird die eigene Lehrer:innen- bzw. Schüler:innen-Stichprobe mit Daten der amtlichen Schulstatistik (Grundgesamtheit) abgeglichen, um somit Aspekte der Repräsentativität der eigenen Stichprobe einzuschätzen. Datenbeispiele werden zur Verfügung gestellt. Die analytische Arbeit erfolgt mit Excel, R und RStudio.

💻 Installationsanleitung

Bitte R und RStudio installieren (Step 1 & Step 2): https://posit.co/download/rstudio-desktop/

Herzlich willkommen zum Workshop

Wie kann ich die Repräsentativität meiner Stichprobe beurteilen?

Pawel R. Kulawiak

kulawiak@uni-potsdam.de

Bei einer repräsentativen Online-Umfrage (Zufallsstichprobe) wurde der Link zur Befragung an 1000 Lehrkräfte verschickt (fiktives Beispiel)

746 Lehrkräfte haben an der Umfrage teilgenommen und folgende Frage beantwortet:

Benutzen Sie KI-Tools (Künstliche Intelligenz) für die Unterrichtsvorbereitung?

Ja: 89 %
Nein: 11 %

Es besteht eine negative Korrelation (r = -0.34) zwischen „Alter“ und „Nutzung der KI-Tools“: Je älter die Lehrpersonen sind, desto seltener werden KI-Tools genutzt.

Altersverteilung der Lehrpersonen (in Jahren)

60 bis 64 🔳 2 %
55 bis 59 🔳🔳 4 %
50 bis 54 🔳🔳🔳 6 %
45 bis 49 🔳🔳🔳 6 %
40 bis 44 🔳🔳🔳🔳🔳🔳 12 %
35 bis 39 🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳 20 %
30 bis 34 🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳 28 %
25 bis 29 🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳 22 %

📋 Aufgabenstellung

In einem Beitrag in einer Tageszeitung wird anhand der Umfrageergebnisse folgendes geschlussfolgert:

“Die allermeisten Lehrkräfte in Deutschland benutzen KI-Tools für die Unterrichtsvorbereitung.”

Empfinden Sie diese Schlussfolgerung als gerechtfertigt? Ist eine Verzerrung der Umfrageergebnisse möglich/plausibel? Begründen Sie Ihre Argumentation.

Grundgesamtheit, Stichprobe und Zufallsstichprobe

“Our goal in sampling is not to obtain a random sample per se, but to obtain a sample representative of the parent population, which will allow us to infer from the characteristics of the sample to the characteristics of the population, based on the argument that the sample is “similar” to the rest of the population.” (Teng, 2011)

“A random sample is often used as a stand in for a representative sample. Random sampling however is neither necessary nor sufficient to ensure a representative sample. A random sample might still be skewed, as it must happen every now and then as a mathematical fact, and a non-random sample might have the appropriate proportion of elements, either by careful crafting of the sample or just by chance.” (Teng, 2011)

Kann eine nicht repräsentative Stichprobe das Studienergebnis verzerren?

“However, even if we adhere to all good sampling practice, if there are reasons to cast doubt on a sample’s representativeness, the statistical inference from the sample to the population should justifiably be undermined.” (Teng, 2011)

Beispiel:

“For example, to determine the average IQ of people, if it comes to our attention that all the members of the sample, drawn carefully following good sampling practice, happen to be members of mensa [high-IQ society], we should not proceed with the inference. The inference would be blocked as the default justification that the sample be representative becomes suspect.” (Teng, 2011)

Übungsbeispiel

Bei einer repräsentativen Online-Umfrage (Zufallsstichprobe) wurde der Link zur Befragung an 1000 Lehrkräfte verschickt (fiktives Beispiel)

746 Lehrkräfte haben an der Umfrage teilgenommen und folgende Frage beantwortet:

Benutzen Sie KI-Tools (Künstliche Intelligenz) für die Unterrichtsvorbereitung?

Ja: 89 %
Nein: 11 %

Es besteht eine negative Korrelation (r = -0.34) zwischen „Alter“ und „Nutzung der KI-Tools“: Je älter die Lehrpersonen sind, desto seltener werden KI-Tools genutzt.

Altersverteilung der Lehrpersonen (in Jahren)

Die Altersverteilung der befragten Lehrkräfte entspricht augenscheinlich nicht der Altersverteilung der Lehrkräfte in Deutschland (siehe hier). In Deutschland gibt es deutlich mehr ältere Lehrkräfte (z.B. über 60) sowie deutlich weniger jüngere Lehrkräfte (z.B. unter 30).

Würde die Stichprobe der Grundgesamtheit entsprechen, also mehr ältere Lehrkräfte beinhalten, dann würden diese älteren Lehrkräfte wahrscheinlich häufiger angeben, dass sie keine KI-Tools nutzen (je älter die Lehrpersonen, desto seltener werden KI-Tools genutzt).
Es gibt empirische Hinweise darauf, dass ältere Lehrkräfte digitale Medien seltener nutzen (Mauß, 2020).
Dementsprechend erscheint die Annahme plausibel, dass die KI-Nutzung (89 %) überschätzt wird, da ältere Lehrpersonen, welche KI seltener nutzen, in der Stichprobe unterrepräsentiert sind (dadurch wahrscheinlich weniger Nein-Antworten auf die Frage “Benutzen Sie KI-Tools für die Unterrichtsvorbereitung?”).
Eine repräsentative Stichprobe (repräsentativ im Hinblick auf das Alter) würde wahrscheinlich zu einer kleineren Einschätzung der KI-Nutzung führen, also eine geringere Prozentzahl von Ja-Antworten und eine höhere Prozentzahl von Nein-Antworten auf die Frage “Benutzen Sie KI-Tools für die Unterrichtsvorbereitung?”.

Die Altersabweichung der Stichprobe von der Grundgesamtheit kann einerseits als Stichprobenfehler (sampling error) umschrieben werden: “A random sample might still be skewed, as it must happen every now and then as a mathematical fact […]” (Teng, 2011)

Andererseits können mit dem Konzept der Verzerrung (z.B. participation bias) plausible Argumente für die Erklärung der Abweichung einer Stichprobe von der Grundgesamtheit herangezogen werden (vielleicht bevorzugen ältere Lehrkräfte eine Paper-Pencil-Befragung?):

„Teilnahmeverhalten (Nonresponse) und Stichprobenverzerrungen (Bias) zählen vermutlich zu den beiden wichtigsten Forschungsgebieten der Surveymethodologie. Beide Bereiche hängen eng zusammen: Die systematische, nicht zufällige Verweigerung oder Nichtteilnahme an einer Studie führen zu Ergebnissen, die bei Verallgemeinerungen auf die Grundgesamtheit diese nur verzerrt wiedergeben (Groves und Peytcheva 2008).“ (Weinhardt & Liebig, 2015)

Die Relevanz der Abweichung der Stichprobe von der Grundgesamtheit muss begründet werden:

"Strategies for demonstrating it [representativeness] typically involve comparing observable characteristics (e.g., race, gender, location) of study samples to those in the population of interest to decision makers. This paper argues that these strategies provide insufficient evidence for establishing representativeness. Characteristics typically used for comparison are unlikely to be causally relevant to all educational interventions. Treating them as evidence that supports extending RCT results without providing evidence demonstrating their relevance undermines the inference. Determining what factors are causally relevant requires studying the causal mechanisms underlying the interventions in question." (Joyce, 2019)

Grundsätze guter wissenschaftlicher Praxis

"Die Bereitschaft zum konsequenten Zweifeln an eigenen Ergebnissen muss selbstverständlich bleiben. Fakten und wissenschaftliche Argumente, die die eigene Arbeitshypothese in Zweifel ziehen, dürfen nicht unterdrückt werden."

Gemeinsames Positionspapier des Allgemeinen Fakultätentags (AFT), der Fakultätentage und des Deutschen Hochschulverbands (DHV) vom 9. Juli 2012

📖 Literatur

Teng, C. M. (2011). Data, Data, Everywhere: Statistical Issues in Data Mining. In Philosophy of Statistics: Volume 7 in Handbook of the Philosophy of Science (Vol. 7, pp. 1099–1117). Elsevier. https://doi.org/10.1016/B978-0-444-51862-0.50034-4

Stichprobenfehler im Dorsch Lexikon der Psychologie. (2016). https://dorsch.hogrefe.com/stichwort/stichprobenfehler

Weinhardt, M., & Liebig, S. (2015). Teilnahmeverhalten und Stichprobenverzerrung in der deutschen Stichprobe des European Social Survey. In J. Schupp & C. Wolf (Hrsg.), Nonresponse Bias (S. 47–83). Springer Fachmedien Wiesbaden. https://doi.org/10.1007/978-3-658-10459-7_2

Joyce, K. E. (2019). The key role of representativeness in evidence-based education. Educational Research and Evaluation, 25(1–2), 43–62. https://doi.org/10.1080/13803611.2019.1617989

Amtliche Schulstatistik

“Die Nutzung amtlicher Daten ist dabei an vielen Stellen unverzichtbar, da nur durch sie die Grundgesamtheit (z. B. Bildungsinstitutionen und darin genestet Lernende) bestimmt und als Referenz für die Stichprobenziehung […] verwendet werden kann. […] Dies kann für den Bereich Schule an vielen Stellen in optimaler Weise durch die Nutzung von Daten aus der amtlichen Schulstatistik geschehen.” (Artelt et al., 2019)

GENESIS-Online: Datenbank des Statistischen Bundesamtes (inkl. amtliche Schulstatistik)

"In GENESIS-Online, der Datenbank des Statistischen Bundesamtes, finden Sie eine Vielzahl von Tabellen [inkl. amtliche Schulstatistik], die Sie nach Ihren jeweiligen Anforderungen konfigurieren können. Neben der Ansicht auf der Weboberfläche besteht die Möglichkeit, die Ergebnistabellen herunterzuladen. Neben den layoutorientierten Formaten XML und XLSX können Sie die Tabellen auch in einem für die Weiterverarbeitung besonders gut geeigneten CSV-Format abspeichern, dem “Flat File CSV-Format”. Hier sind die Daten und Metadaten strukturiert und gleichförmig als “tidy data” zusammengestellt."

https://www.destatis.de/DE/Service/OpenData/genesis-online-oberflaeche.html
Link zur Datenbank: https://www-genesis.destatis.de/datenbank/online/

📋 Übung

Sie haben im Schuljahr 2022/23 eine Befragung von Schüler:innen mit sonderpädagogischen Förderbedarf durchgeführt. Die Befragung fand in Nordrhein-Westfalen (NRW) statt. Sie möchten nun überprüfen, inwiefern die Zusammensetzung der Stichprobe der Grundgesamtheit entspricht. Die Stichprobenbeschreibung zeigt folgendes Bild (siehe Stichprobenbeschreibung der Schüler:innen).

Finden Sie in der GENESIS-Datenbank die entsprechenden Informationen, um die Zusammensetzung der Stichprobe mit der Grundgesamtheit zu vergleichen: https://www-genesis.destatis.de/datenbank/online/

Erkunden Sie die Datenbank: Welche Optionen und Darstellungsmöglichkeiten bietet die Datenbank?
Welche weiteren analytischen Schritte sind notwendig, um die Zusammensetzung der Stichprobe mit der Grundgesamtheit zu vergleichen? Tätigen Sie diese analytischen Schritte (inkl. Visualisierung) und arbeiten Sie dabei mit der CSV-Datei (Flat) in Excel, SPSS, R oder mit einem anderen Analysetool Ihrer Wahl.

Lösung

In der GENESIS-Datenbank werden lediglich die absoluten Häufigkeiten ausgegeben. Für den Vergleich der Stichprobe mit der Grundgesamtheit ist die Umrechnung der absoluten Häufigkeiten in relative Häufigkeiten (%) notwendig.

📖 Literatur

Artelt, C., Bug, M., Kleinert, C., Maaz, K., & Runge, T. (2019). Nutzungspotenziale amtlicher Statistik in der Bildungsforschung. Waxmann. https://doi.org/10.25656/01:17787

📖 Von Aster, M., Schweiter, M., & Weinhold Zulauf, M. (2007). Rechenstörungen bei Kindern. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 39(2), 85–96. https://doi.org/10.1026/0049-8637.39.2.85

"In der vorliegenden Studie wurde die Prävalenz von Rechenstörungen mit einem longitudinalen Design in einer deutsch-schweizer Stichprobe nach zwei Jahren Schulbesuch erhoben."

"Die repräsentative Stichprobe wurde aus zwei Teilstichproben von N = 334 Kindern aus regulären Kindergärten des Kantons Zürich sowie N = 47 Kindern aus Sprachheilkindergärten gebildet. Die Auswahl der Regelkindergärten erfolgte auf der Basis demographischer Daten des statistischen Amtes für Raumplanung. Selektionskriterien waren hierbei die Urbanität und die sozioökonomische Charakteristik des Wohnorts sowie das Geschlecht. Zum ersten Untersuchungszeitpunkt (T1) lebten die untersuchten Kinder in der Großstadt und Agglomeration Zürich sowie in fünf ländlichen Gemeinden."

"Um den Anteil an Kindern mit speziellem schulischen Förderbedarf im Rahmen des Regelschulcurriculums (Kleinklasse A) dem realen Populationsanteil zum Zeitpunkt T2 anzupassen, wurde die Stichprobe von N = 47 Kindern aus ländlichen und städtischen Sprachheilkindergärten in die Untersuchung aufgenommen. […] Der Anteil von Kindern mit speziellem Förderbedarf in der repräsentativen Stichprobe konnte damit auf 5.3% gesteigert werden. Dieser Anteil unterscheidet sich nicht signifikant von demjenigen in der Grundgesamtheit, der gemäß kantonaler Schulstatistik des Kantons Zürich 2004 zwei Jahre nach Schuleintritt 6.6% betrug."

"Es findet sich ein leichter Überhang an Knaben (50.2%), der etwa demjenigen in der Grundgesamtheit entspricht (50.6%). Mit 35% lag der Anteil an fremdsprachigen Kindern leicht über dem real vorhandenen Anteil von Kindern ausländischer Nationalität (30%)."

📖 Dreer, B., & Kracke, B. (2021). Lehrer*innen im Corona-Lockdown 2020: Umgang mit der Distanzbetreuung im Spannungsfeld von Anforderungen und Ressourcen. In C. Reintjes, R. Porsch, & G. Im Brahm (Hrsg.), Das Bildungssystem in Zeiten der Krise. Empirische Befunde, Konsequenzen und Potenziale für das Lehren und Lernen (S. 45–62). Waxmann. https://doi.org/10.31244/9783830993629

"Die pandemiebedingte Schließung von Schulen stellte im Frühjahr 2020 Lehrer:innen weltweit vor große Herausforderungen. Die vorliegende Studie hatte das Ziel, diese ungewöhnliche Situation aus der Sicht von Lehrkräften einzufangen. Sie dokumentiert die Angaben von 1263 Thüringer Lehrer:innen, die während der Schulschließungen im Frühjahr 2020 online befragt wurden."

"Da die Grundschule laut Thüringer Schulstatistik (TMBJS, 2020b) vor den Gymnasien die größte Gruppe an Lehrkräften in Thüringen stellt, ist die Grundschule in dieser Erhebung unterrepräsentiert, während Gymnasien, Regelschulen und Gemeinschaftsschulen überrepräsentiert sind."

📖 Kulawiak, P. R., Poltz, N., Bosch, J., & Dreesmann, M. (2025). Understanding teachers’ perspectives on students with epilepsy in Germany: A survey examining knowledge, experience, and affective, cognitive, and behavioral attitudes to inform teacher training. Epilepsy & Behavior, 163, 110157. https://doi.org/10.1016/j.yebeh.2024.110157

"The comprehensive teacher survey (N = 210 teachers), conducted in Germany, focused on a broad range of student needs (medical, instructional, and emotional), and captured teachers’ knowledge about epilepsy and experiences with students with epilepsy (SWE), alongside multiple attitudes towards SWE."

"A range of 21 out of 45 districts were chosen to provide a representative sample of both the rural and urban areas of the federal state. This approach included reaching out to all public schools within these districts (without vocational and adult schools), in total 1321 schools, through both email and telephone methods."

"The ratio of elementary (grades 1 to 4) and secondary education schools (grades 5 to 13) is 34 to 9 (79.1 % vs. 20.9 %). The percentage of elementary schools (79.1 %) is substantially higher than the official school statistics for Lower Saxony in the same school year, where elementary schools accounted for 59.1 %, highlighting an overrepresentation of elementary schools in the survey. Accordingly, the survey data also reveal a noticeable overrepresentation of elementary teachers, with 54.3 % of the teachers teaching in elementary education (grades 1 to 4). This proportion substantially exceeds the official school statistics for Lower Saxony, where 32.4 % of teachers were teaching in elementary education."

"Among the teachers surveyed, 84.8 % were female. This percentage is substantially higher than the official school statistics for Lower Saxony, where women constituted 72.3 % of the teaching workforce, highlighting an overrepresentation of female teachers in the current survey. The overrepresentation of female teachers may be linked to the overrepresentation of elementary schools, as in Germany the proportion of female teachers is substantially higher in elementary schools as compared to secondary schools. Overrepresentation of female teachers is not the case within the group of surveyed elementary school teachers. According to the survey data, 89.5 % of elementary school teachers were female, closely matching the official school statistics for Lower Saxony, where 89.8 % of elementary teachers were female. Yet, survey data indicates that female teachers are overrepresented in secondary education. Among the surveyed teachers working in secondary education, the percentage of female teachers was 77.8 %. This percentage substantially exceeds the official school statistics for Lower Saxony, where 63.8 % of the secondary education teachers were female."

"The surveyed sample of teachers is representative in terms of the age distribution, although there is an evident overrepresentation of female teachers. Overall, the overrepresentation of female teachers may be attributed to the oversampling of elementary school teachers, who are predominantly female. The oversampling of elementary schools may be due to the timing of the data collection, which coincided with the exam preparation and final exams period in secondary education schools, typically running from January to June. The high demands of this period likely reduced the willingness of secondary education teachers to participate in the survey. Furthermore, as secondary education schools are generally larger organizational units compared to elementary schools, they may be more challenging to recruit for survey participation. No logical explanation for the oversampling of female teachers within secondary education could be identified. Evidence suggesting that female teachers have more positive attitudes toward SWE is tentative. The systematic review of teacher surveys on SWE [13] revealed that, in five studies, female teachers held more favorable attitudes, while in one study, male teachers exhibited more positive attitudes. Five studies found no significant differences, indicating only marginal variations between male and female teachers. Likewise, in the present survey, a small difference was observed, but not in favor of female teachers: Female teachers showed overall less favorable attitudes, though these correlations are close to zero (|r| < 0.10). Thus, the gender imbalance is unlikely to bias the results, as correlations between sex and attitudes, as well as other variables, remain marginal. Yet, the overrepresentation of elementary school teachers could introduce a source of bias, considering the differences between elementary and secondary education teachers. Notably, elementary teachers tend to exhibit less favorable attitudes toward inclusion, which correlates with attitudes toward SWE. Furthermore, elementary teachers display higher levels of negative emotions and insecurities, particularly regarding school trips. They also demonstrate lower confidence in their classroom management and emotional support skills."

📖

Statistischer Bericht - Allgemeinbildende Schulen

Die Daten der amtliche Schulstatistik erscheinen gebündelt als „Statistischer Bericht - Allgemeinbildende Schulen“. Wir arbeiten mit der Exceldatei (XLSX-Format) für das Schuljahr 2022/2023. In der Exceldatei finden wir „Ergebnistabellen“ und „Daten zur Weiterverarbeitung“. Für die Beschreibung der Grundgesamtheit benötigen wir die „Daten zur Weiterverarbeitung“.

Link: Statistischer Bericht - Allgemeinbildende Schulen - Schuljahr 2022/2023

📋 Übung

Unsere Stichprobe umfasst Schüler:innen an öffentlichen Förderschulen in Bayern:

203 Schüler:innen mit deutscher Staatsangehörigkeit
111 ausländische Schüler:innen

Welche Daten benötigen wir, um die Stichprobe (Anteil ausländischer sowie deutscher Schüler:innen) mit der Grundgesamtheit zu vergleichen?

Lokalisieren Sie die entsprechenden Daten zur Weiterverarbeitung im „Statistischen Bericht - Allgemeinbildende Schulen - Schuljahr 2022/2023“ und machen Sie sich mit der Datenstruktur vertraut. Wie viele deutsche und ausländische Schüler:innen gibt es an öffentlichen Förderschulen in Bayern?

Der datenanalytische Prozess mit R und Rstudio

"Datenanalyse, praktisch betrachtet, kann man in fünf Schritte einteilen (Wickham und Grolemund 2017) […]. Zuerst muss man die Daten einlesen, die Daten also in R (oder einer anderen Software) verfügbar machen (laden). Fügen wir hinzu: In schöner [übersichtlicher] Form verfügbar machen; das nennt man auch Tidy Data (hört sich cooler an). Sobald die Daten in geeigneter Form in R geladen sind, folgt das Aufbereiten. Das beinhaltet das Zusammenfassen, Umformen oder Anreichern der Daten, je nach Bedarf. Ein nächster wesentlicher Schritt ist das Visualisieren der Daten. Ein Bild sagt bekanntlich mehr als tausend Worte. Schließlich folgt das Modellieren oder das Prüfen von Hypothesen: Man überlegt sich, wie sich die Daten erklären lassen könnten. Zu beachten ist, dass diese drei Schritte – Aufbereiten, Visualisieren, Modellieren – keine starre Abfolge sind, sondern eher ein munteres Hin-und-Her-Springen, ein aufeinander aufbauendes Abwechseln. Der letzte Schritt ist das Kommunizieren der Ergebnisse der Analyse – nicht der Daten." (Sauer, 2019)

Der datenanalytische Prozess mit R und Rstudio (Stichprobe vs. Grundgesamtheit)

Der datenanalytische Prozess (Sauer, 2019) in Anlehnung an Wickham et al. (2023) beinhaltet in unserem Beispiel also folgende Schritte:

Einlesen: Daten der Stichprobe und der Grundgesamtheit einlesen.
Aufarbeiten: Daten der Stichprobe/Grundgesamtheit auswählen und filtern. Daten der Stichprobe und Grundgesamtheit verbinden. Relative Häufigkeiten (Anteil ausländischer und deutscher Schüler:innen) für Stichprobe und Grundgesamtheit berechnen.
Modellieren: Mit der Berechnung der Häufigkeiten erhalten wir ein simples mathematisches Modell, nämlich eine Häufigkeitstabelle mit den Anteilen der ausländischen und deutschen Schüler:innen innerhalb der Stichprobe sowie der Grundgesamtheit.
Visualisieren: Die Häufigkeitstabelle wird als Balkendiagramm visualisiert.
Kommuniezieren: Erkenntnisse aus dem Vergleich zwischen Stichprobe und Grundgesamtheit ableiten und kommunizieren (Forschungsbericht/Paper schreiben, Vortrag halten oder Poster präsentieren).

Der datenanalytische Prozess nach Wickham et al. (2023)

Der datenanalytische Prozess (Sauer, 2019) in Anlehnung an Wickham et al. (2023)

Hinweise (Stichprobe vs. Grundgesamtheit) zum datenanalytischen Prozess (Sauer, 2019) in Anlehnung an Wickham et al. (2023)

💻 R-Code

Für den datenanalytischen Prozess benötigen wir entsprechende Zusatzpakete (Pakete laden).

library(tidyverse) # https://www.tidyverse.org/
library(readxl) # https://readxl.tidyverse.org/
library(gt) # https://gt.rstudio.com/

Normalerweise würden wir die Daten der Stichprobe aus einer Exceldatei einlesen und anschließend eine Häufigkeitstabelle anhand der Daten erstellen. Der Einfachheit halber erstellen wir die Häufigkeitstabelle direkt in R (ohne das Einlesen einer Exceldatei).

Gruppe <-
  rep("Stichprobe", 2)

Staatsangehoerigkeit <-
  c("deutsche Schüler/innen", "ausländische Schüler/innen")

n <-
  c(203, 111)

SP <- # SP: Stichprobe
  tibble(Gruppe, Staatsangehoerigkeit, n)

SP %>% 
  gt() %>%
  tab_options(column_labels.font.weight = "bold")

Gruppe	Staatsangehoerigkeit	n
Stichprobe	deutsche Schüler/innen	203
Stichprobe	ausländische Schüler/innen	111

SCHULSTATISTIK <- # GG: Grundgesamtheit
  read_xlsx("statistischer-bericht-allgemeinbildende-schulen-2110100237005.xlsx", sheet = "csv-21111-03")

GG <- # GG: Grundgesamtheit
  SCHULSTATISTIK %>%
  filter(Bundesland == "Bayern") %>%
  filter(Bildungsbereich == "Alle Bildungsbereiche") %>%
  filter(Schulart == "Förderschulen") %>%
  filter(Status == "öffentlich") %>%
  filter(Geschlecht == "Zusammen") %>%
  filter(Staatsangehoerigkeit %in% c("deutsche Schüler/innen", "ausländische Schüler/innen")) %>%
  select(Bundesland, Staatsangehoerigkeit, Schueler_innen_Anzahl) %>% 
  rename(Gruppe = Bundesland) %>%
  rename(n = Schueler_innen_Anzahl)

GG %>%
  gt() %>%
  tab_options(column_labels.font.weight = "bold")

Gruppe	Staatsangehoerigkeit	n
Bayern	deutsche Schüler/innen	23747
Bayern	ausländische Schüler/innen	6840

Wir verbinden die Daten (Stichprobe und Grundgesamtheit).

DATA <-
  rbind(SP, GG)

DATA %>% 
  gt() %>%
  tab_options(column_labels.font.weight = "bold")

Gruppe	Staatsangehoerigkeit	n
Stichprobe	deutsche Schüler/innen	203
Stichprobe	ausländische Schüler/innen	111
Bayern	deutsche Schüler/innen	23747
Bayern	ausländische Schüler/innen	6840

Wir bestimmen die Anteile der ausländischen und deutschen Schüler:innen innerhalb der Stichprobe sowie der Grundgesamtheit.

DATA %>% 
  group_by(Gruppe) %>%
  mutate(Anteil = n / sum(n)) %>% 
  gt() %>%
  tab_options(column_labels.font.weight = "bold")

Staatsangehoerigkeit	n	Anteil
Stichprobe
deutsche Schüler/innen	203	0.6464968
ausländische Schüler/innen	111	0.3535032
Bayern
deutsche Schüler/innen	23747	0.7763756
ausländische Schüler/innen	6840	0.2236244

DATA %>% 
  group_by(Gruppe) %>%
  mutate(Anteil = (n / sum(n)) * 100) %>% 
  gt() %>%
  tab_options(column_labels.font.weight = "bold")

Staatsangehoerigkeit	n	Anteil
Stichprobe
deutsche Schüler/innen	203	64.64968
ausländische Schüler/innen	111	35.35032
Bayern
deutsche Schüler/innen	23747	77.63756
ausländische Schüler/innen	6840	22.36244

DATA %>% 
  group_by(Gruppe) %>%
  mutate(Anteil = ((n / sum(n)) * 100) %>% round(1)) %>% 
  gt() %>%
  tab_options(column_labels.font.weight = "bold")

Staatsangehoerigkeit	n	Anteil
Stichprobe
deutsche Schüler/innen	203	64.6
ausländische Schüler/innen	111	35.4
Bayern
deutsche Schüler/innen	23747	77.6
ausländische Schüler/innen	6840	22.4

Wir visualisieren die Anteile.

DATA_PLOT <-
  DATA %>% 
  group_by(Gruppe) %>%
  mutate(Anteil = ((n / sum(n)) * 100) %>% round(1))

DATA_PLOT %>%  
  ggplot(aes(x = Anteil, 
             y = Staatsangehoerigkeit, 
             fill = Gruppe)) +  
  geom_bar(position = "dodge", stat = "identity") +  
  xlim(c(0, 100)) +  
  geom_text(aes(label = paste0(n, " (", Anteil, "%)")), 
            position = position_dodge(width = 0.9), 
            hjust = -0.1) +  
  theme_minimal(base_size = 15) +
  labs(x = "Anteil in %", fill = NULL) +
  guides(fill = guide_legend(reverse = TRUE)) +
  theme(legend.position = "top")

DATA_PLOT %>%  
  ggplot(aes(x = Anteil, 
             y = Gruppe, 
             fill = Staatsangehoerigkeit)) +  
  geom_col() +
  geom_text(aes(label = paste0(n, " (", Anteil, "%)")), 
            position = position_stack(vjust = 0.5)) +
  xlim(c(0, 100)) +  
  theme_minimal(base_size = 15) +
  labs(x = "Anteil in %", fill = NULL) +
  guides(fill = guide_legend(reverse = TRUE)) +
  theme(legend.position = "top")

📖 Literatur

Sauer, S. (2019). Statistik heute. In S. Sauer, Moderne Datenanalyse mit R (S. 3–11). Springer Fachmedien Wiesbaden. https://doi.org/10.1007/978-3-658-21587-3_1

Wickham, H., Çetinkaya-Rundel, M., & Grolemund, G. (2023). R for data science: Import, tidy, transform, visualize, and model data (2nd edition). O’Reilly. https://r4ds.hadley.nz/intro

📋 Übung A

Unsere Stichprobe umfasst Lehrer:innen an privaten Gymnasien in Niedersachsen:

88 männliche Lehrkräfte
34 weibliche Lehrkräfte

Gruppe <-
  rep("Stichprobe", 2)

Geschlecht <-
  c("männlich", "weiblich")

n <-
  c(88, 34)

SP <- # SP: Stichprobe
  tibble(Gruppe, Geschlecht, n)

SP %>% 
  gt() %>%
  tab_options(column_labels.font.weight = "bold")

Gruppe	Geschlecht	n
Stichprobe	männlich	88
Stichprobe	weiblich	34

Welche Daten benötigen wir, um die Stichprobe mit der Grundgesamtheit zu vergleichen?

Lokalisieren Sie die entsprechenden Daten zur Weiterverarbeitung im „Statistischen Bericht - Allgemeinbildende Schulen - Schuljahr 2022/2023“ und arbeiten Sie mit R und RStudio:

Häufigkeitstabelle mit absoluten und relativen Häufigkeiten (Stichprobe und Grundgesamtheit)
Visualisierung der Häufigkeitstabelle als Balkendiagramm (Stichprobe und Grundgesamtheit)

Lösung A

SCHULSTATISTIK <-
  read_xlsx("statistischer-bericht-allgemeinbildende-schulen-2110100237005.xlsx", sheet = "csv-21111-18")

GG <-
  SCHULSTATISTIK %>%
  filter(Bundesland == "Niedersachsen") %>% 
  filter(Schulart == "Gymnasien") %>%
  filter(Status == "privat") %>%
  filter(Beschaeftigungsumfang == "Voll-und Teilzeitbeschäftigte") %>%
  filter(Geschlecht %in% c("männlich", "weiblich")) %>%
  select(Bundesland, Geschlecht, Lehrkraefte_Anzahl) %>%
  rename(Gruppe = Bundesland, n = Lehrkraefte_Anzahl)

GG %>% 
  gt() %>%
  tab_options(column_labels.font.weight = "bold")

Gruppe	Geschlecht	n
Niedersachsen	männlich	770
Niedersachsen	weiblich	1186

DATA <-
  rbind(SP, GG)

DATA %>% 
  gt() %>%
  tab_options(column_labels.font.weight = "bold")

Gruppe	Geschlecht	n
Stichprobe	männlich	88
Stichprobe	weiblich	34
Niedersachsen	männlich	770
Niedersachsen	weiblich	1186

DATA %>% 
  group_by(Gruppe) %>%
  mutate(Anteil = ((n / sum(n)) * 100) %>% round(1)) %>% 
  gt() %>%
  tab_options(column_labels.font.weight = "bold")

Geschlecht	n	Anteil
Stichprobe
männlich	88	72.1
weiblich	34	27.9
Niedersachsen
männlich	770	39.4
weiblich	1186	60.6

DATA_PLOT <-
  DATA %>% 
  group_by(Gruppe) %>%
  mutate(Anteil = ((n / sum(n)) * 100) %>% round(1))

DATA_PLOT %>%  
  ggplot(aes(x = Anteil, 
             y = Geschlecht, 
             fill = Gruppe)) +  
  geom_bar(position = "dodge", stat = "identity") +  
  xlim(c(0, 100)) +  
  geom_text(aes(label = paste0(n, " (", Anteil, "%)")), 
            position = position_dodge(width = 0.9), 
            hjust = -0.1) +  
  theme_minimal(base_size = 15) +
  labs(x = "Anteil in %", fill = NULL) +
  guides(fill = guide_legend(reverse = TRUE)) +
  theme(legend.position = "top")

DATA_PLOT %>%  
  ggplot(aes(x = Anteil, 
             y = Gruppe, 
             fill = Geschlecht)) +  
  geom_col() +
  geom_text(aes(label = paste0(n, " (", Anteil, "%)")), 
            position = position_stack(vjust = 0.5)) +
  xlim(c(0, 100)) +  
  theme_minimal(base_size = 15) +
  labs(x = "Anteil in %", fill = NULL) +
  guides(fill = guide_legend(reverse = TRUE)) +
  theme(legend.position = "top")

📋 Übung B

Unsere Stichprobe umfasst Grundschüler:innen in Bremen aus den Staaten Afghanistan, Irak und Syrien:

31 Schüler:innen aus Afghanistan
19 Schüler:innen aus dem Irak
149 Schüler:innen aus Syrien

Welche Daten benötigen wir, um die Stichprobe mit der Grundgesamtheit zu vergleichen?

Lokalisieren Sie die entsprechenden Daten zur Weiterverarbeitung im „Statistischen Bericht - Allgemeinbildende Schulen - Schuljahr 2022/2023“ und arbeiten Sie mit R und RStudio:

Häufigkeitstabelle mit absoluten und relativen Häufigkeiten (Stichprobe und Grundgesamtheit)
Visualisierung der Häufigkeitstabelle als Balkendiagramm (Stichprobe und Grundgesamtheit)

Lösung B

Gruppe <-
  rep("Stichprobe", 3)

Staatsangehoerigkeit <-
  c("Afghanistan", "Irak", "Syrien, Arabische Republik")

n <-
  c(31, 19, 149)

SP <- # SP: Stichprobe
  tibble(Gruppe, Staatsangehoerigkeit, n)

SP %>% 
  gt() %>%
  tab_options(column_labels.font.weight = "bold")

Gruppe	Staatsangehoerigkeit	n
Stichprobe	Afghanistan	31
Stichprobe	Irak	19
Stichprobe	Syrien, Arabische Republik	149

SCHULSTATISTIK <-
  read_xlsx("statistischer-bericht-allgemeinbildende-schulen-2110100237005.xlsx", sheet = "csv-21111-08")

GG <-
  SCHULSTATISTIK %>%
  filter(Bundesland == "Bremen") %>%
  filter(Schulart == "Grundschulen") %>%
  filter(Geschlecht == "Insgesamt") %>% 
  filter(Staatsangehoerigkeit %in% c("Syrien, Arabische Republik",
                                     "Afghanistan",
                                     "Irak")) %>% 
  select(Bundesland, Staatsangehoerigkeit, auslaendische_Schueler_innen_Anzahl) %>%
  rename(Gruppe = Bundesland, n = auslaendische_Schueler_innen_Anzahl)

GG %>% 
  gt() %>%
  tab_options(column_labels.font.weight = "bold")

Gruppe	Staatsangehoerigkeit	n
Bremen	Afghanistan	330
Bremen	Irak	185
Bremen	Syrien, Arabische Republik	1576

DATA <-
  rbind(SP, GG)

DATA %>% 
  gt() %>%
  tab_options(column_labels.font.weight = "bold")

Gruppe	Staatsangehoerigkeit	n
Stichprobe	Afghanistan	31
Stichprobe	Irak	19
Stichprobe	Syrien, Arabische Republik	149
Bremen	Afghanistan	330
Bremen	Irak	185
Bremen	Syrien, Arabische Republik	1576

DATA %>% 
  group_by(Gruppe) %>%
  mutate(Anteil = ((n / sum(n)) * 100) %>% round(1)) %>% 
  gt() %>%
  tab_options(column_labels.font.weight = "bold")

Staatsangehoerigkeit	n	Anteil
Stichprobe
Afghanistan	31	15.6
Irak	19	9.5
Syrien, Arabische Republik	149	74.9
Bremen
Afghanistan	330	15.8
Irak	185	8.8
Syrien, Arabische Republik	1576	75.4

DATA_PLOT <-
  DATA %>% 
  group_by(Gruppe) %>%
  mutate(Anteil = ((n / sum(n)) * 100) %>% round(1))

DATA_PLOT %>%  
  ggplot(aes(x = Anteil, 
             y = Staatsangehoerigkeit, 
             fill = Gruppe)) +  
  geom_bar(position = "dodge", stat = "identity") +  
  xlim(c(0, 100)) +  
  geom_text(aes(label = paste0(n, " (", Anteil, "%)")), 
            position = position_dodge(width = 0.9), 
            hjust = -0.1) +  
  theme_minimal(base_size = 15) +
  labs(x = "Anteil in %", fill = NULL) +
  guides(fill = guide_legend(reverse = TRUE)) +
  theme(legend.position = "top")

DATA_PLOT %>%  
  ggplot(aes(x = Anteil, 
             y = Gruppe, 
             fill = Staatsangehoerigkeit)) +  
  geom_col() +
  geom_text(aes(label = paste0(n, " (", Anteil, "%)")),
            angle = 75,
            position = position_stack(vjust = 0.5)) +
  xlim(c(0, 100)) +  
  theme_minimal(base_size = 15) +
  labs(x = "Anteil in %", fill = NULL) +
  guides(fill = guide_legend(reverse = TRUE)) +
  theme(legend.position = "top")

📋 Übung C

Beschreiben Sie die Altersverteilung der Grundschullehrkräfte in Sachsen.

Lokalisieren Sie die entsprechenden Daten zur Weiterverarbeitung im „Statistischen Bericht - Allgemeinbildende Schulen - Schuljahr 2022/2023“ und arbeiten Sie mit R und RStudio:

Häufigkeitstabelle mit absoluten und relativen Häufigkeiten
Visualisierung der Häufigkeitstabelle als Balkendiagramm

Lösung C

SCHULSTATISTIK <-
  read_xlsx("statistischer-bericht-allgemeinbildende-schulen-2110100237005.xlsx", sheet = "csv-21111-21")

GG <-
  SCHULSTATISTIK %>%
  filter(Bundesland == "Sachsen") %>% 
  filter(Beschaeftigungsumfang == "Voll- und Teilzeitbeschäftigte") %>%
  filter(Schulart == "Grundschulen") %>%
  filter(Altersgruppe != "Insgesamt") %>% 
  filter(Geschlecht == "Insgesamt") %>% 
  select(Bundesland, Altersgruppe, Lehrkraefte_Anzahl) %>%
  rename(Gruppe = Bundesland, n = Lehrkraefte_Anzahl) %>%
  mutate(Anteil = ((n / sum(n)) * 100) %>% round(1)) 

GG %>% 
  gt() %>%
  tab_options(column_labels.font.weight = "bold")

Gruppe	Altersgruppe	n	Anteil
Sachsen	unter 30	1068	10.5
Sachsen	30-35	1027	10.1
Sachsen	35-40	1324	13.0
Sachsen	40-45	1268	12.5
Sachsen	45-50	773	7.6
Sachsen	50-55	1397	13.8
Sachsen	55-60	1900	18.7
Sachsen	60-65	1252	12.3
Sachsen	65 und älter	148	1.5

GG %>%
  ggplot(aes(x = Anteil, y = Altersgruppe)) +  
  geom_bar(stat = "identity") +  
  xlim(c(0, 50)) +  
  geom_text(aes(label = paste0(n, " (", Anteil, "%)")), 
            position = position_dodge(width = 0.9), 
            hjust = -0.1) +  
  theme_minimal(base_size = 15) +
  labs(x = "Anteil in %")

GG %>%
  mutate(Altersgruppe = relevel(Altersgruppe %>% factor(), ref = "unter 30")) %>% 
  ggplot(aes(x = Anteil, y = Altersgruppe)) +  
  geom_bar(stat = "identity") +  
  xlim(c(0, 50)) +  
  geom_text(aes(label = paste0(n, " (", Anteil, "%)")), 
            position = position_dodge(width = 0.9), 
            hjust = -0.1) +  
  theme_minimal(base_size = 15) +
  labs(x = "Anteil in %")

😥😂😎😖😴😍

Kritischer Ausblick

"Abschließend soll auf die Grenzen amtlicher Schulstatistiken hingewiesen werden. Für ForscherInnen werden die schulstatistischen Datenbestände immer teilweise unbefriedigend bleiben, können sie ein Problem doch nie umfassend erfassen. Selbst Individualdatensätze mit Personenkennung weisen aus Sicht der angelegten Theorie immer Informationslücken auf, die in den Grenzen der statistischen Erhebungsprogramme begründet liegen. Diese Grenzen sind auch Produkt politischen Wollens und datenschutzrechtlichen Dürfens. Kaum zu erklären ist, wieso sich einige Bundesländer gegen eine Modernisierung ihres schulstatistischen Erhebungsprogramms entsprechend des anderswo realisierten State-of-the-Art verschließen. Generell ist der rechtliche Regelungsstand der Schulstatistik unbefriedigend, nicht nur die Datenerhebung, sondern auch die Datenveröffentlichung und -weitergabe an nicht staatliche NutzerInnen betreffend. Hanschmann und Weishaupt (2017) sehen sogar das Grundrecht auf Wissenschaftsfreiheit durch einen vielfach ungeklärten Informationszugang verletzt, da keine Pflicht auf Informationszugang besteht und die Zurverfügungstellung der Daten oftmals von personellen und organisatorischen Ressourcen der zuständigen Stellen abhängt. Mit einer administrativen Verhinderung von Auswertungen mittels amtlicher Schulstatistikdaten ist gegenwärtig also stets zu rechnen." (Hermstein et al., 2019)

"Finally, the paper highlights the main shortcomings of the existing open data portals [in Germany] regarding the quality of datasets and the lack of findability and granularity" (Veja et al., 2021)

Positiver Ausblick

Der Zugang zur amtlichen Bildungsstatistik verbessert sich zunehmend im Sinne der Idee von Open Government Data. So lassen sich mittlerweile auch Lehrer:innen und Schüler:innen-Daten auf kommunaler Ebene abrufen (z.B. für spezifische Städte und Gemeinden). Dies ist z.B. über die Landesdatenbank NRW möglich:

https://www.landesdatenbank.nrw.de/ldbnrw/online/

📖 Literatur

Hermstein, B., Berkemeyer, N., & Weishaupt, H. (2019). Die amtliche Schulstatistik als Datenquelle für die Kinder- und Jugendhilfe. In M.-C. Begemann & K. Birkelbach (Hrsg.), Forschungsdaten für die Kinder- und Jugendhilfe: Qualitative und quantitative Sekundäranalysen (S. 257–277). Springer Fachmedien. https://doi.org/10.1007/978-3-658-23143-9_13

Veja, Cornelia; Hocker, Julian; Schindler, Christoph; Rittberger, Marc. Educational open government data in Germany. The landscape, status, and quality. In: Schmidt, Thomas; Wolff, Christian (Hrsg.): Information between data and knowledge: Information science and its neighbors from data science to digital humanities, proceedings of the 16th International Symposium of Information Science (ISI 2021), Regensburg, Germany, 8th - 10th March 2021, Glückstadt: Hülsbusch, 2021 (Schriften zur Informationswissenschaft, 74), S. 370-396. https://epub.uni-regensburg.de/44931/1/ISI'21.pdf#page=371