Übersicht
Bei der Beurteilung von Forschungsergebnissen stellt sich die Frage, ob eine Stichprobe repräsentativ für die Grundgesamtheit ist. Im Workshop werden wir gemeinsam erarbeiten, inwiefern eine Abweichung der Stichprobe von der Grundgesamtheit zu einer Verzerrung von Forschungsergebnissen führen kann und wie in einem solchen Falle bei der Berichterstattung der Ergebnisse vorgegangen werden kann. Im analytischen Teil des Workshops wird die eigene Lehrer:innen- bzw. Schüler:innen-Stichprobe mit Daten der amtlichen Schulstatistik (Grundgesamtheit) abgeglichen, um somit Aspekte der Repräsentativität der eigenen Stichprobe einzuschätzen. Datenbeispiele werden zur Verfügung gestellt. Die analytische Arbeit erfolgt mit Excel, R und RStudio.
Bitte R und RStudio installieren (Step 1 & Step 2): https://posit.co/download/rstudio-desktop/
Pawel R. Kulawiak
kulawiak@uni-potsdam.de
Bei einer repräsentativen Online-Umfrage (Zufallsstichprobe) wurde der Link zur Befragung an 1000 Lehrkräfte verschickt (fiktives Beispiel)
746 Lehrkräfte haben an der Umfrage teilgenommen und folgende Frage beantwortet:
Benutzen Sie KI-Tools (Künstliche Intelligenz) für die Unterrichtsvorbereitung?
Es besteht eine negative Korrelation (r = -0.34) zwischen „Alter“ und „Nutzung der KI-Tools“: Je älter die Lehrpersonen sind, desto seltener werden KI-Tools genutzt.
Altersverteilung der Lehrpersonen (in Jahren)
60 bis 64 🔳 2 %
55 bis 59 🔳🔳 4 %
50 bis 54 🔳🔳🔳 6 %
45 bis 49 🔳🔳🔳 6 %
40 bis 44 🔳🔳🔳🔳🔳🔳 12 %
35 bis 39 🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳 20 %
30 bis 34 🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳 28 %
25 bis 29 🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳 22 %
In einem Beitrag in einer Tageszeitung wird anhand der Umfrageergebnisse folgendes geschlussfolgert:
“Die allermeisten Lehrkräfte in Deutschland benutzen KI-Tools für die Unterrichtsvorbereitung.”
Empfinden Sie diese Schlussfolgerung als gerechtfertigt? Ist eine Verzerrung der Umfrageergebnisse möglich/plausibel? Begründen Sie Ihre Argumentation.
Grundgesamtheit, Stichprobe und Zufallsstichprobe
“Our goal in sampling is not to obtain a random sample per se, but to obtain a sample representative of the parent population, which will allow us to infer from the characteristics of the sample to the characteristics of the population, based on the argument that the sample is “similar” to the rest of the population.” (Teng, 2011)
“A random sample is often used as a stand in for a representative sample. Random sampling however is neither necessary nor sufficient to ensure a representative sample. A random sample might still be skewed, as it must happen every now and then as a mathematical fact, and a non-random sample might have the appropriate proportion of elements, either by careful crafting of the sample or just by chance.” (Teng, 2011)
Kann eine nicht repräsentative Stichprobe das Studienergebnis verzerren?
“However, even if we adhere to all good sampling practice, if there are reasons to cast doubt on a sample’s representativeness, the statistical inference from the sample to the population should justifiably be undermined.” (Teng, 2011)
Beispiel:“For example, to determine the average IQ of people, if it comes to our attention that all the members of the sample, drawn carefully following good sampling practice, happen to be members of mensa [high-IQ society], we should not proceed with the inference. The inference would be blocked as the default justification that the sample be representative becomes suspect.” (Teng, 2011)
Bei einer repräsentativen Online-Umfrage (Zufallsstichprobe) wurde der Link zur Befragung an 1000 Lehrkräfte verschickt (fiktives Beispiel)
746 Lehrkräfte haben an der Umfrage teilgenommen und folgende Frage beantwortet:
Benutzen Sie KI-Tools (Künstliche Intelligenz) für die Unterrichtsvorbereitung?
Es besteht eine negative Korrelation (r = -0.34) zwischen „Alter“ und „Nutzung der KI-Tools“: Je älter die Lehrpersonen sind, desto seltener werden KI-Tools genutzt.
Altersverteilung der Lehrpersonen (in Jahren)
60 bis 64 🔳 2 %
55 bis 59 🔳🔳 4 %
50 bis 54 🔳🔳🔳 6 %
45 bis 49 🔳🔳🔳 6 %
40 bis 44 🔳🔳🔳🔳🔳🔳 12 %
35 bis 39 🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳 20 %
30 bis 34 🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳 28 %
25 bis 29 🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳 22 %
Die Altersverteilung der befragten Lehrkräfte entspricht augenscheinlich nicht der Altersverteilung der Lehrkräfte in Deutschland (siehe hier). In Deutschland gibt es deutlich mehr ältere Lehrkräfte (z.B. über 60) sowie deutlich weniger jüngere Lehrkräfte (z.B. unter 30).
Würde die Stichprobe der Grundgesamtheit entsprechen, also mehr ältere Lehrkräfte beinhalten, dann würden diese älteren Lehrkräfte wahrscheinlich häufiger angeben, dass sie keine KI-Tools nutzen (je älter die Lehrpersonen, desto seltener werden KI-Tools genutzt).
Es gibt empirische Hinweise darauf, dass ältere Lehrkräfte digitale Medien seltener nutzen (Mauß, 2020).
Dementsprechend erscheint die Annahme plausibel, dass die KI-Nutzung (89 %) überschätzt wird, da ältere Lehrpersonen, welche KI seltener nutzen, in der Stichprobe unterrepräsentiert sind (dadurch wahrscheinlich weniger Nein-Antworten auf die Frage “Benutzen Sie KI-Tools für die Unterrichtsvorbereitung?”).
Eine repräsentative Stichprobe (repräsentativ im Hinblick auf das Alter) würde wahrscheinlich zu einer kleineren Einschätzung der KI-Nutzung führen, also eine geringere Prozentzahl von Ja-Antworten und eine höhere Prozentzahl von Nein-Antworten auf die Frage “Benutzen Sie KI-Tools für die Unterrichtsvorbereitung?”.
Die Altersabweichung der Stichprobe von der Grundgesamtheit kann einerseits als Stichprobenfehler (sampling error) umschrieben werden: “A random sample might still be skewed, as it must happen every now and then as a mathematical fact […]” (Teng, 2011)
Andererseits können mit dem Konzept der Verzerrung (z.B. participation bias) plausible Argumente für die Erklärung der Abweichung einer Stichprobe von der Grundgesamtheit herangezogen werden (vielleicht bevorzugen ältere Lehrkräfte eine Paper-Pencil-Befragung?):
„Teilnahmeverhalten (Nonresponse) und Stichprobenverzerrungen (Bias) zählen vermutlich zu den beiden wichtigsten Forschungsgebieten der Surveymethodologie. Beide Bereiche hängen eng zusammen: Die systematische, nicht zufällige Verweigerung oder Nichtteilnahme an einer Studie führen zu Ergebnissen, die bei Verallgemeinerungen auf die Grundgesamtheit diese nur verzerrt wiedergeben (Groves und Peytcheva 2008).“ (Weinhardt & Liebig, 2015)
Die Relevanz der Abweichung der Stichprobe von der Grundgesamtheit muss begründet werden:
"Strategies for demonstrating it [representativeness] typically involve comparing observable characteristics (e.g., race, gender, location) of study samples to those in the population of interest to decision makers. This paper argues that these strategies provide insufficient evidence for establishing representativeness. Characteristics typically used for comparison are unlikely to be causally relevant to all educational interventions. Treating them as evidence that supports extending RCT results without providing evidence demonstrating their relevance undermines the inference. Determining what factors are causally relevant requires studying the causal mechanisms underlying the interventions in question." (Joyce, 2019)
"Die Bereitschaft zum konsequenten Zweifeln an eigenen Ergebnissen muss selbstverständlich bleiben. Fakten und wissenschaftliche Argumente, die die eigene Arbeitshypothese in Zweifel ziehen, dürfen nicht unterdrückt werden."
Gemeinsames Positionspapier des Allgemeinen Fakultätentags (AFT), der Fakultätentage und des Deutschen Hochschulverbands (DHV) vom 9. Juli 2012
Teng, C. M. (2011). Data, Data, Everywhere: Statistical Issues in Data Mining. In Philosophy of Statistics: Volume 7 in Handbook of the Philosophy of Science (Vol. 7, pp. 1099–1117). Elsevier. https://doi.org/10.1016/B978-0-444-51862-0.50034-4
Stichprobenfehler im Dorsch Lexikon der Psychologie. (2016). https://dorsch.hogrefe.com/stichwort/stichprobenfehler
Weinhardt, M., & Liebig, S. (2015). Teilnahmeverhalten und Stichprobenverzerrung in der deutschen Stichprobe des European Social Survey. In J. Schupp & C. Wolf (Hrsg.), Nonresponse Bias (S. 47–83). Springer Fachmedien Wiesbaden. https://doi.org/10.1007/978-3-658-10459-7_2
Joyce, K. E. (2019). The key role of representativeness in evidence-based education. Educational Research and Evaluation, 25(1–2), 43–62. https://doi.org/10.1080/13803611.2019.1617989
Amtliche Schulstatistik
“Die Nutzung amtlicher Daten ist dabei an vielen Stellen unverzichtbar, da nur durch sie die Grundgesamtheit (z. B. Bildungsinstitutionen und darin genestet Lernende) bestimmt und als Referenz für die Stichprobenziehung […] verwendet werden kann. […] Dies kann für den Bereich Schule an vielen Stellen in optimaler Weise durch die Nutzung von Daten aus der amtlichen Schulstatistik geschehen.” (Artelt et al., 2019)
GENESIS-Online: Datenbank des Statistischen Bundesamtes (inkl. amtliche Schulstatistik)
"In GENESIS-Online, der Datenbank des Statistischen Bundesamtes, finden Sie eine Vielzahl von Tabellen [inkl. amtliche Schulstatistik], die Sie nach Ihren jeweiligen Anforderungen konfigurieren können. Neben der Ansicht auf der Weboberfläche besteht die Möglichkeit, die Ergebnistabellen herunterzuladen. Neben den layoutorientierten Formaten XML und XLSX können Sie die Tabellen auch in einem für die Weiterverarbeitung besonders gut geeigneten CSV-Format abspeichern, dem “Flat File CSV-Format”. Hier sind die Daten und Metadaten strukturiert und gleichförmig als “tidy data” zusammengestellt."
Sie haben im Schuljahr 2022/23 eine Befragung von Schüler:innen mit sonderpädagogischen Förderbedarf durchgeführt. Die Befragung fand in Nordrhein-Westfalen (NRW) statt. Sie möchten nun überprüfen, inwiefern die Zusammensetzung der Stichprobe der Grundgesamtheit entspricht. Die Stichprobenbeschreibung zeigt folgendes Bild (siehe Stichprobenbeschreibung der Schüler:innen).
Erkunden Sie die Datenbank: Welche Optionen und Darstellungsmöglichkeiten bietet die Datenbank?
Welche weiteren analytischen Schritte sind notwendig, um die Zusammensetzung der Stichprobe mit der Grundgesamtheit zu vergleichen? Tätigen Sie diese analytischen Schritte (inkl. Visualisierung) und arbeiten Sie dabei mit der CSV-Datei (Flat) in Excel, SPSS, R oder mit einem anderen Analysetool Ihrer Wahl.
In der GENESIS-Datenbank werden lediglich die absoluten Häufigkeiten ausgegeben. Für den Vergleich der Stichprobe mit der Grundgesamtheit ist die Umrechnung der absoluten Häufigkeiten in relative Häufigkeiten (%) notwendig.
Artelt, C., Bug, M., Kleinert, C., Maaz, K., & Runge, T. (2019). Nutzungspotenziale amtlicher Statistik in der Bildungsforschung. Waxmann. https://doi.org/10.25656/01:17787
"In der vorliegenden Studie wurde die Prävalenz von Rechenstörungen mit einem longitudinalen Design in einer deutsch-schweizer Stichprobe nach zwei Jahren Schulbesuch erhoben."
"Die repräsentative Stichprobe wurde aus zwei Teilstichproben von N = 334 Kindern aus regulären Kindergärten des Kantons Zürich sowie N = 47 Kindern aus Sprachheilkindergärten gebildet. Die Auswahl der Regelkindergärten erfolgte auf der Basis demographischer Daten des statistischen Amtes für Raumplanung. Selektionskriterien waren hierbei die Urbanität und die sozioökonomische Charakteristik des Wohnorts sowie das Geschlecht. Zum ersten Untersuchungszeitpunkt (T1) lebten die untersuchten Kinder in der Großstadt und Agglomeration Zürich sowie in fünf ländlichen Gemeinden."
"Um den Anteil an Kindern mit speziellem schulischen Förderbedarf im Rahmen des Regelschulcurriculums (Kleinklasse A) dem realen Populationsanteil zum Zeitpunkt T2 anzupassen, wurde die Stichprobe von N = 47 Kindern aus ländlichen und städtischen Sprachheilkindergärten in die Untersuchung aufgenommen. […] Der Anteil von Kindern mit speziellem Förderbedarf in der repräsentativen Stichprobe konnte damit auf 5.3% gesteigert werden. Dieser Anteil unterscheidet sich nicht signifikant von demjenigen in der Grundgesamtheit, der gemäß kantonaler Schulstatistik des Kantons Zürich 2004 zwei Jahre nach Schuleintritt 6.6% betrug."
"Es findet sich ein leichter Überhang an Knaben (50.2%), der etwa demjenigen in der Grundgesamtheit entspricht (50.6%). Mit 35% lag der Anteil an fremdsprachigen Kindern leicht über dem real vorhandenen Anteil von Kindern ausländischer Nationalität (30%)."
"Die pandemiebedingte Schließung von Schulen stellte im Frühjahr 2020 Lehrer:innen weltweit vor große Herausforderungen. Die vorliegende Studie hatte das Ziel, diese ungewöhnliche Situation aus der Sicht von Lehrkräften einzufangen. Sie dokumentiert die Angaben von 1263 Thüringer Lehrer:innen, die während der Schulschließungen im Frühjahr 2020 online befragt wurden."
"Da die Grundschule laut Thüringer Schulstatistik (TMBJS, 2020b) vor den Gymnasien die größte Gruppe an Lehrkräften in Thüringen stellt, ist die Grundschule in dieser Erhebung unterrepräsentiert, während Gymnasien, Regelschulen und Gemeinschaftsschulen überrepräsentiert sind."
"The comprehensive teacher survey (N = 210 teachers), conducted in Germany, focused on a broad range of student needs (medical, instructional, and emotional), and captured teachers’ knowledge about epilepsy and experiences with students with epilepsy (SWE), alongside multiple attitudes towards SWE."
"A range of 21 out of 45 districts were chosen to provide a representative sample of both the rural and urban areas of the federal state. This approach included reaching out to all public schools within these districts (without vocational and adult schools), in total 1321 schools, through both email and telephone methods."
"The ratio of elementary (grades 1 to 4) and secondary education schools (grades 5 to 13) is 34 to 9 (79.1 % vs. 20.9 %). The percentage of elementary schools (79.1 %) is substantially higher than the official school statistics for Lower Saxony in the same school year, where elementary schools accounted for 59.1 %, highlighting an overrepresentation of elementary schools in the survey. Accordingly, the survey data also reveal a noticeable overrepresentation of elementary teachers, with 54.3 % of the teachers teaching in elementary education (grades 1 to 4). This proportion substantially exceeds the official school statistics for Lower Saxony, where 32.4 % of teachers were teaching in elementary education."
"Among the teachers surveyed, 84.8 % were female. This percentage is substantially higher than the official school statistics for Lower Saxony, where women constituted 72.3 % of the teaching workforce, highlighting an overrepresentation of female teachers in the current survey. The overrepresentation of female teachers may be linked to the overrepresentation of elementary schools, as in Germany the proportion of female teachers is substantially higher in elementary schools as compared to secondary schools. Overrepresentation of female teachers is not the case within the group of surveyed elementary school teachers. According to the survey data, 89.5 % of elementary school teachers were female, closely matching the official school statistics for Lower Saxony, where 89.8 % of elementary teachers were female. Yet, survey data indicates that female teachers are overrepresented in secondary education. Among the surveyed teachers working in secondary education, the percentage of female teachers was 77.8 %. This percentage substantially exceeds the official school statistics for Lower Saxony, where 63.8 % of the secondary education teachers were female."
"The surveyed sample of teachers is representative in terms of the age distribution, although there is an evident overrepresentation of female teachers. Overall, the overrepresentation of female teachers may be attributed to the oversampling of elementary school teachers, who are predominantly female. The oversampling of elementary schools may be due to the timing of the data collection, which coincided with the exam preparation and final exams period in secondary education schools, typically running from January to June. The high demands of this period likely reduced the willingness of secondary education teachers to participate in the survey. Furthermore, as secondary education schools are generally larger organizational units compared to elementary schools, they may be more challenging to recruit for survey participation. No logical explanation for the oversampling of female teachers within secondary education could be identified. Evidence suggesting that female teachers have more positive attitudes toward SWE is tentative. The systematic review of teacher surveys on SWE [13] revealed that, in five studies, female teachers held more favorable attitudes, while in one study, male teachers exhibited more positive attitudes. Five studies found no significant differences, indicating only marginal variations between male and female teachers. Likewise, in the present survey, a small difference was observed, but not in favor of female teachers: Female teachers showed overall less favorable attitudes, though these correlations are close to zero (|r| < 0.10). Thus, the gender imbalance is unlikely to bias the results, as correlations between sex and attitudes, as well as other variables, remain marginal. Yet, the overrepresentation of elementary school teachers could introduce a source of bias, considering the differences between elementary and secondary education teachers. Notably, elementary teachers tend to exhibit less favorable attitudes toward inclusion, which correlates with attitudes toward SWE. Furthermore, elementary teachers display higher levels of negative emotions and insecurities, particularly regarding school trips. They also demonstrate lower confidence in their classroom management and emotional support skills."
Statistischer Bericht - Allgemeinbildende Schulen
Die Daten der amtliche Schulstatistik erscheinen gebündelt als „Statistischer Bericht - Allgemeinbildende Schulen“. Wir arbeiten mit der Exceldatei (XLSX-Format) für das Schuljahr 2022/2023. In der Exceldatei finden wir „Ergebnistabellen“ und „Daten zur Weiterverarbeitung“. Für die Beschreibung der Grundgesamtheit benötigen wir die „Daten zur Weiterverarbeitung“.
Link: Statistischer Bericht - Allgemeinbildende Schulen - Schuljahr 2022/2023
Unsere Stichprobe umfasst Schüler:innen an öffentlichen Förderschulen in Bayern:
Welche Daten benötigen wir, um die Stichprobe (Anteil ausländischer sowie deutscher Schüler:innen) mit der Grundgesamtheit zu vergleichen?
Lokalisieren Sie die entsprechenden Daten zur Weiterverarbeitung im „Statistischen Bericht - Allgemeinbildende Schulen - Schuljahr 2022/2023“ und machen Sie sich mit der Datenstruktur vertraut. Wie viele deutsche und ausländische Schüler:innen gibt es an öffentlichen Förderschulen in Bayern?
Der datenanalytische Prozess mit R und Rstudio
"Datenanalyse, praktisch betrachtet, kann man in fünf Schritte einteilen (Wickham und Grolemund 2017) […]. Zuerst muss man die Daten einlesen, die Daten also in R (oder einer anderen Software) verfügbar machen (laden). Fügen wir hinzu: In schöner [übersichtlicher] Form verfügbar machen; das nennt man auch Tidy Data (hört sich cooler an). Sobald die Daten in geeigneter Form in R geladen sind, folgt das Aufbereiten. Das beinhaltet das Zusammenfassen, Umformen oder Anreichern der Daten, je nach Bedarf. Ein nächster wesentlicher Schritt ist das Visualisieren der Daten. Ein Bild sagt bekanntlich mehr als tausend Worte. Schließlich folgt das Modellieren oder das Prüfen von Hypothesen: Man überlegt sich, wie sich die Daten erklären lassen könnten. Zu beachten ist, dass diese drei Schritte – Aufbereiten, Visualisieren, Modellieren – keine starre Abfolge sind, sondern eher ein munteres Hin-und-Her-Springen, ein aufeinander aufbauendes Abwechseln. Der letzte Schritt ist das Kommunizieren der Ergebnisse der Analyse – nicht der Daten." (Sauer, 2019)
Der datenanalytische Prozess mit R und Rstudio (Stichprobe vs. Grundgesamtheit)
Der datenanalytische Prozess (Sauer, 2019) in Anlehnung an Wickham et al. (2023) beinhaltet in unserem Beispiel also folgende Schritte:
Einlesen: Daten der Stichprobe und der Grundgesamtheit einlesen.
Aufarbeiten: Daten der Stichprobe/Grundgesamtheit auswählen und filtern. Daten der Stichprobe und Grundgesamtheit verbinden. Relative Häufigkeiten (Anteil ausländischer und deutscher Schüler:innen) für Stichprobe und Grundgesamtheit berechnen.
Modellieren: Mit der Berechnung der Häufigkeiten erhalten wir ein simples mathematisches Modell, nämlich eine Häufigkeitstabelle mit den Anteilen der ausländischen und deutschen Schüler:innen innerhalb der Stichprobe sowie der Grundgesamtheit.
Visualisieren: Die Häufigkeitstabelle wird als Balkendiagramm visualisiert.
Kommuniezieren: Erkenntnisse aus dem Vergleich zwischen Stichprobe und Grundgesamtheit ableiten und kommunizieren (Forschungsbericht/Paper schreiben, Vortrag halten oder Poster präsentieren).
Der datenanalytische Prozess nach Wickham et al. (2023)
Der datenanalytische Prozess (Sauer, 2019) in Anlehnung an Wickham et al. (2023)
Hinweise (Stichprobe vs. Grundgesamtheit) zum datenanalytischen Prozess (Sauer, 2019) in Anlehnung an Wickham et al. (2023)
Für den datenanalytischen Prozess benötigen wir entsprechende Zusatzpakete (Pakete laden).
library(tidyverse) # https://www.tidyverse.org/
library(readxl) # https://readxl.tidyverse.org/
library(gt) # https://gt.rstudio.com/
Normalerweise würden wir die Daten der Stichprobe aus einer Exceldatei einlesen und anschließend eine Häufigkeitstabelle anhand der Daten erstellen. Der Einfachheit halber erstellen wir die Häufigkeitstabelle direkt in R (ohne das Einlesen einer Exceldatei).
<-
Gruppe rep("Stichprobe", 2)
<-
Staatsangehoerigkeit c("deutsche Schüler/innen", "ausländische Schüler/innen")
<-
n c(203, 111)
<- # SP: Stichprobe
SP tibble(Gruppe, Staatsangehoerigkeit, n)
%>%
SP gt() %>%
tab_options(column_labels.font.weight = "bold")
Gruppe | Staatsangehoerigkeit | n |
---|---|---|
Stichprobe | deutsche Schüler/innen | 203 |
Stichprobe | ausländische Schüler/innen | 111 |
<- # GG: Grundgesamtheit
SCHULSTATISTIK read_xlsx("statistischer-bericht-allgemeinbildende-schulen-2110100237005.xlsx", sheet = "csv-21111-03")
<- # GG: Grundgesamtheit
GG %>%
SCHULSTATISTIK filter(Bundesland == "Bayern") %>%
filter(Bildungsbereich == "Alle Bildungsbereiche") %>%
filter(Schulart == "Förderschulen") %>%
filter(Status == "öffentlich") %>%
filter(Geschlecht == "Zusammen") %>%
filter(Staatsangehoerigkeit %in% c("deutsche Schüler/innen", "ausländische Schüler/innen")) %>%
select(Bundesland, Staatsangehoerigkeit, Schueler_innen_Anzahl) %>%
rename(Gruppe = Bundesland) %>%
rename(n = Schueler_innen_Anzahl)
%>%
GG gt() %>%
tab_options(column_labels.font.weight = "bold")
Gruppe | Staatsangehoerigkeit | n |
---|---|---|
Bayern | deutsche Schüler/innen | 23747 |
Bayern | ausländische Schüler/innen | 6840 |
Wir verbinden die Daten (Stichprobe und Grundgesamtheit).
<-
DATA rbind(SP, GG)
%>%
DATA gt() %>%
tab_options(column_labels.font.weight = "bold")
Gruppe | Staatsangehoerigkeit | n |
---|---|---|
Stichprobe | deutsche Schüler/innen | 203 |
Stichprobe | ausländische Schüler/innen | 111 |
Bayern | deutsche Schüler/innen | 23747 |
Bayern | ausländische Schüler/innen | 6840 |
Wir bestimmen die Anteile der ausländischen und deutschen Schüler:innen innerhalb der Stichprobe sowie der Grundgesamtheit.
%>%
DATA group_by(Gruppe) %>%
mutate(Anteil = n / sum(n)) %>%
gt() %>%
tab_options(column_labels.font.weight = "bold")
Staatsangehoerigkeit | n | Anteil |
---|---|---|
Stichprobe | ||
deutsche Schüler/innen | 203 | 0.6464968 |
ausländische Schüler/innen | 111 | 0.3535032 |
Bayern | ||
deutsche Schüler/innen | 23747 | 0.7763756 |
ausländische Schüler/innen | 6840 | 0.2236244 |
%>%
DATA group_by(Gruppe) %>%
mutate(Anteil = (n / sum(n)) * 100) %>%
gt() %>%
tab_options(column_labels.font.weight = "bold")
Staatsangehoerigkeit | n | Anteil |
---|---|---|
Stichprobe | ||
deutsche Schüler/innen | 203 | 64.64968 |
ausländische Schüler/innen | 111 | 35.35032 |
Bayern | ||
deutsche Schüler/innen | 23747 | 77.63756 |
ausländische Schüler/innen | 6840 | 22.36244 |
%>%
DATA group_by(Gruppe) %>%
mutate(Anteil = ((n / sum(n)) * 100) %>% round(1)) %>%
gt() %>%
tab_options(column_labels.font.weight = "bold")
Staatsangehoerigkeit | n | Anteil |
---|---|---|
Stichprobe | ||
deutsche Schüler/innen | 203 | 64.6 |
ausländische Schüler/innen | 111 | 35.4 |
Bayern | ||
deutsche Schüler/innen | 23747 | 77.6 |
ausländische Schüler/innen | 6840 | 22.4 |
Wir visualisieren die Anteile.
<-
DATA_PLOT %>%
DATA group_by(Gruppe) %>%
mutate(Anteil = ((n / sum(n)) * 100) %>% round(1))
%>%
DATA_PLOT ggplot(aes(x = Anteil,
y = Staatsangehoerigkeit,
fill = Gruppe)) +
geom_bar(position = "dodge", stat = "identity") +
xlim(c(0, 100)) +
geom_text(aes(label = paste0(n, " (", Anteil, "%)")),
position = position_dodge(width = 0.9),
hjust = -0.1) +
theme_minimal(base_size = 15) +
labs(x = "Anteil in %", fill = NULL) +
guides(fill = guide_legend(reverse = TRUE)) +
theme(legend.position = "top")
%>%
DATA_PLOT ggplot(aes(x = Anteil,
y = Gruppe,
fill = Staatsangehoerigkeit)) +
geom_col() +
geom_text(aes(label = paste0(n, " (", Anteil, "%)")),
position = position_stack(vjust = 0.5)) +
xlim(c(0, 100)) +
theme_minimal(base_size = 15) +
labs(x = "Anteil in %", fill = NULL) +
guides(fill = guide_legend(reverse = TRUE)) +
theme(legend.position = "top")
Sauer, S. (2019). Statistik heute. In S. Sauer, Moderne Datenanalyse mit R (S. 3–11). Springer Fachmedien Wiesbaden. https://doi.org/10.1007/978-3-658-21587-3_1
Wickham, H., Çetinkaya-Rundel, M., & Grolemund, G. (2023). R for data science: Import, tidy, transform, visualize, and model data (2nd edition). O’Reilly. https://r4ds.hadley.nz/intro
Unsere Stichprobe umfasst Lehrer:innen an privaten Gymnasien in Niedersachsen:
<-
Gruppe rep("Stichprobe", 2)
<-
Geschlecht c("männlich", "weiblich")
<-
n c(88, 34)
<- # SP: Stichprobe
SP tibble(Gruppe, Geschlecht, n)
%>%
SP gt() %>%
tab_options(column_labels.font.weight = "bold")
Gruppe | Geschlecht | n |
---|---|---|
Stichprobe | männlich | 88 |
Stichprobe | weiblich | 34 |
Welche Daten benötigen wir, um die Stichprobe mit der Grundgesamtheit zu vergleichen?
Lokalisieren Sie die entsprechenden Daten zur Weiterverarbeitung im „Statistischen Bericht - Allgemeinbildende Schulen - Schuljahr 2022/2023“ und arbeiten Sie mit R und RStudio:
Häufigkeitstabelle mit absoluten und relativen Häufigkeiten (Stichprobe und Grundgesamtheit)
Visualisierung der Häufigkeitstabelle als Balkendiagramm (Stichprobe und Grundgesamtheit)
<-
SCHULSTATISTIK read_xlsx("statistischer-bericht-allgemeinbildende-schulen-2110100237005.xlsx", sheet = "csv-21111-18")
<-
GG %>%
SCHULSTATISTIK filter(Bundesland == "Niedersachsen") %>%
filter(Schulart == "Gymnasien") %>%
filter(Status == "privat") %>%
filter(Beschaeftigungsumfang == "Voll-und Teilzeitbeschäftigte") %>%
filter(Geschlecht %in% c("männlich", "weiblich")) %>%
select(Bundesland, Geschlecht, Lehrkraefte_Anzahl) %>%
rename(Gruppe = Bundesland, n = Lehrkraefte_Anzahl)
%>%
GG gt() %>%
tab_options(column_labels.font.weight = "bold")
Gruppe | Geschlecht | n |
---|---|---|
Niedersachsen | männlich | 770 |
Niedersachsen | weiblich | 1186 |
<-
DATA rbind(SP, GG)
%>%
DATA gt() %>%
tab_options(column_labels.font.weight = "bold")
Gruppe | Geschlecht | n |
---|---|---|
Stichprobe | männlich | 88 |
Stichprobe | weiblich | 34 |
Niedersachsen | männlich | 770 |
Niedersachsen | weiblich | 1186 |
%>%
DATA group_by(Gruppe) %>%
mutate(Anteil = ((n / sum(n)) * 100) %>% round(1)) %>%
gt() %>%
tab_options(column_labels.font.weight = "bold")
Geschlecht | n | Anteil |
---|---|---|
Stichprobe | ||
männlich | 88 | 72.1 |
weiblich | 34 | 27.9 |
Niedersachsen | ||
männlich | 770 | 39.4 |
weiblich | 1186 | 60.6 |
<-
DATA_PLOT %>%
DATA group_by(Gruppe) %>%
mutate(Anteil = ((n / sum(n)) * 100) %>% round(1))
%>%
DATA_PLOT ggplot(aes(x = Anteil,
y = Geschlecht,
fill = Gruppe)) +
geom_bar(position = "dodge", stat = "identity") +
xlim(c(0, 100)) +
geom_text(aes(label = paste0(n, " (", Anteil, "%)")),
position = position_dodge(width = 0.9),
hjust = -0.1) +
theme_minimal(base_size = 15) +
labs(x = "Anteil in %", fill = NULL) +
guides(fill = guide_legend(reverse = TRUE)) +
theme(legend.position = "top")
%>%
DATA_PLOT ggplot(aes(x = Anteil,
y = Gruppe,
fill = Geschlecht)) +
geom_col() +
geom_text(aes(label = paste0(n, " (", Anteil, "%)")),
position = position_stack(vjust = 0.5)) +
xlim(c(0, 100)) +
theme_minimal(base_size = 15) +
labs(x = "Anteil in %", fill = NULL) +
guides(fill = guide_legend(reverse = TRUE)) +
theme(legend.position = "top")
Unsere Stichprobe umfasst Grundschüler:innen in Bremen aus den Staaten Afghanistan, Irak und Syrien:
Welche Daten benötigen wir, um die Stichprobe mit der Grundgesamtheit zu vergleichen?
Lokalisieren Sie die entsprechenden Daten zur Weiterverarbeitung im „Statistischen Bericht - Allgemeinbildende Schulen - Schuljahr 2022/2023“ und arbeiten Sie mit R und RStudio:
Häufigkeitstabelle mit absoluten und relativen Häufigkeiten (Stichprobe und Grundgesamtheit)
Visualisierung der Häufigkeitstabelle als Balkendiagramm (Stichprobe und Grundgesamtheit)
<-
Gruppe rep("Stichprobe", 3)
<-
Staatsangehoerigkeit c("Afghanistan", "Irak", "Syrien, Arabische Republik")
<-
n c(31, 19, 149)
<- # SP: Stichprobe
SP tibble(Gruppe, Staatsangehoerigkeit, n)
%>%
SP gt() %>%
tab_options(column_labels.font.weight = "bold")
Gruppe | Staatsangehoerigkeit | n |
---|---|---|
Stichprobe | Afghanistan | 31 |
Stichprobe | Irak | 19 |
Stichprobe | Syrien, Arabische Republik | 149 |
<-
SCHULSTATISTIK read_xlsx("statistischer-bericht-allgemeinbildende-schulen-2110100237005.xlsx", sheet = "csv-21111-08")
<-
GG %>%
SCHULSTATISTIK filter(Bundesland == "Bremen") %>%
filter(Schulart == "Grundschulen") %>%
filter(Geschlecht == "Insgesamt") %>%
filter(Staatsangehoerigkeit %in% c("Syrien, Arabische Republik",
"Afghanistan",
"Irak")) %>%
select(Bundesland, Staatsangehoerigkeit, auslaendische_Schueler_innen_Anzahl) %>%
rename(Gruppe = Bundesland, n = auslaendische_Schueler_innen_Anzahl)
%>%
GG gt() %>%
tab_options(column_labels.font.weight = "bold")
Gruppe | Staatsangehoerigkeit | n |
---|---|---|
Bremen | Afghanistan | 330 |
Bremen | Irak | 185 |
Bremen | Syrien, Arabische Republik | 1576 |
<-
DATA rbind(SP, GG)
%>%
DATA gt() %>%
tab_options(column_labels.font.weight = "bold")
Gruppe | Staatsangehoerigkeit | n |
---|---|---|
Stichprobe | Afghanistan | 31 |
Stichprobe | Irak | 19 |
Stichprobe | Syrien, Arabische Republik | 149 |
Bremen | Afghanistan | 330 |
Bremen | Irak | 185 |
Bremen | Syrien, Arabische Republik | 1576 |
%>%
DATA group_by(Gruppe) %>%
mutate(Anteil = ((n / sum(n)) * 100) %>% round(1)) %>%
gt() %>%
tab_options(column_labels.font.weight = "bold")
Staatsangehoerigkeit | n | Anteil |
---|---|---|
Stichprobe | ||
Afghanistan | 31 | 15.6 |
Irak | 19 | 9.5 |
Syrien, Arabische Republik | 149 | 74.9 |
Bremen | ||
Afghanistan | 330 | 15.8 |
Irak | 185 | 8.8 |
Syrien, Arabische Republik | 1576 | 75.4 |
<-
DATA_PLOT %>%
DATA group_by(Gruppe) %>%
mutate(Anteil = ((n / sum(n)) * 100) %>% round(1))
%>%
DATA_PLOT ggplot(aes(x = Anteil,
y = Staatsangehoerigkeit,
fill = Gruppe)) +
geom_bar(position = "dodge", stat = "identity") +
xlim(c(0, 100)) +
geom_text(aes(label = paste0(n, " (", Anteil, "%)")),
position = position_dodge(width = 0.9),
hjust = -0.1) +
theme_minimal(base_size = 15) +
labs(x = "Anteil in %", fill = NULL) +
guides(fill = guide_legend(reverse = TRUE)) +
theme(legend.position = "top")
%>%
DATA_PLOT ggplot(aes(x = Anteil,
y = Gruppe,
fill = Staatsangehoerigkeit)) +
geom_col() +
geom_text(aes(label = paste0(n, " (", Anteil, "%)")),
angle = 75,
position = position_stack(vjust = 0.5)) +
xlim(c(0, 100)) +
theme_minimal(base_size = 15) +
labs(x = "Anteil in %", fill = NULL) +
guides(fill = guide_legend(reverse = TRUE)) +
theme(legend.position = "top")
Beschreiben Sie die Altersverteilung der Grundschullehrkräfte in Sachsen.
Lokalisieren Sie die entsprechenden Daten zur Weiterverarbeitung im „Statistischen Bericht - Allgemeinbildende Schulen - Schuljahr 2022/2023“ und arbeiten Sie mit R und RStudio:
Häufigkeitstabelle mit absoluten und relativen Häufigkeiten
Visualisierung der Häufigkeitstabelle als Balkendiagramm
<-
SCHULSTATISTIK read_xlsx("statistischer-bericht-allgemeinbildende-schulen-2110100237005.xlsx", sheet = "csv-21111-21")
<-
GG %>%
SCHULSTATISTIK filter(Bundesland == "Sachsen") %>%
filter(Beschaeftigungsumfang == "Voll- und Teilzeitbeschäftigte") %>%
filter(Schulart == "Grundschulen") %>%
filter(Altersgruppe != "Insgesamt") %>%
filter(Geschlecht == "Insgesamt") %>%
select(Bundesland, Altersgruppe, Lehrkraefte_Anzahl) %>%
rename(Gruppe = Bundesland, n = Lehrkraefte_Anzahl) %>%
mutate(Anteil = ((n / sum(n)) * 100) %>% round(1))
%>%
GG gt() %>%
tab_options(column_labels.font.weight = "bold")
Gruppe | Altersgruppe | n | Anteil |
---|---|---|---|
Sachsen | unter 30 | 1068 | 10.5 |
Sachsen | 30-35 | 1027 | 10.1 |
Sachsen | 35-40 | 1324 | 13.0 |
Sachsen | 40-45 | 1268 | 12.5 |
Sachsen | 45-50 | 773 | 7.6 |
Sachsen | 50-55 | 1397 | 13.8 |
Sachsen | 55-60 | 1900 | 18.7 |
Sachsen | 60-65 | 1252 | 12.3 |
Sachsen | 65 und älter | 148 | 1.5 |
%>%
GG ggplot(aes(x = Anteil, y = Altersgruppe)) +
geom_bar(stat = "identity") +
xlim(c(0, 50)) +
geom_text(aes(label = paste0(n, " (", Anteil, "%)")),
position = position_dodge(width = 0.9),
hjust = -0.1) +
theme_minimal(base_size = 15) +
labs(x = "Anteil in %")
%>%
GG mutate(Altersgruppe = relevel(Altersgruppe %>% factor(), ref = "unter 30")) %>%
ggplot(aes(x = Anteil, y = Altersgruppe)) +
geom_bar(stat = "identity") +
xlim(c(0, 50)) +
geom_text(aes(label = paste0(n, " (", Anteil, "%)")),
position = position_dodge(width = 0.9),
hjust = -0.1) +
theme_minimal(base_size = 15) +
labs(x = "Anteil in %")
Kritischer Ausblick
"Abschließend soll auf die Grenzen amtlicher Schulstatistiken hingewiesen werden. Für ForscherInnen werden die schulstatistischen Datenbestände immer teilweise unbefriedigend bleiben, können sie ein Problem doch nie umfassend erfassen. Selbst Individualdatensätze mit Personenkennung weisen aus Sicht der angelegten Theorie immer Informationslücken auf, die in den Grenzen der statistischen Erhebungsprogramme begründet liegen. Diese Grenzen sind auch Produkt politischen Wollens und datenschutzrechtlichen Dürfens. Kaum zu erklären ist, wieso sich einige Bundesländer gegen eine Modernisierung ihres schulstatistischen Erhebungsprogramms entsprechend des anderswo realisierten State-of-the-Art verschließen. Generell ist der rechtliche Regelungsstand der Schulstatistik unbefriedigend, nicht nur die Datenerhebung, sondern auch die Datenveröffentlichung und -weitergabe an nicht staatliche NutzerInnen betreffend. Hanschmann und Weishaupt (2017) sehen sogar das Grundrecht auf Wissenschaftsfreiheit durch einen vielfach ungeklärten Informationszugang verletzt, da keine Pflicht auf Informationszugang besteht und die Zurverfügungstellung der Daten oftmals von personellen und organisatorischen Ressourcen der zuständigen Stellen abhängt. Mit einer administrativen Verhinderung von Auswertungen mittels amtlicher Schulstatistikdaten ist gegenwärtig also stets zu rechnen." (Hermstein et al., 2019)
"Finally, the paper highlights the main shortcomings of the existing open data portals [in Germany] regarding the quality of datasets and the lack of findability and granularity" (Veja et al., 2021)
Positiver Ausblick
Der Zugang zur amtlichen Bildungsstatistik verbessert sich zunehmend im Sinne der Idee von Open Government Data. So lassen sich mittlerweile auch Lehrer:innen und Schüler:innen-Daten auf kommunaler Ebene abrufen (z.B. für spezifische Städte und Gemeinden). Dies ist z.B. über die Landesdatenbank NRW möglich:
Hermstein, B., Berkemeyer, N., & Weishaupt, H. (2019). Die amtliche Schulstatistik als Datenquelle für die Kinder- und Jugendhilfe. In M.-C. Begemann & K. Birkelbach (Hrsg.), Forschungsdaten für die Kinder- und Jugendhilfe: Qualitative und quantitative Sekundäranalysen (S. 257–277). Springer Fachmedien. https://doi.org/10.1007/978-3-658-23143-9_13
Veja, Cornelia; Hocker, Julian; Schindler, Christoph; Rittberger, Marc. Educational open government data in Germany. The landscape, status, and quality. In: Schmidt, Thomas; Wolff, Christian (Hrsg.): Information between data and knowledge: Information science and its neighbors from data science to digital humanities, proceedings of the 16th International Symposium of Information Science (ISI 2021), Regensburg, Germany, 8th - 10th March 2021, Glückstadt: Hülsbusch, 2021 (Schriften zur Informationswissenschaft, 74), S. 370-396. https://epub.uni-regensburg.de/44931/1/ISI'21.pdf#page=371