Geschlechtsspezifische Verzerrungen in Evaluationen von Lehrkräften. Sind Studierende als Evaluatoren subjektiv?


Term Paper, 2021

17 Pages, Grade: 1,3


Excerpt


Inhaltsverzeichnis

1. Einleitung

2. Datensatz
2.1 Kursauswahl
2.2 Aufbau der student evaluations of teachers (SETs)
2.3 Benotungssystem

3. Methode
3.1 deskriptive Betrachtung
3.2 Modell
3.3 Methode im Papier von Mengel et al

4. Ergebnisse
4.1 Bevorzugung von männlichen Lehrkräften durch männliche Studierende
4.2 Ursache der geschlechtsspezifischen Benachteiligung
4.3 Kontrolle der wirklichen Produktivität der Lehrkräfte

5. Diskussion und Fazit

Literaturverzeichnis

1. Einleitung

Eine an europäischen Universitäten weitverbreitete Methode zur Messung der Produktivität von Lehrkräften ist die der Evaluation durch Studierende unter den Annahme, dass diese objektive Evaluatoren für die Lehrproduktivität sind.1 In den Papieren „Genger Biases in Student Evaluations of Teachers" von Anne Boring sowie „Gender Biases in Teaching Evaluations" von Friederike Mengel, Jan Sauermann und Ulf Zölitz wird untersucht, ob Studierende möglicherweise in Wirklichkeit subjektive Evaluatoren sind und bei der Bewertung der Lehrkräfte unbekannte Faktoren und Kriterien verwenden, die exogen sind oder in keinem direkten Zusammenhang mit den tatsächlichen Lehrqualitäten stehen.2 Bewerten beispielsweise männliche Studierende männliche Lehrkräfte allein wegen ihres Geschlechtes und unabhängig ihrer wirklichen Lehrqualität signifikant besser als weibliche Lehrkräfte, würde die Evaluation von der wirklichen Produktivität abweichen und könnte nicht länger als valider Indikator angesehen werden.

Beide Papiere versuchen zu testen, ob ebensolche geschlechterspezifische Präferenzen bei der Beurteilung von Lehrkräften eine Rolle spielen und somit die Interpretationen der Evaluationen verzerrt sind. Insbesondere werden die Folgen und möglichen Probleme für die Dozierenden und ihre universitäre Arbeit durch eine solche Verzerrung betrachtet und hervorgehoben.

Im Folgenden wird primär das Papier von Boring mit dem verwendeten Datensatz, der Methodik und den Ergebnissen sowie den sich daraus ergebenden Erkenntnissen untersucht und analysiert. In die Betrachtung mit einbezogen soll dabei das Papier von Mengel, Sauermann und Zölitz, um einen kritischen Vergleich über Unterschiede, Vorteile und mögliche Probleme durchführen zu können. Abschließend werden mögliche Folgen und Implikationen, die sich aus den Erkenntnissen der Forscherinnen und Forscher ergeben, erläutert und diskutiert.

2. Datensatz

Boring verwendet für ihre Analyse den Datensatz der „student evaluations of teacher" (SETs) einer französischen Universität im ersten Studienjahr. Sie sieht ebendiesen insbesondere durch den Aufbau des Studiums und der Struktur der SETs als besonders geeignet für eine Analyse von geschlechtsspezifischen Unterschieden in der Bewertung von Lehrkräften durch Studierende. Dies verdeutlicht sie an drei zentralen Vorteilen des Datensatzes dieser Universität, die im Folgenden vorgestellt werden. Dabei wir ein Verglich mit dem von Mengel, Sauermann und Zölitz verwendeten Datensatz.

2.1 Kursauswahl

An der betrachteten Universität melden sich Studierende nicht für einen bestimmten Kurs, sondern für ein Triplet an Kursen an. Ein solches Triplet besteht aus einer Kombination von drei Seminaren pro Semester und die Studierenden bleiben im gesamten Grundstudium, das heißt in den ersten beiden Semestern, in ebendiesen zusammen und können diese nicht wechseln. Darüber hinaus erstellt die Universitätsverwaltung die Triplets nach bestimmten Kriterien und achtet dabei unter anderem auf eine homogene Kombination aus Alter, Geschlecht und Erfahrung der Lehrkräfte.3 Letztere Eigenschaften führen dazu, dass die Datenbank selbst durch die Struktur der Kursbelegung für Auswahlverzerrungen der Studierenden bei der Kurswahl eliminiert, solange sich Studierende nicht bevorzugt Triplets wählen, bei denen das Geschlecht der Lehrkräfte mit ihrem eigenen übereinstimmt. Das dies nicht der Fall ist, zeigt Boring anhand der Anteile von männlichen Studierenden in den möglichen Tripletkombinationen nach Geschlecht der Lehrkräfte. So lassen sich in Triplets mit zwei weiblichen und einer männlichen Lehrkraft 45 %, in Triplets mit einer weiblichen und zwei männlichen Lehrkräften 41 % und in Triplets mit keiner weiblichen und drei männlichen Lehrkräften wiederum 45 % männliche Studierende wiederfinden.4 Dies zeigt, dass männliche Studierende nicht bevorzugt Kurse mit überwiegend männlichen Lehrkräften wählen, da in diesem Fall die prozentualen Anteile höher sein müssten. Dementsprechend kann von einer Eliminierung von Auswahlverzerrungen ausgegangen werden.

Mengel, Sauermann und Zölitz verwenden einen Datensatz der Universität Maastricht und sehen einen Vorteil gegenüber Boring darin, dass dort die Zuteilung der Studierenden in die Kurse vollständig zufällig geschieht und somit keinerlei Auswahlmöglichkeit hinsichtlich des Geschlechtes der Lehrkräfte besteht.5 Theoretisch könnten sich vereinzelte Studierende in dem Datensatz von Boring bewusst, auf Grundlage von individuellen geschlechtsspezifischen Präferenzen, für ein bestimmtes Triplet entscheiden. Diese Möglichkeit entfällt den Studierenden bei Mengel et al.

2.2 Aufbau der student evaluations of teachers (SETs)

Einen weiteren Vorteil in der verwendeten Datenbank sieht Boring darin, dass alle Studierende indirekt verpflichtet sind, die Evaluationen durchzuführen. Geben sie am Ende des Semesters keine Bewertung ab, können sie sich nicht für Kurse im folgenden Semester anmelden oder ihre Noten einsehen. Somit entfallen Verzerrungen, die dadurch entstehen können, dass bestimmte Studierende keine Bewertung abgeben.6 Dies lässt sich beispielsweise in den von Mengel et al. verwendeten Daten bemängeln, da an der von ihnen untersuchten Universität kein Zwang für eine Evaluation besteht und in der Folge lediglich 36 % der Grundgesamtheit aller Kursanmeldungen von Studierenden an der Evaluation der Lehrkräfte teilgenommen haben und rein deskriptiv mit höherer Wahrscheinlichkeit weibliche Studierende an der Lehrevaluation partizipieren.7 Hieraus ergibt sich demnach die Möglichkeit einer Verzerrung der Stichprobe, da möglicherweise die Geschlechter- oder Merkmalsverteilung der Grundgesamtheit nicht länger gegeben ist.

In der SET-Datenbank der französischen Universität bei Boring wurden darüber hinaus die geschlossenen Fragen innerhalb der SETs in vier verschiedene Unterrichtsdimensionen aufgeteilt und die Antwortmöglichkeiten auf einer ordinalskalierten fünfstufigen Likert-Skala von „non-pertinent" (0) bis „excellent" (4) abgegeben, wodurch eine quantitativ statistische Auswertung und Analyse von signifikanten geschlechtsspezifischen Unterschieden zusätzlich über die Kontrolle einer möglichen geschlechtsspezifischen Gewichtung von verschiedenen Unterrichtsdimensionen durch die Forscherin durchgeführt werden konnte. Zu ebendiesen Dimensionen zählen erstens der Kursinhalt, zweitens Hausaufgaben und Tests, drittens der Vortragsstil sowie viertens die Verknüpfung des Seminars zu weiteren und aktuellen Themengebieten durch die Lehrkraft.8

Der von Mengel et al. verwendete Datensatz weist eine, im Vergleich zu Boring, abgewandelte Form der Evaluation mit eigenen Vorteilen auf. So können in ebendiesem von insgesamt 16 von den Studierenden zu beantwortenden Aussagen lediglich fünf direkt auf die Lehrkraft bezogen werden. Allerdings bieten sich beispielsweise die restlichen Items bezüglich der Aussagen über das Kursmaterial als ideale Determinante an, um eine mögliche Bevorzugung eines bestimmten Geschlechts von Lehrkräften zu identifizieren, da das Material für alle Kurse im Semester zentral von der Kurskoordination erstellt und in allen Seminaren verwendet wird.9 Erhalten nun beispielsweise männliche Lehrkräfte von männlichen Studierenden in einem bestimmten Kurse signifikant bessere Bewertungen innerhalb der Aussagen über das Lehrmaterial als weibliche Lehrkräfte in anderen Kursen, dann kann dies nicht an der Qualität des Dozenten liegen, da das Material für alle Kurse identisch ist.

2.3 Benotungssystem

Als letzten zentralen Vorteil gibt Boring das Benotungssystem an der Universität an. Dadurch, dass die SETs am Ende des Semesters vor den Abschlussprüfungen abgeschlossen werden müssen sowie die Abschlussprüfungen als solche für alle Studierende identisch sind und zudem anonym korrigiert werden, ergibt sich daraus die Möglichkeit, die Noten aus den Prüfungen als Kontrolle für den Lernerfolg durch das Seminar und somit der Lehrqualität der Lehrkraft zu verwenden.10 Bewerten Studierende eine bestimmte Lehrkraft in der Evaluation signifikant schlechter als andere Studierende ihre Lehrkraft in einem anderen Seminar und erhalten alle Studierende aus ebendiesen Seminaren ähnliche Abschlussnoten in der anschließenden Prüfung, dann spielen möglicherweise andere Gründe als die tatsächliche Qualität der Lehrkraft bei der Evaluation eine Rolle. Zudem eliminiert die anonyme Kontrolle der Prüfungen mögliche Verzerrungen, die daraus entstehen könnten, dass Lehrkräfte, die eine gute oder schlechte Evaluation erhalten haben, dies in ihre Kontrolle einfließen lassen. Folglich lassen sich die SETs mit den Noten der Abschlussprüfung, welche als Indikator für die Qualität der Lehrkräfte dienen, vergleichen und mögliche geschlechtsspezifische Verzerrungen erkennen, die nicht auf den tatsächlichen Lernerfolg der Studierenden rückführbar sind.

3. Methode

Im Folgenden werden nun die methodischen Analysen der Forscherinnen und Forscher beider Papiere betrachtet und miteinander verglichen. Die unterschiedliche Datenstruktur beider Universitäten erfordert eine jeweils individuelle angepasste Analyse des Problems von möglichen geschlechtsspezifischen Verzerrungen in den Evaluationen von Lehrkräften durch Studierende.

3.1 deskriptive Betrachtung

Boring stellt ihrer Analyse zunächst eine rein deskriptive Betrachtung der arithmetischen Mittelwerte der Zufriedenheitswerte der Studierenden mit den Lehrkräften voran.11 Dabei werden separat die Bewertungen weiblicher und männlicher Studierenden für jeweils weibliche und männliche Lehrkräfte für jedes Item betrachtet. Somit ergeben sich für jedes Kriterium der Evaluation vier Mittelwerte, die sich, rein deskriptiv und ohne Aussage über die Signifikanz der Unterschiede, miteinander vergleichen lassen.

Besonders auffällig in der Auswertung ist zunächst, dass mit „quality of class material" und „clarity of course assessment" lediglich zwei von insgesamt elf Items zu beobachten sind, in denen der Mittelwert der Zufriedenheit der männlichen Studierenden mit männlichen Lehrkräften nicht den höchsten Wert einnimmt. Zudem ist letzteres Item das Einzige, indem männliche Studierende weibliche Lehrkräfte im Mittelwert besser bewerten. Dies allerdings lediglich mit einem unterschied von 0.01 Punkten. Diese Beobachtung der besseren Bewertung von männlichen Studierenden für Lehrkräfte des gleichen Geschlechtes, lässt sich bei weiblichen Studierenden nicht feststellen. Einerseits bewerten ebendiese in der ersten und zweiten Unterrichtsdimension weibliche Lehrkräfte im Durchschnitt besser, andererseits erhalten männliche Lehrkräfte in der dritten und vierten Dimension höhere Zufriedenheitswerte. Folglich zeigt bereits diese deskriptive Betrachtung der Mittelwerte eine Bevorzugung von männlichen Lehrkräften bei der Bewertung durch männliche Studierende.

Um diese Beobachtung weiter zu untersuchen, stellt Boring anschließend ein methodisches Modell auf, um zu testen, welche Variablen tatsächlich einen signifikanten Einfluss auf die Gesamtzufriedenheitswerte der Lehrkräfte haben.

3.2 Modell

Zur methodischen Analyse verwendet Boring ein Regressionsmodell mit der Gesamtzufriedenheit der Lehrkraft als abhängige und, bedingt durch die Ergebnisse aus der deskriptiven Betrachtung, einer Dummy-Variable „student and teacher male" als erklärende Variable, die den Wert 1 annimmt, wenn ein männlicher Studierender eine männliche Lehrkraft bewertet. Diese dient der Identifikation möglicher geschlechtsspezifischer Präferenzen.12 Zudem verwendet sie mehrere Kontrollvariablen in ihrem Modell. Diese umfassen verschiedene Studierenden-, Lehrkräfte- und Kursmerkmale. Dazu gehören unter anderem das Geschlecht von Studierenden und Lehrkräften, die Seminar- und Abschlussnote, der Zeitpunkt und Tag des Kurses sowie das Alter und die Erfahrung der Lehrkräfte.13

Durch die ordinale Skalierung der abhängigen Variable bietet sich für Boring lediglich eine geordnete Probitregression oder eine geordnete logistische Regression an. Der Unterschied liegt in der Annahme über die Verteilung der Fehlerterme, die bei letzterer als logistisch verteilt angenommen werden.14 Boring verwendet schließlich ein geordnetes logistisches Regressionsmodell, welches in der Anwendung die Ergebnisse für drei Modelle liefert. Modell 1 liefert die Regressionsergebnisse für die Wahrscheinlichkeit einer Gesamtbewertung von eins gegenüber einer Bewertung von zwei, drei oder vier, Modell 2 die Ergebnisse einer Bewertung von eins oder zwei gegenüber einer Wertung von drei oder vier und Modell 3 verdeutlicht schließlich die Ergebnisse für eine Benotung der Lehrkraft in der Evaluation mit eins, zwei oder drei gegenüber einer exzellenten Bewertung von vier.15

[...]


1 Vgl. Anne Boring, Gender Biases in Student Evaluations of Teachers. Work in Progress, 2014, S. 3

2 Vgl. ebd.

3 Vgl. ebd. S. 7.

4 Vgl. ebd. S. 8.

5 Friederike Mengel/Jan Sauermann/Ulf Zölitz, Gender Bias in Teaching Evaluations, in: Journal of the European Economic Association 17 (2), 2019, S. 538.

6 Vgl. Boring, Gender Bias in Student Evaluations of Teachers, S. 8.

7 Vgl. Mengel/Sauermann/Zölitz, Gender Bias im Teaching Evaluations, S. 547 f.

8 Vgl. Boring, Gender Bias in Student Evaluations of Teachers, S. 8 f.

9 Vgl. Mengel/Sauermann/Zölitz, Gender Bias im Teaching Evaluations, S. 544.

10 Vgl. Boring, Gender Bias in Student Evaluations of Teachers, S. 9 f.

11 Vgl. ebd., table 2, S. 14

12 Vgl. ebd. S. 16.

13 Vgl. ebd., table 3, S. 18.

14 Vgl. Henning Best/Christof Wolf, Modellvergleich und Ergebnisinterpretation in Logit- und Probitregressionen, in: Kölner Zeitschrift für Soziologie und Sozialpsychologie 64, 2012, S. 379.

15 Vgl. Boring, Gender Bias in Student Evaluations of Teachers, S. 16 ff.

Excerpt out of 17 pages

Details

Title
Geschlechtsspezifische Verzerrungen in Evaluationen von Lehrkräften. Sind Studierende als Evaluatoren subjektiv?
College
University of Erfurt  (Staatswissenschaftliche Fakultät)
Course
Finanzwissenschaft I
Grade
1,3
Author
Year
2021
Pages
17
Catalog Number
V1030637
ISBN (eBook)
9783346460066
ISBN (Book)
9783346460073
Language
German
Keywords
Gender Bias, Pay Gap, Lehrkräfte, Verzerrung, Geschlechterunterschiede, Geschlechterspezifisch, Frauen, Männer, Studierende, Studenten, Evaluation, SETs, Bewertungen, Produktivität, Lehrqualität, Abhängigkeit, PayGap
Quote paper
Felix Ehrich (Author), 2021, Geschlechtsspezifische Verzerrungen in Evaluationen von Lehrkräften. Sind Studierende als Evaluatoren subjektiv?, Munich, GRIN Verlag, https://www.grin.com/document/1030637

Comments

  • No comments yet.
Look inside the ebook
Title: Geschlechtsspezifische Verzerrungen in Evaluationen von Lehrkräften. Sind Studierende als Evaluatoren subjektiv?



Upload papers

Your term paper / thesis:

- Publication as eBook and book
- High royalties for the sales
- Completely free - with ISBN
- It only takes five minutes
- Every paper finds readers

Publish now - it's free