Evaluation von E-Learning aus erwachsenenpädagogischer Perspektive


Tesis, 2007

147 Páginas, Calificación: 1,0


Extracto


Inhalt

Einleitung

1 Evaluation
1.1 Geschichtliche Entwicklung der Evaluation
1.2 Definitionen
1.2.1 Stufflebeam
1.2.2 Scriven
1.2.3 Cronbach et al
1.2.4 Rossi/Freeman
1.2.5 Kirkpatrick
1.2.6 Joint Committee
1.2.7 Deutsche Autoren
1.2.8 Zusammenfassung Definitionen
1.3 Verortung des Evaluationsbegriffes
1.3.1 Wissenschaft und Evaluation
1.3.2 Evaluation als eigene Disziplin
1.3.3 Evaluation und Evaluationsforschung
1.4 Klassifizierung von Evaluation
1.4.1 Aufgaben und Ziele von Evaluation
1.4.2 Gegenstände
1.4.3 Methoden, Modelle und Verfahren
1.4.3.1 Formative und summative Evaluation
1.4.3.2 Interne und externe Evaluation
1.4.3.3 Quantitative und qualitative Evaluation
1.4.3.3.1 Quantitative Methoden
1.4.3.3.2 Qualitative Methoden
1.4.3.3.3 Triangulation (Kombination der Methoden)
1.4.3.4 Programmevaluation
1.4.3.5 Responsive Evaluation
1.5 Zusammenfassung Evaluation
1.6 Evaluation im Bereich Erwachsenenbildung
1.6.1 Geschichtliche Entwicklung
1.6.2 Die Entwicklung seit den 1990er Jahren
1.6.3 Grundsätzliche Skepsis der Erwachsenenbildung
1.6.4 Menschenbild der Erwachsenenbildung
1.6.5 Evaluation und Qualitätsbegriff
1.7 Zusammenfassung

2 E- Learning
2.1 Gesellschaftliche Veränderungen
2.2 E- Learning als Antwort
2.3 E- Learning - Begriff und Formen
2.3.1 Versuch einer einheitlichen Definition
2.3.2 E- Learning - verwandte Begriffe
2.3.3 Formen des E- Learning
2.3.4 Vorteile und Nachteile
2.3.5 Blended Learning
2.3.6 Weitere Begriffsverwendung
2.4 Einsatzbereiche von E- Learning
2.4.1 E- Learning und Hochschule
2.4.2 E- Learning und Weiterbildung
2.4.2.1 E- Learning und berufliche Weiterbildung
2.4.2.2 E- Learning und allgemeine Erwachsenenbildung
2.5 Zusammenfassung E- Learning

3 Evaluation von E- Learning
3.1 Evaluation von E- Learning: Grundlagen
3.1.1 Begriffsabgrenzung
3.1.2 Ausgangsfragen und Konzeption
3.1.3 Evaluationsgegenstände
3.1.4 Besonderheiten im E- Learning- Kontext
3.2 Methoden zur Evaluation von E- Learning
3.2.1 Befragung
3.2.1.1 Internetbasierte Befragungen
3.2.1.2 E- Interviews
3.2.2 Tests
3.2.3 Verhaltensrecording
3.2.3.1 Logfile- Analyse
3.2.3.2 Evaluationsstandards für technikbasierte Instrumente
3.2.4 Beobachtung
3.2.5 Dokumentenanalyse
3.2.6 Zusammenfassung Evaluationsmethoden
3.3 Modelle zur Evaluation von E- Learning
3.3.1 Qualitätsbegriff und Evaluation von E- Learning
3.3.2 Klassifizierungsmodell der Evaluationskonzepte
3.3.3 Expertenbeurteilung durch Kriterienkataloge
3.3.3.1 Kriterienkataloge - methodische Grundlagen
3.3.3.1.1 Numerische Gewichtung und Summierung (NGS)
3.3.3.1.2 Qualitative Gewichtung und Summierung (QGS)
3.3.3.2 Kriterienkatalog AKAB
3.3.3.3 Kriterienkataloge MEDA und MEDA 97
3.3.3.4 Weitere Kriterienkataloge - aktuelle Anwendungen
3.3.3.5 Zusammenfassende Bewertung
3.3.4 Der Evaluationskubus - ein Ordnungsmodell
3.3.5 Rahmenmodell der Evaluation nach Schenkel
3.3.6 Weitere Ordnungsmodelle
3.3.7 Paradigma zur Qualitätssicherung im Konstruktionsprozess multimedialer Instruktionssysteme
3.3.8 UCIT- basierte ganzheitliche Evaluation - Dresdner Ei
3.3.9 Weitere Evaluationsmodelle
3.4 Qualitätsmanagement - die nächste Stufe
3.5 Paradigmenwechsel der Evaluation
3.6 Zusammenfassung und Bewertung

4 Evaluationsprojekte zu E- Learning
4.1 Evaluation „E- Learning bei der RAG“
4.2 Evaluation von Lernplattformen

5 Zusammenfassung und Ausblick

Literaturverzeichnis

Anhang

Einleitung

„E-Learning - bei uns in der Ausbildung?! Ja, das gibt es: Bei Vorträgen werden oft Folien per Beamer an die Wand projiziert.“ (Auszubildender eines deutschen Versicherungskonzerns am 29. Januar 2007)

Diese während des Schreibens der vorliegenden Diplomarbeit erhaltene Antwort von einem Auszubildenden eines großen deutschen Versicherungskonzerns macht die Ambiguität und Komplexität des Themas „E- Learning“ deutlich.

Auf der einen Seite stehen der immense Einfluss von Informations- und Kommunikations- technologien und die daraus resultierenden gesellschaftlichen Veränderungen aktuell außer Frage. Es entstehen neue Herausforderungen an das Lernen und Lehren - und damit auch ein Wandel der Anforderungen an Aus- und Weiterbildung. E- Learning wird dabei vielfach als die Antwort auf diese neuen Anforderungen gesehen und ist mittlerweile zu einem Modewort geworden.

Demgegenüber stehen kritische Einschätzungen, die auf Probleme beim Einsatz von E- Learning hinweisen und die schlechte Qualität vieler vorhandener Angebote bemängeln. Aktuelle Studien zur Verbreitung von E- Learning zeichnen eine eher nüchternes Bild.

Dabei steigen die Nutzungszahlen des Internets stetig. Die Online- Studie 2006 von ARD/ZDF gibt eine Internetnutzung von 59,5% der Bevölkerung ab 14 Jahren an (vgl. van Eimeren, Frees 31.08.2006, S. 2). Die Ergebnisse der Forschungsgruppe Wahlen Online verweisen auf einen Internetzugang von 68% der Bevölkerung ab 18 Jahren und sogar 88% bei den 18- bis 24- Jährigen (vgl. Forschungsgruppe Wahlen Online 16.01.2007). Deutlich wird, dass das Internet und die Möglichkeiten der Informations- und Kommunikationstechnologien zunehmend zum selbstverständlichen Bestandteil des alltäglichen Lebens werden. Die zukünftigen Entwicklungen - auch im Bereich des E-Learning - sind kaum zu prognostizieren. Somit ist E-Learning ein Thema, das alle Bildungsbereiche betrifft.

Die ständige Weiterentwicklung und Verbreitung der „Neuen Medien“ und die bisher in vielen Bereichen fehlenden fundierten Erfahrungen mit E- Learning machen dabei Evaluation zwingend notwendig. Auf Basis von Evaluationsergebnissen ist eine kritisch- konstruktive Auseinandersetzung möglich. Diese ist gerade in dem Bereich der allgemeinen Erwachsenenbildung wichtig, die dem E- Learning eher skeptisch gegenübersteht.

Nachdem die Einschätzungen der Möglichkeiten von E- Learning lange Zeit zwischen unreflektiertem „Hype“ und überkritischer Ablehnung schwankten, ist aktuell eine gemäßigte Auseinandersetzung festzustellen. Diese ist notwendig, um auf E- Learning basierende Bildungsangebote konstruktiv zu planen, zu entwickeln und durchzuführen.

Die Komplexität des Bereiches kann allerdings dazu führen, dass die Entwicklung von E- Learning oder die Evaluation an Grenzen stoßen. Daher ist ein aufgeklärter - reflektierter - Einsatz von Evaluation wichtig:

„Darin liegt die Bedeutung aufgeklärter, d. h. bescheidener Evaluation und Evaluationsforschung: sie weiß um die Grenzen ihrer Wertungen und vermag gerade dadurch beizutragen zur weiteren Entwicklung des professionellen Bewußtseins in der Erwachsenenbildung.“ (Wesseler 1999, S. 750) Dieses gilt für die Evaluation von E- Learning gleichermaßen, die auf dieser Basis zu einem konstruktiven Umgang mit E- Learning, zu einer Verbesserung der Qualität von E- LearningProjekten in der Praxis und zu einem wissenschaftlich fundierten, professionellen Diskurs über E- Learning beitragen kann.

Aufbau der Arbeit

Dem Thema Evaluation von E- Learning kann man sich auf vielfältige Weise nähern. Aus mehreren Gründen habe ich einen Ansatz gewählt, der einen umfassenden Überblick über die verschiedenen relevanten Teilbereiche gibt.

Um die erwachsenenpädagogische Fundierung zu betonen, werden im ersten Teil dieser Arbeit die Grundlagen von Evaluation ausführlich erarbeitet und Besonderheiten im Kontext von Evaluation und Erwachsenenbildung herausgestellt.

Da der Bereich von E-Learning ein sehr umfangreicher und - gerade in Bezug auf die Erwachsenenbildung - sehr diffuser Bereich ist, gibt der zweite Teil einen umfassenden Einstieg in das Thema E- Learning. Einzelne Aspekte werden anhand der Ergebnisse durchgeführter Untersuchungen belegt, obwohl besonders in diesem Bereich viele Publikationen auf recht subjektiven Erfahrungsberichten einzelner Autoren mit eigenen E- Learning- Projekten beruhen. In diesem Teil wird nach einer allgemeinen Einführung der Fokus auf E- Learning im Kontext verschiedener Bereiche der Erwachsenenbildung gelegt.

Der dritte Teil der Arbeit beschäftigt sich mit der Evaluation von E- Learning. Dabei werden Gemeinsamkeiten und Besonderheiten im Vergleich zur „herkömmlichen“ Evaluation aufgezeigt sowie spezielle Methoden vorgestellt. Exemplarisch werden systematisiert einige umfassende Evaluationskonzepte ausgeführt und abschließend ein kritischer Blick auf bestehende Evaluationsansätze geworfen.

Im vierten Teil werden auf der Basis einer kurzen Übersicht verschiedener Evaluationsstudien zwei in der Praxis durchgeführte Evaluationsprojekte exemplarisch näher beschrieben, um mit diesen Praxisberichten einen Rückbezug zu den theoretischen Kapiteln der Arbeit herzustellen.

1 Evaluation

Der Begriff Evaluation umfasst ein weites Feld. Legt man eine weitläufige Bedeutung des Begriffes zugrunde und geht davon aus, dass Evaluation die Bewertung einer Handlung (bzw. der Folgen dieser Handlung) meint, so macht jeder1 täglich Erfahrungen mit Evaluation: Sei es bei Über- legungen zur Qualität eines Produktes vor einer Kaufentscheidung, bei der Abwägung verschiedener Kriterien wie Wetter und Verkehrslage um zu entscheiden, mit dem Fahrrad oder dem Auto zur Arbeit zu fahren oder bei Abschätzungen, ob das regelmäßige Gießen der Blumen den gewünschten Erfolg gebracht hat. Auch wenn in diesem Kapitel zu zeigen ist, dass aus wissenschaftlicher Sicht an Evaluation noch andere Maßstäbe anzulegen sind, so können diese Beispiele aus dem Alltag doch Anhaltspunkte für verschiedenste Aspekte und die Komplexität des Begriffes Evaluation bieten.

Evaluation ist jedoch weit mehr als nur Entscheidungshilfe oder Erfolgskontrolle. Sie kann dazu dienen, den Wert eines Programmes oder einer Methode zu analysieren und zu beschreiben. Dieses geschieht auf Basis von Evaluationsmodellen unter Verwendung verschiedenster Evaluationsmethoden. Diese Konzepte, Methoden und das grundsätzliche Verständnis von Evaluation haben sich im Laufe vieler Jahre entwickelt und verändert. Heute wird Evaluation viel- fach im Zusammenhang mit der Diskussion um Qualität und Verfahren des Qualitätsmanage- ments dargestellt.

Auch in der Erwachsenenbildung wird versucht, mit Evaluation Antworten auf Fragen nach empirischen Belegen für Qualität, Bedarfsgerechtigkeit und Wirkungen, Erfolg, Effektivität und Effizienz pädagogischer Leistungen zu finden. Gerade in Zeiten großer Konkurrenz auch unter Bildungsanbietern ist die Frage nach Qualitätsoptimierung nicht nur intern relevant, sondern dient auch der Darstellung nach außen, sowie ggf. zur Legitimation von extern erhaltenen Förder- mitteln (vgl. Beywl 1999, S. 41).

Der Begriff der Evaluation wird in diesem Kapitel auf Basis der historischen Entwicklung und der Definitionen verschiedener Autoren dargestellt. Wichtige Aspekte von Evaluation und konkrete Evaluationsmethoden werden näher erläutert. Einen weiteren Teil dieses Kapitels bildet die historische und aktuelle Verortung von Evaluation im Bereich der Erwachsenenbildung.

1.1 Geschichtliche Entwicklung der Evaluation

Im Gegensatz zu Wottawa/Thierau, die bereits in der Urgesellschaft Anfänge des Evaluations- gedankens sehen (vgl. Wottawa, Thierau 1990, S. 22) sieht Kuper den historischen Zeitpunkt, ab dem von eigenständiger Evaluationsforschung gesprochen werden kann, als nicht klar definierbar an2 (vgl. Kuper 2005, S. 26). Wie auch an den grundlegenden Definitionen (Kapitel 1.2) deutlich wird, sind die Grundlagen der Evaluation in den USA gelegt worden. In Deutschland gab es eine ähnliche historische Entwicklung, die jedoch zeitversetzt stattfand. So spricht Künzel von einer Adaptierung der Evaluation in der deutschsprachigen Sozial- und Erziehungswissenschaft in den späten 1960er/frühen 1970er Jahren und verweist darauf, dass diese nach „kurzer Blüte“ für die nächsten fast 20 Jahre „an den Rand des Blickfeldes praktisch und theoretisch tätiger Pädagogen geriet“ (Künzel 1999, S. 30).

Entwicklung über vier Generationen

Nach Wesseler beginnt die historische Entwicklung im engeren Sinn - lässt man frühe Tests zur Messung von Lernleistungen im späten 19. Jahrhundert und experimentelle Untersuchungen Kurt Lewins insbesondere in den 1930er Jahren außen vor - nach dem 2. Weltkrieg (vgl. Wesseler 1999). Guba/Lincoln setzen etwas früher an und unterscheiden vier Generationen, wobei jeweils die nachfolgende Generation versucht hat, zentrale Probleme und Unzulänglichkeiten von vorherigen Konzepten aufzulösen. Auch wenn diese Kategorisierung keine eindeutige zeitliche Zuordnung erlaubt, so lassen sich Protagonisten der Evaluation in diesen - im Folgenden kurz dargestellten - Kategorien wiederfinden.

1. Kosten- Nutzen- Analyse

In der ersten Generation war die Aufgabe der Evaluation die Bereitstellung von Instrumenten zur Leistungsmessung. Dieses betraf Leistungsmessungen bei Schülern, aber auch Vergleiche wie „Analysen der Effizienz pädagogischer Einrichtungen und Programme“. Gerade im Bildungsbereich waren (und sind) derartige Effizienzmessungen (angelehnt an naturwissenschaftliche Forschungsmodelle) allerdings schwierig, da der Nutzen kaum komplett ökonomisch erfassbar ist und keineswegs nur von den Kosten beispielsweise eines Programmes3 abhängt.

2. Prozess- Orientierung

In dieser Generation wurde der Fokus auf den Lehr- /Lernprozess gelegt. Ein bekanntes Beispiel ist die „Eight Year Study“ von Tyler, in der 1932- 1940 erstmalig in einer Langzeituntersuchung die Entwicklung neuer Curricula untersucht wurde - und erstmals nicht Personen, sondern die Wirk- samkeit pädagogischen Handelns im Mittelpunkt einer Analyse standen. Auch die Hawthorne- Studien4 können diesem Bereich zugeordnet werden. Die Qualität des Prozesses wurde zu dieser Zeit als entscheidender Indikator für die Qualität eines Programmes angenommen.

3. Methoden- Orientierung

Als es in den 1960er Jahren aufgrund gesamtgesellschaftlicher Ereignisse und Entwicklungen zu Zweifeln am Bildungssystem kam, folgte eine Reformpolitik, unter der die Evaluationsforschung expandierte - und auch zum Instrument der Politik wurde. Evaluation sollte die Einleitung struktureller Veränderungen begleiten und zur Auswahl der effektivsten Maßnahmen dienen. Dabei bekam sie bisweilen sogar Urteilskompetenzen bei Entscheidungen über Programme von zentraler gesellschaftlicher Bedeutung.

Außerdem entstand als Differenzierung zur 2. Generation der Wunsch nach zuverlässiger Erfassung der Qualität und damit zur Entwicklung und Anwendung von zuverlässigen Methoden und Instrumenten zur Datenerhebung. Die Folge war eine Fülle quantitativer Daten, die aber für die Bewertung von Programmen oft nicht hinreichend gültig oder plausibel waren. Aufgrund dieser Entwicklung ging die Bedeutung von Evaluation nach dem anfänglichen Boom in den 1980er Jahren vorübergehend stark zurück.

4. Wirkungs- Orientierung

Kritikpunkte an den bisherigen Evaluationsmodellen gab es einige:

„1. Evaluation engt sich auf die Perspektive von Managern evaluierter Programme ein. [...]
2. Evaluation vernachlässigt den Wertepluralismus in der Gesellschaft. [...]
3. Evaluation ist zu sehr an Wissenschaftlichkeit gebunden.“ (Kuper 2005, S. 34 nach Guba/Lincoln 1989)

Da bisherige Generationen nur unzureichend die Komplexität der sozialen Wirklichkeit erfassten, kam es von der Wissenschaftsorientierung zur Anwendungsorientierung. Damit einher ging die Abwendung von der Orientierung an quantitativen Modellen hin zu einer Ausrichtung an hermeneutischen, qualitativen Tradition der Sozialforschung. In einer dialogischen und demokratischen Auseinandersetzung wurden Ziele und Umsetzungsformen des evaluierten Gegenstandes gemeinsam erarbeitet. Gültigkeit und Zuverlässigkeit orientierten sich an den Interessen der Beteiligten und praktische Wirkungen (impact) standen im Vordergrund (Responsivität). Kritisch anzumerken ist jedoch, dass die „Evaluationsgeschichte“ in dieser Sichtweise von Guba/Lincoln in der vierten Generation zu einem Modell führt, das stark ihrem eigenen - nicht unumstrittenen - Ansatz entspricht.

Noch einmal hervorzuheben ist, dass diese Kategorisierung keinen linearen Verlauf darstellt. Kuper stellt fest, dass keiner der Hauptaspekte der vier Generationen der Vergangenheit angehört, sondern dass alle von hoher Aktualität sind - in Abhängigkeit vom systematischen Kontext und der Anwendungsfelder (vgl. Kuper 2005, S. 35). Er sieht in der Kombination der verschiedenen Ansätze schließlich eine mögliche fünfte Generation.

1.2 Definitionen

Für Evaluation gibt es keine eindeutige Definition. Wesseler bezeichnet Evaluation sogar als „Amöben- Wort“, „dessen Gebrauch eine starke Bedeutung ausstrahlt, ohne daß seine tatsächliche Qualität präzise beschreibbar wäre“ (Wesseler 1999, S. 736).

In der englischen Alltagssprache bedeutet Evaluation „bewerten“/ „Bewertung“ und ist dort kein Fachterminus wie im deutschen Sprachraum, was teilweise zu Missverständnissen bei deutschen Übersetzungen geführt hat. Hinzu kommt, dass eine Reihe weiterer Begriffe manchmal synonym oder zur Bezeichnung einer speziellen Form von Evaluation verwendet werden, wie beispielsweise: Evaluationsforschung, Evaluierungsforschung, Erfolgskontrolle, Effizienzforschung, Begleit- forschung, Bewertungsforschung, Wirkungskontrolle und Qualitätskontrolle. Eine Abgrenzung der Begriffe Evaluation und Evaluationsforschung folgt Kapitel 1.3 dieser Arbeit. Der Zusammen- hang von Evaluation und Qualitätsbegriff folgen wird im Kapitel 1.6.5 ausgeführt.

Im Folgenden wird eine Auswahl verschiedener Definitionen aufgeführt, die oft in Zusammenhang mit Modellen/Konzepten der jeweiligen Autoren stehen - in einer (soweit möglichen) chronologischen Einordnung. Die ersten Definitionen stammen aus der nordamerikanischen Literatur, die die Entwicklungen in Deutschland entscheidend beeinflusst hat.

1.2.1 Stufflebeam

„Educational evaluation is the process of delineating, obtaining, and providing useful information for judging decision alternatives.“ (Stufflebeam 1972, S. 43)

Diese Definition enthält bereits die wichtigsten Elemente der Evaluation: Planung, Datenerhebung, Informationsbereitstellung und Beurteilung von Entscheidungsmöglichkeiten. Auf Basis dieser Definition hat Stufflebeam das CIPP-Modell entwickelt (vgl. Kapitel 1.4.2).

1.2.2 Scriven

Scriven definiert Evaluation als:

„a judgement of value, worth and impact“ (Scriven 1974 in: Wesseler 1999, S. 737).

In der Auffassung von Scriven ist unter Evaluation jegliche Art der Festsetzung einer Sache zu verstehen - Evaluation ist demnach eine Beurteilung des Nutzens, des Wertes und der Auswirkungen.

1.2.3 Cronbach et al.

Cronbach et al. beschreiben Evaluation als:

„systematic examination of events occuring in and consequent on a contemporary program“ (Cronbach et al. 1980 in: Wesseler 1999, S. 737)

In dieser - wörtlich übersetzten - Definition „der systematischen Untersuchung von Geschehnissen während und infolge eines aktuellen Programms“ ist der Fokus auf das aktuelle Programm gerichtet. Darüber hinaus beschreibt Cronbach Evaluation als „Kunst des Möglichen“ (vgl. Cronbach 1982, S. 321f.): Seiner Meinung nach gibt es keinen festen Plan für eine Evaluation - Evaluatoren brauchen die Kompetenz, verschiedene Dimensionen praktischen Handelns und dessen Reflexion zu integrieren. Damit geht er von einem dynamischen Verständnis von Programmevaluation aus. Programm und Evaluation bilden demnach ein gemeinsames Experiment, in dem sie füreinander Anregungen bereithalten.

1.2.4 Rossi/Freeman

„Evaluation research is the systematic application of social research procedures in assessing the conceptualization and design, implementation, and utility of social intervention programms“ (Rossi & Freeman 1985 in: Wottawa, Thierau 1990, S. 9).

Rossi/Freeman betonen in ihrer Definition den Forschungsbegriff und beziehen Evaluation primär auf soziale Interventionsprogramme. Ihre Einstellung ist grundsätzlich sehr wissenschaftsnah - allerdings sind Evaluationen in der Praxis oftmals einfacher angelegt.

1.2.5 Kirkpatrick

Kirkpatricks Definition könnte als die eingeschränkteste (oder zielgerichtetste) bezeichnet werden:

„The reason for evaluating is to determine the effectiveness of a training program.“ (Kirkpatrick 1998, S. 3)

Seine Definition bezieht sich auf die Evaluation von Trainingsprogrammen in Unternehmen. Dieser Fokus zeigt sich auch in seinem auf der Definition aufbauenden vierstufigen Modell der Evaluation: 1. Reaction (Rückmeldung der Meinung zum durchgeführten Programm durch Teilnehmer und ggf. den Kursleiter), 2. Learning (Einschätzung des „Könnens“ - was wurde ge- lernt, inwiefern wurde eine Einstellungsveränderung herbeigeführt), 3. Behavior (Anwendung des Gelernten im Job - Transfer- Erfolg), 4. Results (konkrete Auswirkungen der Maßnahme wie Kostenreduzierung, Erhöhung der Qualität etc.). Dabei präferiert Kirkpatrick quantitative Verfahren, um die Vergleichbarkeit der Ergebnisse zu vereinfachen. Dieses Modell wurde von verschiedenen Autoren aufgegriffen - so auch von Schenkel (vgl. Kapitel 3.3.5).

1.2.6 Joint Committee

Das Joint Committee wurde 1975 in den USA gegründet und ist seit 1981 als Non- ProfitOrganisation mit Sitz im „Evaluation Center, Western Michigan University, USA“ mit der Entwicklung von Evaluationsstandards befasst.

„The systematic investigation of the worth or merit of an object“ (Joint Committee on Standards for Educational Evaluation 1999, S. 25).

Demnach ist Evaluation die systematische Untersuchung der Verwendbarkeit oder Güte eines Gegenstandes. Zur Systematisierung hat das Joint Committee verschiedene Evaluationsstandards herausgegeben, die alle fünf Jahre überarbeitet und angepasst werden: „The Student Evaluation Standards“ (Standards zur Evaluation von Lernenden), „The Programm Evaluation Standards 2“ (Standards zur Programmevaluation) und „The Personnel Standards“ (Standards zur Evaluation von Personal). Die Standards für Programmevaluation umfassen vier Hauptbereiche: 1. Nützlichkeit (Utility), 2. Machbarkeit (Feasibility), 3. Fairness (Propriety) und 4. Genauigkeit (Accuracy). Diese Standards wurden von verschiedenen anderen Evaluationsorganisationen übernommen bzw. an die lokalen Besonderheiten adaptiert, beispielsweise von der DeGEVal5.

1.2.7 Deutsche Autoren

Die Entwicklung in Deutschland ist eng verbunden mit der Entwicklung der Evaluationsforschung in den USA - allerdings wie bereits erwähnt mit einem gewissen „time lag“. Den Durchbruch des Begriffes Evaluation in der deutschen Erziehungswissenschaft gab es durch die Aufsatzsammlung von Wulf im Jahr 1972. Allerdings sieht Kuper in Deutschland nicht nur eine zeitverzögerte Kopie der Entwicklung in den USA, sondern verweist auch auf die in Deutschland stattgefundene bedeutsame Diskussion über Begleitforschung (Weishaupt 1980) und Handlungsforschung (Klafki 1975) (vgl. Kuper 2005, S. 36).

Feststellbar ist in jedem Fall eine große Definitionsvielfalt. Wottawa/Thierau verweisen daher darauf, dass es nicht sinnvoll ist, eine weitere Definition zu versuchen, sondern halten es für besser, die allgemeinen Kennzeichen wissenschaftlicher Evaluation herauszustellen (vgl. Wottawa, Thierau 1990, S. 9):

1. Es herrscht Konsens, dass Evaluation etwas mit „Bewerten“ zu tun hat.
2. Evaluation dient als Planungs- und Entscheidungshilfe und ist daher mit der Bewertung von Handlungsalternativen verknüpft.
3. Evaluation ist ziel- und zweckorientiert (Überprüfung praktischer Maßnahmen, dient zur Ver- besserung oder Entscheidung).
4. In der Wissenschaft besteht Konsens darüber, dass Evaluationsmaßnahmen auf aktuelle wissen- schaftliche Techniken und Forschungsmethoden zurückgreifen sollten.

Beywl schlägt folgende allgemeine Definition vor:

„Wissenschaftliche Evaluation bezeichnet die Summe systematischer Untersuchungen, die empirische, d. h. erfahrungsbasierte Informationen bereitstellen über den Wert eines (in der Regel sozialen) Gegenstandes, den Evaluationsgegenstand.“ (Beywl 1999, S. 31)

Dadurch ist die Evaluation klar von Bewertungen im Alltag abgegrenzt (wie beispielsweise dem bewertenden Betrachten eines Hotelzimmers). Auch ein Seminar- Blitzlicht ist demnach nur Evaluation, wenn es in einen Prozess systematischer Informationsgewinnung eingebunden ist.

Dieses Kriterium unterstreicht auch Reischmann mit seiner Definition:

„Evaluation meint

1. das methodische Erfassen und
2. das begründete Bewerten von Prozessen und Ergebnissen zum
3. besseren Verstehen und Gestalten einer Praxis-Maßnahme im Bildungsbereich durch Wirkungskontrolle, Steuerung und Reflexion.“ (Reischmann 2003, S. 18)

Reischmann verfolgt mit seinen Beiträgen zur Evaluation in der Erwachsenenbildung einen sehr praxisorientierten Ansatz, mit dem er Mut machen will, Evaluation einzusetzen. Allerdings sind daher auch seine Kriterien im Vergleich zu wissenschaftlich angelegten Forschungsmethoden recht unspezifisch, da Praxisorientierung im Vordergrund steht (beispielsweise wird als „Methode“ zur Dokumentation einer Seminar- Evaluation angeführt, ein Foto von der Pinnwand zu machen und auch der Hinweis auf die Notwendigkeit der weiteren Bewertung bleibt oberflächlich) (vgl. Reischmann 2003, S. 46).

Weitere in der deutschen Literatur häufig zitierte Definitionen über Evaluation finden sich bei Gerl 1983 und Tietgens et al. 1986 (vgl. auch Kapitel 1.6.1).

1.2.8 Zusammenfassung Definitionen

Zusammenfassend ist festzustellen, dass - über diese beschreibende Kategorisierung hinausgehend - keine der beschriebenen Definitionen als „die Zutreffendste“ herausgestellt werden kann, da alle - im jeweiligen Anwendungskontext - ihre Berechtigung nachweisen können. Eine weitergehende Bewertung erscheint daher wenig sinnvoll.

Wottawa hat die Diskussion um eine allgemeingültige Definition aus meiner Sicht treffend als „systematisches Bewerten von Handlungsalternativen“ zusammengefasst. Er stellt des Weiteren fest, dass „alle darüber hinausgehenden Einschränkungen oder Hervorhebungen verschiedener Aspekte [...] in Abhängigkeit vom jeweiligen Tätigkeitsfeld und den Schwerpunkten der jeweils dort tätigen 'Evaluatoren'“ erfolgen (Wottawa 2001, S. 650).

1.3 Verortung des Evaluationsbegriffes

In der Literatur findet man im Bereich der Evaluation keine eindeutige Abgrenzung der verwendeten Begriffe: Evaluation und Evaluationsforschung werden teilweise synonym, in anderen Fällen wiederum abgrenzend verwendet. Evaluation selbst wird einerseits rein praxisorientiert interpretiert und andererseits sogar im Bereich der wissenschaftlichen Grundlagenforschung angesiedelt. Diese Aspekte - und der Beitrag der Wissenschaft zur Evaluation - werden im Folgenden differenziert.

1.3.1 Wissenschaft und Evaluation

Wissenschaft will logisch schlüssige Aussagen über Regelmäßigkeiten hervorbringen, die idealer- weise empirisch bestätigt sind. Sie orientiert sich dabei an den Prinzipien „Universalismus“, „Kommunismus“, „Uneigennützigkeit“ und „Organisierter Skeptizismus“ (vgl. Kuper 2005, S. 39). Für praktisches Wissen gibt es keine entsprechenden Prinzipien, da die Genese und die Bewährung dieses im Alltag verankerten Wissens der „Prämisse gelingenden Handelns“ folgen (Kuper 2005, S. 40).

Bei der Evaluationsforschung treten die Differenzen dieser beiden Ebenen hervor, da jede wissen- schaftliche Prüfung auf Wahrheitsgehalt Zeit erfordert, die bei in der Praxis durchgeführten Evaluationsprojekten oft nicht vorhanden ist. Die Absicherung von praktischen Entscheidungen braucht meist zweifelsfrei kommuniziertes Wissen, während die Wissenschaft auf Wahr- scheinlichkeit beruhendes Wissen hervorbringt. Darüber hinaus ist das alltagsweltlich gebundene Wissen auf vielfältige Weise mit Unwägbarkeiten wie normativen Erwartungen und implizitem Wissen durchsetzt - in der Wissenschaft gilt demgegenüber nur explizit Formulierbares und Beobachtbares als wahrheitsfähig.

Suchman sieht allerdings in methodischer Hinsicht keine Differenz zwischen der Grundlagen- und der Evaluationsforschung, da beide Typen Forschungsdesigns zur Datensammlung und - analyse anwenden, die auf der Logik wissenschaftlicher Methoden basieren (vgl. Kuper 2005, S. 41 nach Suchman). Die Differenz wird nach Suchman nur durch den Entstehungskontext der Frage sichtbar. Er schränkt dieses jedoch selbst ein und sieht das Themenspektrum der Evaluationsforschung enger angelegt: Wissen im Kontext von Evaluation soll nur die Folgen und Umstände geplanten Handelns begründen.

Andere Autoren sehen deutlichere Differenzen zwischen der Grundlagenforschung undEvaluations- forschung. So schreibt Künzel im Internationalen Jahrbuch der Erwachsenenbildung 1999:

„(Sozial-)wissenschaftliche Forschung ist an Erkenntnisgewinnung größtmöglicher Geltung (im empirischen Raum) und Zustimmungsfähigkeit (im diskursiven Raum der 'scientific community') interessiert, Evaluation hingegen richtet sich aus am Leitbild der Optimierung von Praxis, wie sie sich in der Einschätzung der Evaluationsbeteiligten und -betroffenen darstellt.“ (Künzel 1999, S. 22)

Reischmann spricht dazu im Bereich Evaluation von einer „praxisorientierten Bescheidenheit“ (vgl. Reischmann 2003, S. 29): Im Gegensatz zu einem Forscher, der allgemeine Aussagen machen will, ist man in der Evaluationspraxis bereits zufrieden, wenn Aussagen über einen kleinen Teilbereich gemacht werden können. Außerdem ist anzuführen, dass Evaluation vom Grundgedanken her bewerten muss, Forschung dieses im Gegensatz dazu nicht darf bzw. nicht sollte.

In der Abgrenzung zur Forschung werden in der praktisch durchgeführten Evaluation die Untersuchungsdesigns weniger aufwändig, man braucht eine geringere Stichprobengröße und es reichen beispielsweise Gedächtnisprotokolle statt Transkripte.

1.3.2 Evaluation als eigene Disziplin

Eine Disziplin ist nach Kuper eine

„institutionelle Form der Wissenschaft, mit der Diskussionen auf Bezugsprobleme, Themen und Methoden ausgerichtet werden. Sie bildet einen intellektuellen Rahmen, in dem über die Akzeptanz von Diskussionsbeiträgen entschieden werden kann.“ (Kuper 2005, S. 48f.)

In den USA und in anderen Staaten des angelsächsischen Sprachraums gilt der Bereich Evaluation als eigenständige, interdisziplinäre wissenschaftliche Vorgehensweise. In Deutschland befindet sich die Diskussion darüber noch am Anfang, allgemein wird jedoch trotz einer Annäherung weiterhin die Meinung geteilt, dass Evaluation nicht als eigenständige wissenschaftliche Disziplin zu bezeichnen sei: Bortz/Döring streiten der Evaluation die Eigenständigkeit komplett ab, Wottawa/Thierau verweisen darauf, dass das Rollenverständnis des Evaluators im Widerspruch zu Ansprüchen der wissenschaftlichen Forschung stehe. Auch Bortz schließt sich dieser Meinung an und teilt die Auffassung „vieler Evaluationsexperten, die in der Evaluationsforschung ebenfalls keine eigenständige Disziplin sehen, sondern eine Anwendungsvariante wissenschaftlicher Forschungsmethoden auf eine spezielle Gruppe von Fragestellungen“ (Bortz et al. 2003, S. 101).

Kuper sieht zwei hinderliche Bedingungen für die Entwicklung von Evaluation als eigenständige Disziplin: die institutionelle Form der Evaluation (entstanden aus verschiedensten Kontexten zur Bearbeitung praktischer Entscheidungsprobleme) und die Praxisorientierung. Durch den Bezug der Evaluation zur praktischen Anwendung werden sehr komplexe Zusammenhänge fixiert. Eine Isolation von einzelnen Fragestellungen (wie in der Wissenschaft üblich) ist kaum möglich (vgl. Kuper 2005, S. 49-50).

Obwohl sich die beiden wissenschaftlichen Konzepte „Forschung“ und „Evaluation“ vielfach berühren, ist eine Abgrenzung aus diesen Gründen sinnvoll.

1.3.3 Evaluation und Evaluationsforschung

Die Begriffe Evaluation und Evaluationsforschung werden in der Literatur sehr uneinheitlich gebraucht, obwohl Suchman bereits 1967 eine klare Abgrenzung der beiden Begriffe vorgeschlagen hat. Er bezeichnet Evaluation als:

„Prozeß der Beurteilung des Wertes eines Produktes, Prozesses oder eines Programmes, was nicht notwendigerweise systematische Verfahren oder datengestützte Beweise zur Untermauerung einer Beurteilung erfordert.“ (Wottawa, Thierau 1990, S. 9 nach Suchman 1967)

Demgegenüber definiert er Evaluationsforschung („Evaluation research“) als:

„explizite Verwendung wissenschaftlicher Forschungsmethoden und -techniken für den Zweck der Durchführung einer Bewertung. Evaluationsforschung betont die Möglichkeit des Beweises anstelle der reinen Behauptung bezg. des Wertes und Nutzens einer bestimmten sozialen Aktivität.“ (Wottawa, Thierau 1990, S. 9 nach Suchman 1967)

Diese Unterscheidung zwischen Evaluation und Evaluationsforschung teilen weitere Autoren wie Lüders (vgl. Lüders 2006). Andere Autoren wiederum verwenden die Begriffe synonym (vgl. Kuper 2005, Stockmann 2004a). Die Einordnung beider Begriffe - im Bezug zum dritten Begriff der Grundlagenforschung - erläutert das folgende Schaubild:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: Einordnung von Evaluation und Evaluationsforschung

Nicht nur über die Unterscheidung der Begriffe, sondern auch über die genaue Bedeutung des Begriffes der Evaluationsforschung lässt sich eine fachliche Diskussion feststellen. So sehen einige Autoren den Begriff Evaluationsforschung im Bereich der Praxis mit einer Tendenz zur Wissenschaft (z. B. durch die Verwendung wissenschaftlicher Methoden) (vgl. u. a. Wottawa, Thierau 1990, S. 9). Lüders sieht die Evaluationsforschung demgegenüber im Bereich der Wissenschaft als „besondere Form der sozialwissenschaftlichen Forschung“ (Lüders 2006, S. 48).

Ohne diesen Bereich der wissenschaftlichen Diskussion im Rahmen dieser Arbeit weiter zu vertiefen, sind aus der Begriffsklärung folgende Schlüsse zu ziehen:

1. Evaluation ist eher an der Praxis orientiert und daher von der wissenschaftlichen Grundlagenforschung abzugrenzen.
2. Unter folgendem Aspekt ist auch die Abgrenzung von Evaluation und Evaluationsforschung in jedem Fall sinnvoll:

„Mit dem Begriff Evaluationsforschung soll zum Ausdruck gebracht werden, daß Evaluationen wissenschaftlichen Kriterien genügen müssen, die auch sonst für empirische Forschungsarbeiten gelten - eine Position, die keineswegs durchgängig in der Evaluationsliteratur geteilt wird.“ (Bortz et al. 2003, S. 102)

Auch Wesseler stützt diese sprachliche Differenzierung mit einem Verweis darauf, dass der Begriff Evaluation oftmals entscheidungsorientiert als Management- Instrument verwendet wird (vgl. Wesseler 1999, S. 737). Eine Verwendung in diesem Kontext steht oftmals im Kontrast zu den wissenschaftlichen Kriterien der Objektivität. Dieser Kontrast verweist zusätzlich auf die oftmals explizit oder implizit vorhandene politische Dimension von Evaluation, die im Rahmen dieser Arbeit allerdings nicht weiter erläutert werden kann.

Der Begriff Evaluationsforschung macht deutlich, dass die Evaluation trotz der Hinwendung zur Praxis Regeln zur Erhebung, Auswertung und Interpretation einhalten muss, um sinnvolle Ergebnisse hervorzubringen und nicht an Anerkennung zu verlieren. Dabei kann die Wissenschaft nach Wottawa wichtige Beiträge in der wissenschaftlichen Ausbildung von Evaluatoren (fachliche Kompetenz, Methodenwissen, Objektivität) und zur Theoriebildung (z. B. methodisch, ethische Fragen) liefern (vgl. Wottawa 2001).

1.4 Klassifizierung von Evaluation

Im Folgenden werden einige weitere wichtige Begriffe im Zusammenhang mit Evaluation aufgeführt und erläutert. In der Fachliteratur wird Evaluation unter verschiedensten Aspekten behandelt. Im Rahmen dieser Arbeit ist allerdings keine umfassende Wiedergabe möglich und es werden Aspekte vorgestellt, die für das Grundverständnis von Evaluation sowie den weiteren Verlauf der Arbeit für wichtig erachtet werden.

1.4.1 Aufgaben und Ziele von Evaluation

Wie bereits erwähnt werden bei der Evaluation im Unterschied zu anderen wissenschaftlichen Tätigkeiten Beurteilungen und Bewertungen bewusst angestrebt. Evaluation ist in den meisten Fällen auch eine „öffentliche“ Tätigkeit: Die Verfahren und Ergebnisse müssen auch „Außen stehenden“ (betroffene Lernende, politische Auftraggeber) transparent gemacht werden.

Aufgaben von Evaluation können sein: die Auswahl eines passenden Programms, die bessere Feinsteuerung von laufenden Programmen, Steuerung von (ggf. untergebenen) Mitarbeitern oder der Nachweis des Wertes eines Programmes (z. B. beim Erhalt von Fördermitteln). Zurückführen lassen sich diese Aufgaben auf die drei Funktionen von Evaluation:

- Steuerungs- und Optimierungsfunktion (Verbesserung)
- Bewertungs- und Beurteilungsfunktion (Rechtfertigung/Legitimierung)
- Kontroll- und Disziplinierungsfunktion (Überwachung) (vgl. Will et al. 1987, S. 20ff.)

Als Evaluationsobjekte sind dabei - nach Beywl - aufzuführen (vgl. Beywl 1999, S. 31):

- Politiken oder Politikfelder (policies)
- Programme (im Sinne von: „Bündel von Maßnahmen“ - der outcome wird gemessen. Dies betrifft verschiedene Ebenen: Makroebene, Mesoebene, Mikroebene.)
- Organisationen (Organisationsevaluation, z. B. Schulentwicklungsforschung als formativer Ansatz)
- Personen: Produzenten/Nutzer von Humandienstleistungen (z. B. Lehrer, bei Schülern Evaluation nahe an Leistungsbeurteilung)
- Produkte: ähnlich einem Warentest, aber mit Fokus auf die pädagogische Dimension
- komplexe Medien- /Materialkombinationen wie Lernsoftware oder andere Selbstlernmedien (als individualisierbares Lehr- /Lernprogramm auf (Sub- )Mikroebene zu kategorisieren)

Die von Wottawa/Thierau aufgeführten Evaluationsobjekte stimmen mit der Liste von Beywl nahezu überein, allerdings nennen sie explizit noch die Evaluationsobjekte Umwelt- /Umgebungs- faktoren, Techniken/Methoden, Zielvorgaben, Systeme/Strukturen, Forschungsergebnisse/ Evaluationsstudien, die bei Beywl - wenn überhaupt - nur implizit erwähnt sind (vgl. Wottawa, Thierau 1990).

Die Wirkungen der Evaluationsergebnisse (durch Diskussion/Rezeption) standen lange Zeit im alleinigen Fokus. Allerdings hat sich gezeigt, dass auch dem Evaluationsgeschehen selbst eine Wirksamkeit zuzuschreiben ist: Schon die reine Ankündigung einer Evaluation kann zu Veränderungen führen - im positiven und/oder negativen Sinne. Der Evaluationsprozess hat oft eine direkte Einwirkung auf die Praxis der Programme sowie auf die Einstellungen und das Verhalten von Lehrenden und Lernenden. Evaluation ist daher immer auch Intervention.

1.4.2 Gegenstände

Zu der Frage nach den wesentlichen Gegenständen von Evaluation im Bildungsbereich hat sich ein allgemeiner Konsens über die Einteilung von Stufflebeam (1971) herausgebildet, die von Windham (1988) weiter differenziert wurde:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2: CIPP- Modell (vgl. Wesseler 1999, S. 739)

Das CIPP- Modell geht auf Stufflebeam zurück und wurde in der ersten Form 1966 entwickelt. In Anlehnung an allgemeine Systemmodelle unterscheidet es die vier Teilelemente „context evaluation“, „input evaluation“, „process evaluation“ und „product evaluation“. Später wurde die „product evaluation“ weiter differenziert in Evaluation von „output“ und „outcome“. Das CIPP- Modell kann als sehr verbreitet unter den management- orientierten Evaluationsansätzen betrachtet werden. Als Rahmenmodell zur Steuerung der Evaluation kann es dabei helfen, alle relevanten Faktoren im Kontext des Evaluationsgegenstandes bei der Evaluation zu berücksichtigen.

Der Kontext umfasst soziale, kulturelle und ökonomische Rahmenbedingungen, „Kulturen“ der beteiligten Institutionen und das politische Klima. Input meint nicht nur materielle, finanzielle Ressourcen, sondern auch beispielsweise Eingangsqualifikationen der Programmteilnehmer, Kompetenzen der Lehrenden, übergreifende Zielvorgaben und Planungsverfahren sowie vorgegebene curriculare Elemente. Unter Process werden didaktische Medien, Methoden und Arbeitsformen, Informations- und Kommunikationsstrukturen, Beziehungen zwischen Beteiligten (Lehrenden, Lernenden), mögliche Interventionen von außen u. ä. verstanden. Output (Ergebnisse) sind alle kurzfristig beobachtbaren Resultate (ob beabsichtigt oder nicht - diese können sogar im Widerspruch zu Zielvorgaben stehen). Der Output ist nicht nur auf unmittelbare Lernresultate der Programmteilnehmer einzugrenzen, sondern umfasst ggf. auch institutions- politische Ergebnisse oder Einstellungsveränderungen bei den Lehrenden. Längerfristige Folgen der Ergebnisse werden als Outcome/Impact (Wirkungen) bezeichnet. Das kann die tatsächliche Anwendung des Gelernten sein oder die Auswirkungen auf die Karriere, auf das Einkommen der Lernenden („tracer studies“) oder auch soziale, kulturelle bis hin zu politischen Auswirkungen eines Programmes.

Dabei ist die Evaluation nicht auf jeweils eine Komponente dieses Modells begrenzt, auch das Zusammenspiel kann betrachtet werden, wie beispielsweise bei der Fragestellung, inwiefern ein spezifisches didaktisches Vorgehen die spätere nachhaltige Anwendung des Gelernten verhindert oder unterstützt.

1.4.3 Methoden, Modelle und Verfahren

Evaluationsmodelle sind ein

„Bündel deskriptiver, präskriptiver und/oder normativer Aussagen zu Bedingungen, Wirkungen und/oder Umsetzungsvarianten von Evaluation, die optimalerweise auf theoretischen und empirischen Ergebnissen der Evaluationsforschung basieren.“ (Hense 2006)

Modelle oder Sichtweise von Evaluation gibt es in verschiedensten Formen (vgl. u. a. Wesseler 1999, S. 740; Reischmann 2003, S. 105ff.):

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 1: Exemplarische Auflistung verschiedener Evaluations- modelle

Diese Modelle sind in der praktischen Anwendung vielfach vermischt. Der jeweilige Kontext der Evaluation beeinflusst die Entscheidung für eines oder mehrere dieser Modelle. Unter den meisten Vertretern der genannten Ansätze und in der Evaluationsforschung ist man sich weitgehend einig, dass derzeit noch kein Evaluationsmodell vorliegt, das den Status einer umfassenden Evaluations- theorie erreicht.

1.4.3.1 Formative und summative Evaluation

Die Unterscheidung zwischen formativer und summativer Evaluation nach Scriven wird innerhalb der zahlreichen unterschiedlichen Modellansätze am häufigsten verwendet.

Die formative Evaluation wird während einer Maßnahme durchgeführt und stellt vor allem Informationen für noch in der Vorbereitungs- oder Implementierungsphase befindliche oder laufende Programme bereit, die verbessert werden sollen. Die summative Evaluation findet nach einer Maßnahme Anwendung. Sie stellt Qualität und Einfluss bereits stattgefundener Programme fest und bewertet diese abschließend.

„When the cook tastes the soup it is formative evaluation and when the guest tastes the soup it is summative.“ (Scriven 1991a, S. 19)

Auch wenn dieses Beispiel die Rolle des Evaluators vernachlässigt, zeigt es sehr gut die zeitlichen, sozialen und sachlichen Differenzen der beiden Evaluationstypen: Die Rolle des Evaluators bei der formativen Evaluation ist die eines Beraters bei der Gestaltung und Durchführung eines Programms. Bei der summativen Evaluation ist er Urteilender, der ein Programm abschließend bewertet. Gerade summative Evaluation folgt meist dem traditionellen dezisionistischen Evaluationsverständnis. Kritik an diesem Modell kommt daher aus dem Bereich der naturalistischen (z. B. responsiven) Evaluation: Informationen gehen meist direkt in „die Chefetage“ und festigen Autoritäten, was die Kluft zwischen den „Wissenden“ und „nichtwissenden“ Ausführenden vergrößert. Zudem wird kritisiert, dass der Fokus oftmals auf quantifizierbaren Ergebnissen liegt und andere wichtige Ergebnisse oft ignoriert werden.

In diesem Zusammenhang wird an verschiedenen Stellen auch die diagnostische Evaluation („ex ante“) erwähnt, die vor Programmbeginn stattfindet (z. B. als Machbarkeitsstudie). Die summative Evaluation wird demgegenüber folglich auch als „ex post“ bezeichnet.

1.4.3.2 Interne und externe Evaluation

Die Unterscheidung zwischen interner und externer Evaluation basiert darauf, wer die Evaluation durchführt: Stammt der Evaluator nicht aus dem Team/der Institution (Unternehmen/Bildungs- anbieter), so wird von externer Evaluation (oder auch Fremdevaluation) gesprochen. Wird die Evaluation von den Verantwortlichen einer Maßnahme selbst durchgeführt, wird diese als interne Evaluation (oder auch Selbstevaluation) bezeichnet.

Dazu gibt es verschiedene Meinungen: In der streng empirischen Forschung gilt es methodisch als falsch, wenn jemand, der selbst im Feld engagiert ist, auch misst und bewertet. Dem widersprechen allerdings Forschungstraditionen wie die Handlungsforschung. Demnach kann beispielsweise postuliert werden, dass nur der, der im jeweiligen Feld selbst engagiert ist, auch erkennen kann, was in diesem Bereich wirklich wichtig ist.

1.4.3.3 Quantitative und qualitative Evaluation

Quantitative und qualitative Evaluation werden oft als komplett gegensätzlich dargestellt. Beschreibungen von Gegensätzen sind zwar plausibel und zur Erklärung hilfreich, sie können aber nicht als eindeutige Definition herangezogen werden.

Beschreibungen wie „quantitative Forschung dient dem Erklären - qualitative Forschung dient dem Verstehen“ können ebenfalls keine eindeutige Definition liefern, denn auch bei der Interpretation von quantitativen Daten wird versucht, einen Sinn auszumachen und „zu verstehen“. Häufig verwendete Etikettierungen, dass quantitative Forschung hypothesenprüfend sei, qualitative Forschung demgegenüber hypothesengenerierend sei, bezeichnet Kuper als „über- holt“ und schlägt eine pragmatische Unterscheidung vor: Die Differenz liegt in der Daten- produktion und - auswertung. In der quantitativen Forschung oder Evaluation geht es um die Messung von Merkmalsausprägungen - mit statistischen Verfahren der Datenauswertung. In der qualitativen Forschung sind die Datengrundlage meist schriftliche Daten oder auch bildhafte Daten, die interpretativ/verstehend analysiert werden (vgl. Kuper 2005, S. 142f.). Diese beiden Forschungs- und Evaluationsmethoden werden oft gegenübergestellt. Lange Zeit konnte man daran eine scharfe Kontroverse und Paradigmenbildung in der sozialwissenschaftlichen Methodologie ausmachen. Bis zum Positivismusstreit6 dominierten quantitative Forschungs- methoden, in der Nachfolge dessen fand eine Neuausrichtung in Richtung qualitativer Methoden statt.

Kritisiert wurde bei der quantitativen Ausrichtung die Selektivität der Erkenntnismittel, die Reduktion auf Messbares, die Verobjektivierung subjektiver Kompetenz der Gestaltung von Lebenswelten durch Sozialforschung und die vermeintliche Objektivität standardisierter Forschungsmethoden.

Allerdings gibt es auch kritische Einschätzungen von qualitativen Verfahren:

„qualitativ ist der Verzicht auf alle zählenden bzw. rechnenden Verfahren, es verbleiben subjektive Interpretationen und Verstehenserlebnisse, etwa vergleichbar mit der Interpretation von Kunstwerken (s. etwa Dilthey, 1896).“ (Wottawa, Thierau 1990, S. 135)

Dass qualitative Analysen keinesfalls nur subjektiv und beliebig interpretativ sind, wird im Kapitel 1.4.3.3.2 dargelegt.

1.4.3.3.1 Quantitative Methoden

In der quantitativen Forschung wird mit numerischen Werten gearbeitet. Diese Werte sind das Ergebnis der Anwendung von Verfahren des Messens, wobei die einfachste Form des Messens das Zählen ist. Um Zählen zu können, bedarf es allerdings vorher einer Klassifikation der zu zählenden Objekte. Auch über die vorherige Klassifikation hinaus beinhaltet das Messen aber weit mehr als nur Zählen. In der repräsentationalen Messtheorie sind empirische Relative der Ausgangspunkt - das sind Mengen von Objekten und die Relationen dieser Objekte untereinander. Man geht davon aus, mit einer Messung dieser Relationen Informationen über Eigenschaften der Objekte - und damit Antworten auf die Forschungsfrage zu bekommen:

„Messungen basieren auf begrifflichen Vorüberlegungen, die der Beschreibung von Eigenschaften (Qualitäten) bestimmter Objekte dienen. Die Information dieser Beschreibung mit möglichst geringem Verlust numerisch zum Ausdruck zu bringen, ist der daran anschließende zweite Schritt.“ (Kuper 2005, S. 123)

Forschungsmethodische Planung

Bei der forschungsmethodischen Planung von Evaluationsprojekten ist in Abhängigkeit von der Forschungsfrage und den zu erhebenden Daten zu entscheiden, welche Skalenniveaus zur Auswertung verwendet werden: Nominalskalen, Ordinalskalen, Intervallskalen, Verhältnisskalen. Diese unterscheiden sich in ihrer Informationshaltigkeit, wobei Informationshaltigkeit nicht mit Messgenauigkeit zu verwechseln ist.

Verfahren der Datenerhebung

Es gibt in der erziehungswissenschaftlichen Praxis zwei gängige Verfahren der Datenerhebung: Die Messung von Einstellungen (Befragung) und Tests.

Befragungen können mündlich oder schriftlich durchgeführt werden und eine hohe oder geringe Standardisierung aufweisen. Da es keine „wahren“ Antworten von befragten Personen gibt, richtet sich der das Augenmerk auf die „Wahrhaftigkeit“, mit der sich die Befragten äußern. In standardisierten Verfahren kann man dieses über Rating- Skalen ermitteln, in denen zu den Fragen jeweils ein Antwortspektrum, in dem gegenläufige Einstellungen abgebildet werden, vorgegeben ist. Um eine höhere Aussagekraft zu erreichen, können verschiedene manifeste Variablen abgefragt werden, die Rückschlüsse auf latente Variablen zulassen. Mit statistischen Verfahren lassen sich diese Übereinstimmungen auswerten - und auch die Reliabilität bewerten.

In Bezug zur Psychologie wird die Funktion von Tests aus Reiz- Reaktions- Schemata abgeleitet. Untersuchungsobjekte werden bei einem Test Reizen ausgesetzt, auf die Reaktionen erfolgen. Diese lassen Rückschlüsse auf die dispositionale Eigenschaft zu, da Testpersonen nur in Abhängigkeit dieser antworten können. Tests sind im Vergleich zu Befragungen daher restriktiver. Auch für die Auswertung von Tests (Lösungswahrscheinlichkeit der Items) sind verschiedene mathematische Verfahren entwickelt worden. Zum Vergleich der Testergebnisse greift man auf sozialnormorientierte7, ipsative8 und kriteriumsorientierte9 Vergleichsverfahren zurück.

Gütekriterien

Neben der methodisch sinnvollen Auswahl der entsprechenden Messmethoden und Skalen zur Auswertung gibt es darüber hinaus Gütekriterien, die Aussagen darüber zulassen, mit welcher Wahrscheinlichkeit die Ergebnisse die Realität abbilden („Wert“ und „Belastbarkeit“ der Daten). Dieses sind die Objektivität, die Reliabilität und die Validität:

Die Objektivität meint keine objektive Wahrheit, sondern fordert, dass die durch die Messung erzielten Ergebnisse unabhängig von der Person sein sollen, welche die Messung durchführt. Verschiedene Prüfer sollten bei einer gleich angelegten Messung zu gleichen Ergebnissen kommen. Die Reliabilität gibt die Zuverlässigkeit eines Messinstrumentes an. Dieses sollte bei wiederholter Anwendung die gleichen Ergebnisse produzieren. Die Validität bezieht sich auf die Aussagekraft des Messinstrumentes - misst es tatsächlich das, was es zu messen gilt? Die Bewertung der Validität wird idealerweise durch Gespräche mit Fachleuten (Expertenurteile) durchgeführt.

Während Objektivität und Reliabilität noch numerisch überprüfbar sind, muss sich die Validität an der Übereinstimmung der theoretischen Annahmen über die zu messenden Merkmale erweisen. Dabei kann man diese noch einmal in Inhaltsvalidität, Kriteriumsvalidität und Konstruktvalidität differenzieren. Die Bewertung der Validität kann sehr komplex sein, da in der Praxis der Evaluation nicht im Labor gearbeitet wird und nicht ausgeschlossen ist, dass Effekte ggf. nicht durch das Bildungsangebot entstanden sind, sondern durch andere Faktoren (wie beispielsweise Veränderungen durch historische Effekte, Maturation10, Testing, Instrumentation, Selektion, Mortality11, den Hawthorne- Effekt12 ) (vgl. Reischmann 1995, S. 52-54).

Stichproben und Datenauswertung

Um Schlussfolgerungen aus vorliegenden Daten ziehen zu können, müssen weitere Aspekte betrachtet werden: 1. Die Quelle, aus der die Daten gezogen werden können (Stichprobe), 2. Verbin- dung der empirischen Daten und erklärenden Theorien (Formulierung von Hypothesen) und 3. unterschiedliche Verfahren der statistischen Datenauswertung und die Interpretierbarkeit ihrer Parameter.

In den wenigsten Fällen kann die Grundgesamtheit13 ohne Einschränkungen im Test berücksichtigt werden. Daher werden Tests/Befragungen meist mit Stichproben durchgeführt. Damit die Ergebnisse möglichst aussagekräftig sind, sollten in der Stichprobe die untersuchungsrelevanten Merkmale so verteilt sein, wie in der Grundgesamtheit (Repräsentativität).

Der Auswahl der Stichprobe kommt somit eine sehr wichtige Bedeutung zu. Da vor der Untersuchung das Ergebnis naturgemäß nicht feststeht, wird zur Auswahl daher in den meisten Fällen auf das Zufallsprinzip zurückgegriffen. Wenn bereits Erkenntnisse vorliegen, auf die zurückgegriffen werden kann, kommen auch andere Methoden zum Einsatz (geschichtete Stichproben14 ), in jedem Fall ist eine willkürlich gewählte Stichprobe nicht sinnvoll. Auch hier gibt es bei der statistischen Auswertung Verfahren, um die Zuverlässigkeit der Schlussfolgerung von Befunden der Stichprobe auf die Population/Grundgesamtheit zu berechnen: Standardabweichung, Konfidenzintervall15 und Inferenzstatistik/Signifikanzprüfung.

1.4.3.3.2 Qualitative Methoden

Qualitative Evaluationsforschung kann man einfach formuliert definieren als Anwendung qualitativer Verfahren in einem Evaluationsprojekt“ (vgl. Lüders, Haubrich 2003, S. 309). Bei qualitativen Methoden werden beobachtete Handlungsmuster und Interaktionsprozesse auf Basis abgesicherter methodischer Verfahren interpretiert und gedeutet, um darüber Erkenntnisgewinn zu erlangen und Antworten auf Forschungsfragen zu finden.

Die qualitative Forschung orientiert sich an verschiedenen Prinzipien, die eine Abwendung von den Kritikpunkten an quantitativen Methoden bedeuten. Einige dieser Prinzipien lauten: Offenheit gegenüber dem Forschungsgegenstand und dem Forschungsablauf, Einschätzung von Forschung und Gegenstand als prozesshaft, das Augenmerk auf Explikation (Nachvollziehbarkeit sichern) und Flexibilität. Dabei werden die Perspektiven sozialer Akteure berücksichtigt und sie ist somit besonders anpassungsfähig an die Besonderheiten eines untersuchten Gegenstandes. Im Gegensatz zu einer statistischen Auswertung können dabei die Details eines Gegenstandes in feiner Auflösung herausgearbeitet werden. Damit bietet sich diese Methode - gerade auch im Kontext der im weiteren Verlauf erläuterten partizipativen (responsiven) Evaluation - besonders an, um Potenzial für die Aktivierung der von Evaluation betroffenen Personen und Institutionen freizusetzen.

Datenauswertung

„Die Datenauswertung der qualitativen Forschung - die Interpretation - kann als eine Methodisierung und Theoretisierung von Prozessen des Sinnverstehens und der Sinnkonstruktion beschrieben werden, die auch für alltägliche Kommunikation ausschlaggebend sind.“ (Kuper 2005, S. 143)

Auch wenn das Sinnverstehen hier von der alltäglichen Kommunikation abgeleitet wird, ist die methodische Fundierung deutlich betont. Somit widerspricht diese Definition deutlich dem - eine gewisse Beliebigkeit assoziierenden - Beispiel der „Interpretation eines Kunstwerkes“ (vgl. Kapitel 1.4.3.3).

Stichproben

Stichproben können - wie bei der quantitativen Evaluation - repräsentativ gewählt werden oder es werden bei der Ziehung von Stichproben die Einzigartigkeit bestimmter Fälle berücksichtigt. Durch Auswahl bestimmter Stichproben können bisherige Erkenntnisse ggf. differenziert werden. Eine gezielte Auswahl extremer oder kontrastierender Fälle bringt dann gewünschte Ergebnisse, wenn ein breites Spektrum von Kontextbedingungen mit einbezogen werden soll. Diese Art der Auswahl ist Teil der Forschungsstrategie und wird auch „theoretisches sampling“ genannt.

Datenerhebung

Die Datenerhebung bei der qualitativen Forschung erfolgt meist durch Interaktion - im Rahmen von Interviews (z. B. narratives16 oder problemzentriertes17 Interview) oder durch Beobachtung (Gruppendiskussion, teilnehmende Beobachtung). Dabei geht man davon aus, durch die Datenerhebung des Interviews einen Zugang zu „Sinndeutungen von Personen“ zu erhalten, die in einem Projekt oder Programm involviert sind (vgl. Kuper 2005, S. 152). Bei der Beobachtung begeben sich die Forscher „ins Feld“ des alltäglichen Handelns. Sie gewinnen damit einen „Zugang zum Handeln und den situativen Bedingungen des Handelns, der nicht über Selbstdeutungen der Akteure gebrochen ist“ (Kuper 2005, S. 152).

Beide Erhebungstechniken lassen eine intensive oder geringe Standardisierung zu. Bei geringer Standardisierung ist eine größtmögliche Offenheit gegenüber dem zu untersuchenden Objekt gegeben, bei der intensiven Standardisierung werden zuvor Interviewleitfäden festgelegt oder explizite Beobachtungsschemata formuliert.

Auswertung

Auswertung im Sinne der qualitativen Evaluationsforschung bedeutet Selektion und Reduktion, da den Grenzen der Verarbeitungskapazität Rechnung getragen werden muss. Als Auswertungsverfahren kommen hauptsächlich reduzierende Verfahren der Kodierung und Kategorisierung zur Anwendung. In diesem mehrstufigen Verfahren werden im Datenmaterial liegende Sinneinheiten identifiziert (kodiert) und kategorisiert. Bei der Auswertung ist einerseits die Offenheit für die sichtbaren/interpretierbaren Ergebnisse zu beachten sowie auf der anderen Seite die theoretische Fundierung von Sinninterpretationen.

Gütekriterien qualitativer Methoden

Wie für die quantitativen Methoden gibt es auch im qualitativen Bereich Möglichkeiten der Validierung. Eine „Absicherung“ der Ergebnisse stellt man beispielsweise durch kommunikative Validierung (Rückkoppelung von Forschungsergebnissen mit den Befragten), Triangulation (vgl. Kapitel 1.4.3.3.3), Validierung der Erhebungssituation und/oder authentische Verfahrens- dokumentation her.

Die Akzeptanz der Relativität von Forschungsergebnissen mündet nicht in eine Beliebigkeit der methodischen Durchführung von Forschung. Diese muss nachvollziehbar und theoretisch begründet sein und kann dann die spezifischen Vorzüge dieser Methode wie Offenheit und Flexibilität für die Praxis nutzbar machen:

„Interpretation heißt daher im Kontext der Evaluationsforschung, Alternativen der Gestaltung eines evaluierten Programms auszuloten.“ (Kuper 2005, S. 155)

Die hier beschriebenen Methoden zur Datenerhebung und Auswertung machen aus meiner Sicht eine starke Orientierung an der Grundlagenforschung deutlich. Der dabei zugrunde gelegte hohe Grad an Genauigkeit bringt auch einen hohen Zeitaufwand mit sich, so dass es in der Evaluations- praxis zu Spannungen kommen kann. Für die Anwendung in der Evaluationspraxis werden daher qualitative Methoden adaptiert (reduziert), was mit dem Begriff Abkürzungsstrategien bezeichnet wird (vgl. Flick 2006, S. 21f.). Außerdem können auch recht einfache qualitative Methoden zum Einsatz kommen, wie beispielsweise Fragerunden, Einzelgespräche und moderierte Gruppen- diskussionen.

1.4.3.3.3 Triangulation (Kombination der Methoden)

Der Begriff der Triangulation (von lat. „Triangulum“ - Dreieck) stammt eigentlich aus der Geometrie. In der empirischen Sozialforschung bedeutet dies, ein Objekt von mehreren Punkten aus zu betrachten. Als Strategie der Validierung eingesetzt werden dabei mehrere empirische Methoden parallel angewandt.

Formen von Triangulation sind die Datentriangulation, die Investigator-Triangulation (bei der die Daten von mehreren Beobachtern verglichen werden), die Theorien-Triangulation (bei der theoretische Modellannahmen und Hypothesen über den Forschungsgegenstand variiert werden) und die methodologische Triangulation (bei der die Erkenntnisse, die mit verschiedenen Methoden der Datenerhebung und - auswertung gewonnen wurden, verglichen werden) - wobei die letzte Methode am gebräuchlichsten ist.

Oftmals wird angenommen, dass durch die verschiedenen Perspektiven der Triangulation eine kongruente Darstellung des Forschungsobjektes möglich ist. Allerdings ist eher von einer dadurch entstehenden Multiperspektivität auszugehen, da es meist nicht gleiche Ergebnisse gibt, wenn beispielsweise verschiedene Forschungsmethoden angewandt werden. Jeder „Beobachterstandort“ hat seine eigenen theoretischen Annahmen, verwendet eigene Methoden und konstruiert somit den Gegenstand anders. Als Ergebnis gibt es kein einheitliches Bild, sondern eher das eines Bildes durch ein Kaleidoskop. Dies ist jedoch keinesfalls negativ zu sehen, sondern kann zu weiterem Erkenntnisgewinn führen (vgl. Kuper 2005, S. 157).

Unter den Aspekt der methodologischen Triangulation fällt auch die Kombination von qualitativen und quantitativen Methoden. Flick sieht dabei (nach Bryman 1992) bis zu 11 verschiedene Möglichkeiten der Kombination/gegenseitigen Bereicherung beider Methoden (vgl. Flick 2006, S. 16). Beispielsweise können die verschiedenen Aggregationsniveaus in der Datenauswertung ein besonderes Erkenntnispotential ergeben. Quantitative Daten ergeben Informationen auf der Makroebene, die vom Standpunkt einzelner Akteure in der Praxis nicht zu erschließen sind (z. B. Aussagen über Schulklassen, Zielgruppen eines Programms). Qualitative Daten ergeben Informationen auf einer detaillierten Ebene (Mikroebene), wie durch Personen und institutionelle Konstellationen beeinflusste spezielle handlungsrelevante Positionen.

1.4.3.4 Programmevaluation

Programmevaluation bezeichnet die Evaluation von Programmen oder Projekten. In der angloamerikanischen Literatur ist diese Evaluationsvariante zentral und die Begriffe Evaluation und Programmevaluation werden mehr oder weniger synonym verwendet.

Allgemein sind Programme in der Praxis der häufigste Evaluationsgegenstand. Dabei bezeichnet der Begriff „Programm“ - abweichend vom Alltagsverständnis - verschiedene Maßnahmen bzw. Aktivitäten, die, basierend auf bestimmten Ressourcen und in Ausrichtung auf bestimmte Ziel- gruppen, Ergebnisse (outcomes) zu erreichen versuchen. Ein Programm besteht dabei nicht nur aus dem festgelegten Plan oder Entwurf, sondern auch aus der Umsetzung in der Praxis. Programme gibt es auf verschiedenen Ebenen: Auf der Makroebene beispielsweise die AIDS- Präventions- programme der Bundeszentrale für gesundheitliche Aufklärung, auf der Mesoebene Maßnahmen im Bereich von Organisationen und auf der Mikroebene konkrete Unterrichtsmethoden oder Trainingsmaßnahmen (vgl. Beywl 1999, S. 39f.).

Nach Wesseler verschiebt sich der Fokus der Programmevaluation gerade auch in der Erwachsenenbildung immer mehr auf die Evaluation von Programmsystemen bzw. von Institutionen. Im Mittelpunkt stehen dann „facts and figures“, der Grad der Zielerreichung und die Ressourcen (wie viele Kursteilnehmer erreichen in der vorgesehenen Zeit die jeweiligen Programmziele - und wie hoch liegen die Kosten umgerechnet auf den einzelnen Teilnehmer) (vgl. Wesseler 1999, S. 743).

1.4.3.5 Responsive Evaluation

Die Responsive Evaluation ist ein partizipativer Ansatz, der - entgegen der externen Evaluation - unter Beteiligung der „Betroffenen“, der sogenannten „Stakeholder“ durchgeführt wird. Allerdings ist nicht jede intern durchgeführte Evaluation eine responsive Evaluation - dieser Ansatz geht über das normale Verständnis der internen Evaluation weit hinaus.

Als Begründer der responsiven Evaluation wird Robert Stake genannt, der mit diesem Ansatz insbesondere die Bedarfslagen und Informationsbedürfnisse der Akteure in den Vordergrund rücken will. Er wird als responsiv bezeichnet, da im Vorfeld kein Evaluationsdesign festgelegt, sondern im Prozess auf die sich jeweils ergebenden Erfordernisse reagiert wird. Kennzeichnend für die responsive Evaluation (nach Stake 1980) sind die folgenden Aspekte:

- Evaluation aus der Perspektive der Akteure („local stakeholder“)
- große Nähe zu Geschehnissen in konkreten Situationen des Alltags
- Akteure in der Position von Experten - sie verfügen aufgrund ihrer praktischen Erfahrungen über relevante Informationen und bedeutsames Wissen
- methodisch: wenig standardisierte Verfahren aus der qualitativen Sozialforschung (Fallstudie und Beobachtungen)
- Evaluator bekommt eine Moderatorenfunktion - trägt bei zur Rückkoppelung differenter Perspektiven der in die Praxis involvierten Gruppen

Beywl hat dieses Konzept für die deutschsprachige Diskussion adaptiert (Beywl 1988):

„Responsive Evaluation dient der Beschreibung und Beurteilung des Wertes eines Objektes, also seiner Verwendbarkeit für die Praxis und/oder seiner inneren Güte. [...] Die praktische Nützlichkeit soll dadurch sichergestellt werden, daß der Evaluationsprozeß durch die Anliegen und Konfliktthemen gesteuert wird, die durch die Beteiligten als Einsätze am Programm, Curriculum usw. gehalten werden.“ (Beywl 1988, S. 145)

Nach Beywl ist die responsive Evaluation konstruktivistisch, da sie Realität nicht nur beschreibt oder analysiert, sondern in einem gemeinsamen Prozess neu schafft, sie ist emergent, da sie nicht einem vorher festgelegten Untersuchungsplan folgt, sondern in prozesshafter Kommunikation zwischen Evaluatoren und anderen Beteiligten durchgeführt wird und sie ist responsiv („empfindlich“, „empfänglich“), da im Mittelpunkt die Anliegen und Konfliktthemen der beteiligten Gruppen stehen und die Evaluation darauf „antwortet“. Responsive Evaluation ist kein fertiges Modell, sondern ein Ansatz, auf dem verschiedene Modelle basieren. Auch Beywl hat auf Grundlage dieses Ansatzes einen konkreten Ablauf einer responsiv orientierten Evaluation vorgestellt (vgl. Beywl 1988, S. 224ff.). Dabei wird nach einer Identifizierung der Beteiligten- gruppen versucht, Anliegen und Konfliktthemen aufzudecken. Diese werden kategorisiert, um auf dieser Basis weitere Informationen zu beschaffen. Erst jetzt werden Fragestellungen und das Evaluationsdesign durch die Forscher formuliert. Idealerweise sollten diese Formulierungen wieder im Aushandlungsprozess mit den Beteiligten stattfinden. Neben den wichtigen Rück- meldungen bereits während der Evaluationsstudie wird das Ergebnis als „Feedback“ verfasst.

Nach Kuper ist das Ziel der responsiven Evaluation nicht die Generierung eines zusätzlichen (von außen herangetragenen) Steuerungswissens, „sondern der Explikation und Organisation des vorhandenen Wissens und somit der Stärkung von Selbststeuerungskapazitäten in pädagogischen Programmen“(Kuper 2005, S. 24).

Allerdings machen gerade die Fokussierung auf das Ziel im Evaluationsprojekt selbst und die geringe Verwendung von standardisierten Methoden eine externe Bewertung oder eine Vergleich- barkeit mit anderen Studien sehr schwierig. Auch wenn man sich freimacht von einem Wunsch nach messbaren Kriterien ist es bei einigen Projektberichten schwierig, Kriterien der Evaluation auszumachen und ein Projekt beispielsweise deutlich von einer Supervision zu differenzieren.

1.5 Zusammenfassung Evaluation

In dem vorhergehenden Kapitel wurden die Grundlagen von Evaluation ausführlich dargelegt: ausgehend von der historischen Einordnung, über Definitionen, den Versuch der Begriffsklärung und der Klassifizierung von Evaluation bis hin zur Darstellung von ausgewählten Evaluations- modellen.

An verschiedenen Stellen wurde die Paradigmenauseinandersetzung zwischen rationalistischer, empirisch-analytischer Evaluationsforschung (Scriven u. a.) und naturalistischer, handlungsorientierter Evaluationsforschung (Stake u. a.) deutlich. Kuper sieht diese Auseinandersetzung im gemeinsamen Problembezug zum Theorie- Praxis- Verhältnis allerdings weniger als eigenständige Paradigmen als vielmehr als Entscheidungsfälle, die von den Evaluatoren im jeweiligen Fall zu lösen sind. Auch Wottawa vertritt in Bezug zur Paradigmenauseinandersetzung eine pragmatische Sicht- weise, indem er feststellt, dass man nicht „unbedingt darüber nachdenken [muss], in welches 'Kästchen' der wissenschaftlichen Systematik das jeweilige Projekt paßt. Wichtig ist der Effekt, zumindest ein wenig zur Verbesserung realer Bedingungen beigetragen zu haben“ (Wottawa, Thierau 1990, S. 5).

1.6 Evaluation im Bereich Erwachsenenbildung

„Fast alle verantwortlich tätigen Personen in der Erwachsenenbildung - Dozenten, Kursleiter, Abteilungsleiterinnen etc. - stehen regelmäßig vor expliziten, aber nicht selten auch impliziten Evaluationsaufgaben. Dabei geht es im Regelfall um die Evaluierung eines Kurses oder eines Programms.“ (Wesseler 1999, S. 743)

Konkret führt Wesseler folgende Bereiche von Evaluation in der Erwachsenenbildung an (vgl. Wesseler 1999, S. 743):

- Lernleistungen der Teilnehmer (ggf. Prüfungen)
- Lehrleistungen der Dozenten (fachliche und kommunikative Performanz)
- Curricula bzw. Kursprogramme (Design und Durchführung)
- Absolventenverbleib (sogenannte „tracer studies“)
- Rahmenbedingungen, Ressourcen und Kontexte (Institutionen)

1.6.1 Geschichtliche Entwicklung

Wie schon für die Evaluation allgemein verdeutlicht, lässt sich auch im Bereich der Erwachsenen- bildung eine historische Entwicklung der Verwendung des Evaluationsbegriffes feststellen: Nach Wesseler ist im Sachregister des „Handbuches der Erwachsenenbildung“ (Pöggeler 1974- 1981) das Schlagwort „Evaluation“ nicht zu finden. Dort dominiert der Begriff „Kontrolle“ (vgl. Wesseler 1999, S. 741).

Auch Gerl verwendet 1977 in seinem Buch „Zur Systematik der Evaluation“ bei den aufgeführten Funktionen mehrfach den Begriff der „Kontrolle“ (vgl. Gerl 1977, S. 8). Darüber hinaus definiert er Evaluation (in „pädagogischen Zusammenhängen“) als „die ausdrückliche, auf empirische Belege gestützte Interpretation von Konzepten, Verläufen und/oder Ergebnissen von Lernprozessen“ (Gerl 1977, S. 2). Damit ist neben dem Aspekt der Messung bereits eine zusätzliche Dimension der Bewertung und Beurteilung angesprochen - mit dem Ziel, Entscheidungskriterien und Hand- lungsalternativen zur Verbesserung von Lehren und Lernen zu gewinnen. Pehl erweitert den Begriff 1983 auf einen anderen Teil des Berufshandelns - das Planungshandeln. Er stellt fest, dass Curriculumentwicklung in der Erwachsenenbildung zu dem Zeitpunkt ohne Evaluation nicht mehr denkbar ist (vgl. Gerl, Pehl 1983, S. 93ff.).

Im gleichen Band verwendet Gerl einen im Bereich der konkreten Interaktion (situations- und aufgabengerecht) verankerten Evaluationsbegriff. Damit trifft er das, was mit Evaluation gemeint war, als der Begriff in der Erwachsenenbildung eingeführt wurde:

„Evaluation sollen alle jene Handlungen heißen, die dazu dienen, den Grad der Reflexivität von oder in Lernsituationen zu erhöhen.“ (Gerl, Pehl 1983, S. 19)

Dabei bedeutet „Reflexivität in Lernsituationen“ ein absichtliches Sich- Selbst- Verändern, um die eigenen Handlungsmöglichkeiten zu differenzieren. Er stellt dazu verschiedene Evaluations- methoden vor, die ohne Aufwand in die Alltagspraxis übernommen werden können. Dabei ignoriert er keinesfalls andere Dimensionen von Evaluation (wie Forschungsorientierung, Selektion (von Teilnehmern), Legitimation (eines Verbandes oder einer Einrichtung)). Er setzt diese kurz in Bezug zu seiner Definition und stellt fest, dass diese sich keinesfalls ausschließen. Im Kontext der Entwicklung von Evaluationsverfahren zur Förderung der Lernarbeit erwachsener Teilnehmer geht Gerl jedoch von einem Primat der im engeren Sinne pädagogischen bzw. didaktischen Funktionen aus.

So sehen Gerl/Pehl Evaluation weniger im Sinne von Effizienz, sondern eher „altmodisch“ als Begriff der „pädagogischen Verantwortung“. Auch wenn eine Messbarkeit nicht immer gegeben ist, so sollte sich doch jeder in der Erwachsenenbildung Tätige „den Folgen seines Tuns vergewissern“ (vgl. Gerl, Pehl 1983, S. 9f.):

„Den Anstoß dazu gibt die Sorge um den Sinn des Tuns, nicht die Freude an den »stolzen« Ergebnissen.“ (Gerl, Pehl 1983, S. 10)

1986 leistet Tietgens mit seinem Werk „Aufgaben und Probleme der Evaluation in der Erwachsenenbildung“ einen wichtigen Beitrag zur Fundierung des Evaluationsbegriffes in diesem Bereich (vgl. Tietgens 1986). Tietgens, seinerzeit Direktor der Pädagogischen Arbeitsstelle des Deutschen Volkshochschul- Verbandes (PAS/DVV), möchte mit dem Band auf Basis der bisherigen Evaluationserfahrungen - aber in Distanz zur laufenden Arbeit - zur Evaluationsdebatte beitragen und die Frage nach Methoden von Wirkungsanalysen vertiefen.

Tietgens ordnet den damaligen aktuellen forschungsmethodischen Diskussionsstand ein in die Auswirkungen der Interventionsansätze der 1960er Jahre, die der Wirkungskontrolle bedurften. Dies verhalf der Evaluationsforschung als Steuerungsmittel zu hoher Bedeutung. Sie konnte aller- dings die hohen (und fragwürdigen) Erwartungen nicht erfüllen. Die dadurch entstandene Skepsis gegenüber den Sozialwissenschaften hat zu der Herausforderung geführt, Wissenschaftlichkeit zu beweisen und demzufolge zu einem Übergewicht der methodologischen Diskussion. Im Rahmen der Reformansätze der 1960er Jahre wurde nach Tietgens einerseits die Planungseuphorie (Deckung des Bedarfs, Effizienz der qualifikatorischen Zielsetzung) und auf der anderen Seite die Emanzipationsidee (Deckung der Bedürfnisse, Ausmaß der Identitätsstützung) in den Mittelpunkt gestellt, wodurch im Rahmen der Untersuchung von Interaktion ein reichhaltiges Feedback- Repertoire entwickelt wurde.

Als Vertreter des „Interpretativen Paradigmas“ hält Tietgens den Paradigmenstreit für überholt und präferiert eindeutig explorative Vorgehen. Er sieht darin Möglichkeiten, die Arbeit der Erwachsenenpädagogen zu verbessern, was sich nicht ergibt, wenn ein Befragter „auf Wunsch- listen etwas ankreuzt“ (Tietgens 1986, S. 17). Explorative Vorgehen sichern nach Tietgens eine Nähe zum Erfahrungshintergrund der Subjekte, bieten bei Wirkungskontrollen wesentlich mehr Aussagekraft als (quantitativ basierte) Erfolgskontrollen und passen eher als repräsentative Untersuchungen auf spezifische Zielgruppen und situationsgebundene Anlässe, die in der Erwachsenenbildung an der Tagesordnung sind. Während im traditionellen Wissenschafts- verständnis eher die Ergebnisevaluation (zur Überprüfung) vertreten wird, ist das Interesse der Erwachsenenbildung nach Tietgens eindeutig auf die Prozessevaluation (zur Beratung) ausgerichtet (vgl. Tietgens 1986, S. 24f.).

1.6.2 Die Entwicklung seit den 1990er Jahren

Der schon eingangs erwähnte Rückgang von Evaluation nach einem anfänglichen Boom lässt sich auch in der Erwachsenenbildung feststellen und so spielte Evaluation in diesem Bereich in den 1990er Jahren nur noch eine nachgeordnete Rolle. Zwar war Evaluation bis Ende der 1990er in den Schul- , Hochschul- und Weiterbildungsgesetzen genannt, aber nur in wenigen Ländern kodifiziert (vgl. Beywl 1999, S. 37). In den letzten Jahren hat die Bedeutung von Evaluation durch Veränderungen in den Rahmenbedingungen für die Arbeit pädagogischer Institutionen wieder stark zugenommen. So sind Fragen nach empirischen Belegen für Qualität, Bedarfsgerechtigket und Wirkungen, Erfolg, Effektivität und Effizienz pädagogischer Leistungen auch im Bereich der Erwachsenenbildung aktuell geworden.

Allerdings wird dieser aktuelle „Boom“ des Evaluationsbegriffes auch kritisch gesehen. Im Einführungstext zum Internationalen Jahrbuch der Erwachsenenbildung 1999 stellt Künzel folgende Thesen auf: Die neue Ausrichtung auf das Individuum und das informelle, selbst- organisierte Lernen resultiert aus der Ratlosigkeit der staatlichen Steuerungsinstanzen und „aus den politisch nicht verarbeiteten Veränderungen und Problemzuspitzungen unserer Lebenswelt“ (Künzel 1999, S. 20). Durch den Aufruf an alle Beteiligten von Weiterbildung, sich Prozessen der Evaluation zu unterziehen, wird kein eigener Wertschöpfungsbeitrag mehr geleistet, sondern es findet nur noch eine Festlegung, Messung und Kontrolle von Werten und Leistungen der Weiter- bildung statt. Bei der (in vielen Fällen) Konzentration auf die informelle Nachfrage per Frage- bogen, was sich denn die Mitarbeiter/innen oder potentiellen Teilnehmer/innen wünschen gibt es wenig Aussichten auf Erfolg (vgl. Künzel 1999, S. 20).

Neben methodischen Kritikpunkten (Überprüfung, ob es sich um wirkliche Bedarfserhebung handelt oder Überprüfung der Reliabilität und Validität) kritisiert Künzel den Fokus auf Evaluation, wenn diese Fokussierung nur im Kontext von Steuerungsinteressen der Bildungs- politik stattfindet. Positiv sieht er allerdings den Reflexivitäts- und Technologieschub, der der Weiterbildung dadurch „im Vorbeigehen“ versetzt wurde und zu „positiven Professionalitäts- folgen und zu einer deutlicheren Präsenz von Selbstkontroll- und Qualitätsanliegen geführt hat“ (Künzel 1999, S. 21).

Gieseke hinterfragt 2002 kritisch die Konjunktur der Evaluation als zentrales Maß von Bildungs- management und Qualitätssicherung. Sie stellt fest, dass aktuell ganze Organisationen und Konzeptionen untersucht werden - gestützt auf Qualitätsberatungssysteme und - management- konzepte und sieht zwei Entstehungskontexte von Evaluation (vgl. Gieseke 2002, S. 68f.):

1. Evaluation in Zeiten des Umbruchs (Reformen und Veränderungen)
2. Evaluation in Zeiten des Sparens (Forderung nach Optimierung)

Bei Evaluationen zum zweiten Aspekt gibt es verschiedene Intentionen: Meist sind diese auf Rationalisierung ausgerichtet - und schaffen es dabei nicht, Innovationen hervorzubringen (was gerade für etablierte Institutionen wichtig sein könnte). Auch Qualitätsmanagementkonzepte verfolgen nach Gieseke mehr den Rationalisierungsaspekt und sind mit der Schaffung neuer Ideen überfordert. Gieseke sieht aktuell in dem Bereich der Weiterbildung vier Typen von Evaluation:

- Systemevaluation zum Zweck von Spar- , Abbau- oder Umbaumaßnahmen
- Immanente Evaluation und Forschung zum Zwecke der Steuerung pädagogischen Handelns
- Evaluation zu Legitimationszwecken
- Evaluation in betrieblichen Transferprozessen zur Begleitung und Sicherung von Bildungsverwer- tung

Für die Weiterbildung ist dabei zu beachten, inwieweit Evaluation professionellen Vorstellungen von Bildung, Lernen und Lehr- /Lern- Arrangements folgt. Da eine starke Komplexitätssteigerung in den Alltags- und Lernanforderungen der Weiterbildungs- Teilnehmer zu verzeichnen ist, müssen sich Evaluationsaufgaben nach Gieseke mehr in den Dienst der jeweiligen Einzel- Lerner stellen (vgl. Gieseke 2002, S. 74).

1.6.3 Grundsätzliche Skepsis der Erwachsenenbildung

Zusätzlich zu den kritischen Aussagen von Künzel und Gieseke lässt sich in der Erwachsenenbildung eine grundsätzliche Skepsis konstatieren. So stellt Wesseler fest:

„In den Institutionen, die näher an der konkreten Programmarbeit operieren, findet sich jedoch nicht selten eine tiefe Skepsis gegenüber Evaluierungen [...].“ (Wesseler 1999, S. 741)

Wesseler führt als Gründe dafür den Zwiespalt zwischen Komplexität und Eindeutigkeit an. Bei Bildungsangeboten in der Erwachsenenbildung ist eine Polarität zwischen arbeitsmarkt- orientierten Programmen (oftmals betriebswirtschaftlich auf spezifische Qualifikations- vermittlung ausgerichtet) und Programmen zur Findung der eigenen Identität oder zur Unterstützung individueller Emanzipationsbemühungen festzustellen. Diese Polarität mit impliziten Widersprüchen macht eine eindeutige Erfassung der Qualität in der Erwachsenen- bildung nahezu unmöglich.

Hinzu kommt, dass die Beziehung zwischen Lehren und Lernen bei Erwachsenen nach Wesseler immer noch mit einer Black Box verglichen werden kann: Gute Lehre ist schlecht identifizierbar. So kann die Unzufriedenheit von Teilnehmern eines Bildungsangebotes beispielsweise an unzureichender Didaktik des Dozenten liegen, am Fehlen eines Curriculums, in der Heterogenität der Teilnehmer- Gruppe selbst, in einer unglücklichen Wahl der Kurszeit, an unklaren Materialien oder an einem destruktiven Interaktionsklima. Unter Umständen sind jedoch durch genau diese Faktoren konstruktive, tiefgreifende Lernergebnisse möglich (auch wenn diese in Differenz zu den Veranstaltungszielen stehen) und der letztendliche outcome für die Teilnehmer ist evtl. sogar sehr positiv. Ergebnisse der neueren Lernforschung haben nach Wesseler darüber hinaus nach- gewiesen, dass das eigene Bewusstsein der Lernenden über ihre Lernprozesse und deren Ergebnis- se sehr eingeschränkt ist. Auf diesem Hintergrund wird jede Evaluation, die eine exakte Qualitäts- messung eines Programmes vorgibt, in Frage gestellt (vgl. Wesseler 1999, S. 741). Eine defensive Position gegenüber Evaluation ist aus Sicht der Evaluierten verständlich, wenn derartige Projekte auch noch im Auftrag „von oben“ - unter Umständen sogar mit impliziten Kontroll- und Disziplinierungsintentionen - durchgeführt werden. Auch im Sinne von Qualitätssicherung hält Wesseler diese kritische Position für legitim:

„Die Komplexität der Erwachsenen- bzw. Weiterbildung kann nicht durch eindeutige Evaluierungen (Bildungs-Controlling [...] oder nach ISO9000) reduziert werden, ohne daß ihre besondere Qualität in Gefahr gerät.“ (Wesseler 1999, S. 742)

Wesseler sieht bei aller Skepsis aber auch die positive Herausforderung, mit dem Instrumentarium der Evaluation die Sicherung von Qualität anzustreben. Nachdem das normative Paradigma („Befragungsindustrie“, Lieferung objektiver quantifizierbarer Daten) nun weitgehend abgelöst wurde durch einen „interpretativen Ansatz“ (vgl. Tietgens 1986, S. 12) ist das Ziel nicht mehr, ein bestimmtes Wissen über ein Weiterbildungsprogramm zu beweisen, sondern „die wesentlichen Elemente in der komplexen Struktur einer spezifischen Qualität klarer verständlich werden zu lassen“ (Wesseler 1999, S. 742).

Die Auseinandersetzung um Validität verschiedener Evaluationskonzepte findet vor allem noch auf der Handlungsebene politischer Entscheidungen über Programme und Institutionen und im Bereich der Legitimation (z. B. von Modellversuchen) statt. Auf der Handlungsebene der Steuerung von Programmen und Programmsystemen (mit dem Ziel der Optimierung der Lehr- und Lernprozesse und deren Ergebnisse) hat sich eine größere Vielfalt von Evaluationsformen längst durchgesetzt. Nach Wesseler ist es wesentlich, das „Profil“ eines Programmes klar zu beschreiben und die Evaluationsverfahren danach auszurichten. Dabei kann Evaluation sogar dazu beitragen, auch ungewöhnliche und innovative Programme zu legitimieren.

1.6.4 Menschenbild der Erwachsenenbildung

Reischmann verweist darauf, dass Evaluation im Bereich der Erwachsenenbildung auf dem Menschenbild der Andragogik18 basiert (vgl. Reischmann 2003, S. 82ff.). Hintergrund aller Evaluationsansätze sind bestimmte Vorstellungen vom Lerner (die er als andragogische Anthropologie bezeichnet).

Nach Reischmann kann Evaluation (im Kontext von Tests) bei dem Lerner Erinnerungen an Prüfungen - und somit Angst - hervorrufen. Evaluation in diesem Kontext kann Einordnung einer Rangfolge von Personen hinsichtlich ihres Könnens, Disziplinierung (notwendig zur Erbringung guter Leistungen von Prüflingen) und Unterordnung (Prüfungen stabilisieren Ehrfurcht vor Lehrern - Machtposition) bedeuten und transportiert - in diesem Fall sehr deutlich - auch Intentionen.

Mit Verweis auf Rogers sieht Reischmann einen starken Zusammenhang zwischen der eigenen Grundeinstellung und dem pädagogischen Handeln. Die persönlichen Vorstellungen leiten uns demnach auch dann, wenn wir Evaluation betreiben. Neben dem eigentlichen Inhalt eines Bildungsangebotes wird dadurch weiterer Inhalt vermittelt. Demnach ist Evaluation als andrago- gisches und didaktisches Handeln zu sehen und die Vorstellung vom erwachsenen Lerner als „selbständig“ und „Verantwortung im Leben übernehmend“ schließt Evaluationsversuche aus, die Erwachsene unmündig behandeln (vgl. Reischmann 2003, S. 87). Evaluation darf „nicht unnötig

Bildungszeit verschenken, [...] verletzen, herabwürdigen und die Bereitschaft zum Weiterlernen, zur lebenslangen und lebensbreiten Bildung verringern oder gar beenden“ (Reischmann 1995, S. 55).

Diesbezüglich muss der Evaluator das eigene Vorgehen regelmäßig reflektieren. Fragen zur weiteren Reflexion könnten sein, wohin die Erwachsenenbildungsarbeit führen soll (andrago- gische Normativität) und an welchen Werten sich diese Arbeit orientiert (andragogische Ethik).

1.6.5 Evaluation und Qualitätsbegriff

In der aktuellen Diskussion wird im Kontext von Evaluation häufig der Begriff der Qualität verwendet. Die Verwendung dieses Begriffes in der Erwachsenenbildung ist nicht neu. Tietgens hat den Qualitätsbegriff erstmalig 1963 in der Erwachsenenbildungsliteratur ausgemacht: Dort sind in einem Entwurf für eine Selbstdarstellung des DVV19 „Qualitätsmerkmale“ fixiert worden (vgl. Tietgens 1999, S. 10). Der Qualitätsbegriff hatte damals aber noch eine etwas andere Bedeutung als aktuell:

„Dabei ist Qualität hier noch eine Eigenschaftsbeziehung, die nicht auf Wertung abzielt, sondern das jeweils Charakteristische herausstellen soll.“ (Tietgens 1999, S. 11)

Nach Tietgens wurde das Problemfeld der heutigen Qualitätsdebatte bereits in den 1970er und 1980er Jahren durch den Ruf nach Evaluation zu bearbeiten versucht. Im Gegensatz zu heutigen Untersuchungen erstrebte die Debatte damals allerdings klare „Wenn- Dann- Ergebnisse“.

Beywl sieht auf Seiten der Sozial- /Erziehungswissenschaft nach der „reflexiven Wende“20 durch die Konzentration auf qualitative Forschungen einen „Mangel an Methoden und Instrumenten zur praxisbezogenen Bearbeitung der vom politischen und ökonomischen System formulierten Anforderungen nach Qualitätsbeurteilung und - steuerung“ (Beywl 1999, S. 36). Daher wurden Elemente aus dem betriebswirtschaftlichen Bildungscontrolling und ingenieurswissenschaft- lichen Bildungscontrolling übernommen und es kam zur Einführung des „Qualitätsbegriffes“.

Die enge Verbindung des Evaluations- und des Qualitätsbegriffes wird auch an der Definition der Ebenen von Qualität von Hartkemeyer deutlich, der Begriffe analog zum CIPP- Modell verwendet: Input- Qualität, Durchführungs- Qualität und Output- Qualität (vgl. Hartkemeyer 1999, S. 40). Auch Faulstich sieht den eigentlichen Inhalt der Begriffe als nicht divergierend an:

„Die Diskussion um Qualität und - das ist der Begriff der siebziger Jahre - Evaluation von Lernen ist unversehens brisant geworden, da sie im Weiterbildungsbereich quasi als Scheidewasser für die Legitimation der Institutionen und für die Verteilung finanzieller Ressourcen benutzt wird.“ (Faulstich 1995, S. 41)

Allerdings haben sich die zu dem Zitat von Faulstich führenden Rahmenbedingungen geändert, da beispielsweise die Bestrebungen, die Ressourcen- Verteilung von einer Zertifizierung des Bildungsanbieters abhängig zu machen, nicht durchgesetzt worden sind. Folgt man den Herausgebern des „REPORT“ 43 im Jahre 1999, so gehörte das Thema „Qualität“ bereits damals seit fast einem Jahrzehnt zu den „hot topics“ der Erwachsenenbildung - sowie des gesamten Bildungsund Hochschulsystems (vgl. Nuissl et al. 1999, S. 7).

Auch Gnahs sieht den Beginn der aktuellen Qualitätsdebatte am Anfang der 1990er Jahre. Allerdings ist aus seiner Sicht nicht von einem „Modebegriff“ zu sprechen, da dieser weiterhin in der Debatte aktuell ist. Der Fokus hat sich allerdings mehr auf instrumentell- praktische Fragen verschoben und die „Aufregung“ um den Begriff hat sich gelegt (vgl. Gnahs 1999, S. 15). Ein wichtiger Begriff der Qualitätsdebatte ist sicherlich die DIN-Norm ISO9000ff. Anfangs von der einen Seite nahezu unreflektiert akzeptiert und von der anderen Seite ähnlich unreflektiert abgelehnt, hat sie nach Gnahs die „längst überfällige Qualitätsdiskussion in der Weiterbildung beschleunigt“ (Gnahs 1999, S. 16). Gnahs rechnet der Diskussion um Qualität einige Verdienste im Bereich der Weiterbildung an, verweist aber auf die Probleme der Anwendbarkeit, da sie sehr verfahrensorientiert ist und die inhaltlich- pädagogische Ausrichtung fehlt.

Das Bemühen um Qualität bezeichnet Schiersmann als den eigentlichen Kern pädagogischer Professionalität. Auf Anbieterseite äußert sich dieses durch die Einführung von Qualitäts- konzepten, Gütesiegeln etc. und aus Sicht des „Verbrauchers“ beispielsweise durch Checklisten für potenzielle Teilnehmer oder Tests durch Stiftung Warentest. Die Wissenschaft wird ihrer Ansicht nach in zweifacher Hinsicht durch die Qualitätsdebatte gefordert: Da sie kein allgemein gültiges Modell vorgeben kann, muss sie Kriterien entwickeln, anhand derer die Angemessenheit von Qualitätsmodellen überprüft werden kann. Des Weiteren fordert Schiersmann, dass die Wissenschaft den Fokus stärker auf die Frage richten soll, „was das Spezifikum pädagogischer Qualität sein könnte“ (vgl. Schiersmann 2002).

Allgemein lässt sich auch in der Qualitätsdebatte (wie schon bei der Evaluation) eine (sich annähernde) Polarität zwischen Kritikern, die die Diskussion für überflüssig halten, und Technokraten, welche die Bildungsqualität ungebrochen messen und evaluieren wollen, fest- stellen. Wenn Qualität situations- , zielgruppen- , kontext- und beobachtungsabhängig betrachtet wird, kann in jedem Fall durch das Ergebnis der Diskussion eine Verbesserung von Bildungs- angeboten erreicht werden - unabhängig, ob nun der Begriff Evaluation oder Qualitätssicherung verwendet wird.

1.7 Zusammenfassung

Nach der grundlegenden Einführung in das Thema Evaluation wurden im Kapitel 1.6 besondere Aspekte der Evaluation aus erwachsenenpädagogischer Perspektive dargestellt.

Dieses Kapitel dient als theoretische Grundlage für das im weiteren Verlauf dieser Arbeit ausgeführte Thema Evaluation von E- Learning.

[...]


1 Neben der bestmöglichen Anwendung von geschlechtsneutralen Formulierungen wird in dieser Arbeit auf

erzwungene Doppelnennungen von Begrifflichkeiten verzichtet. Dieses geschieht aus Gründen der besseren Lesbarkeit und es mögen sich alle Lesenden gleichermaßen angesprochen fühlen.

[2] Trotz der später erläuterten Differenzierung von Evaluation und Evaluationsforschung werden diese aufgrund ihrer engen Verbundenheit in diesem Fall synonym gebraucht.

[3] Zur Begriffsverwendung „Programm“ vgl. Kapitel Programmevaluation 1.4.3.4.

[4] Die Hawthorne- Studien wurden zwischen 1924 und 1932 in der Hawthorne- Fabrik der Western Electric in Cicero/Illinois (USA) durchgeführt, um Möglichkeiten zur Steigerung der Arbeitsleistung von Angestellten zu erforschen. Im Rahmen dieser Studien wurden unterschiedliche Designs und Zielstellungen betrachtet, um die Abhängigkeit der Arbeitsleistung von den Arbeitsbedingungen zu untersuchen.

[5] Gesellschaft für Evaluation e. V. - Zusammenschluss von Institutionen und Personen zur Professionalisierung und zum Informationsaustausch rund um Evaluation.

[6] Im Positivismusstreit (1960er Jahre, vor allem im deutschen Sprachraum) geht es um eine gesellschaftstheoretische Auseinandersetzung über Methoden und Werturteile in den Sozialwissenschaften. Beteiligt an diesem Streit waren u. a. Karl Popper, Theodor W. Adorno und Jürgen Habermas (vgl. Positivismusstreit - Wikipedia, 25.10.2006).

[7] sozialnormorientiertes Vergleichsverfahren: Vergleich von Testwerten verschiedener Untersuchungseinheiten (z. B.

Schulklassen)

[8] ipsatives Vergleichsverfahren: Vergleich der Messwerte einer gleichen Untersuchungseinheit zu verschiedenen Messzeitpunkten

[9] kriteriumsorientiertes Vergleichsverfahren: Interpretation von Testwerten basierend auf theoretisch begründeten Beschreibungen der gemessenen Merkmalsausprägungen

[10] Effekte, die auf das Verstreichen von Zeit - nicht auf spezifische Ereignisse von außen - zurückzuführen sind.

[11] Im Laufe eines Bildungsangebotes fern bleibende Teilnehmer (auch „Sustainability“ genannt).

[12] Ein Ergebnis der Hawthorne- Studien (s.a. Kapitel 1.1.1 „Entwicklung über vier Generationen“): Menschen können ihr natürliches Verhalten ändern, nur weil sie wissen, dass sie Teilnehmer an einer Untersuchung sind.

[13] Menge der Merkmalsträger, für die die Ergebnisse einer empirschen Untersuchung Gültigkeit beanspruchen sollen.

[14] Teilung der Grundgesamtheit in (theoretisch relevante) Schichten (z. B. Männer/Frauen, Studierende nach

Fachbereichen).

[15] Mathematische Statistik: Intervall um den geschätzten Parameter, der mit einer bestimmten Wahrscheinlichkeit die wahre Lage des Parameters trifft. Ein direktes Ablesen der Signifikanz ist möglich.

[16] Das narrative Interview ist - ähnlich einer Erzählung - vom Verlauf her völlig offen. Der Interviewte wird in der Erzählphase nicht unterbrochen.

[17] Beim problemzentrierten Interview stehen die Erfahrungen und Wahrnehmungen des Interviewten zu einem bestimmten Problem (Thema) im Mittelpunkt.

[18] „Andragogik“ wird von einigen Autoren statt des Begriffes „Erwachsenenbildung“ verwendet, um leicht abweichende Schwerpunkte deutlich zu machen (vgl. Schoger 02.10.2005).

[19] Deutscher Volkshochschul- Verband

[20] Paradigmenwechsel Ende der 1970er/Anfang der 1980er Jahre: Hinwendung zu mehr „Reflexivität“, Umorientierung in Planung und Kommunikation zum Subjekt (Teilnehmer) und seiner Lebenswelt (vgl. Tietgens 2001).

Final del extracto de 147 páginas

Detalles

Título
Evaluation von E-Learning aus erwachsenenpädagogischer Perspektive
Universidad
University of Dortmund
Calificación
1,0
Autor
Año
2007
Páginas
147
No. de catálogo
V85330
ISBN (Ebook)
9783638003414
ISBN (Libro)
9783638923033
Tamaño de fichero
12236 KB
Idioma
Alemán
Palabras clave
Evaluation, E-Learning, Perspektive
Citar trabajo
Dipl.-Päd. Jens Meyer (Autor), 2007, Evaluation von E-Learning aus erwachsenenpädagogischer Perspektive, Múnich, GRIN Verlag, https://www.grin.com/document/85330

Comentarios

  • No hay comentarios todavía.
Leer eBook
Título: Evaluation von E-Learning aus erwachsenenpädagogischer Perspektive



Cargar textos

Sus trabajos académicos / tesis:

- Publicación como eBook y libro impreso
- Honorarios altos para las ventas
- Totalmente gratuito y con ISBN
- Le llevará solo 5 minutos
- Cada trabajo encuentra lectores

Así es como funciona