2
Genehmigt von der Philosophisch-Historischen Fakultät der Universität Basel, auf Antrag von Prof. Dr. Udo Rauchfleisch und Prof. Dr. med. Kai von Klitzing.
Basel, den 27. April 2006 Der Dekan Prof. Dr. Kaspar von Greyerz
3
DANKSAGUNG 6 ZUSAMMENFASSUNG 8 EINLEITUNG 11
1 THEORIE 13
1.2
1.3
2 METHODE 45
2.2
2.3
2.4
3.4
4 DISKUSSION 208
Aussagekraft und Einsetzbarkeit des TRI-Q-Sort in Forschung und Prävention und Innovationen zur Q-Sort Methodik
5 VERZEICHNIS: ABBILDUNGEN, TABELLEN, HISTOGRAMME 220
6 LITERATUR 222
LEBENSLAUF 227
_______________________________________________
ZUSATZBAND: TRI-Q-SORT DOKUMENTATION
A) TRI-Q-Sort (Final Version) mit Testmanual B) TRI-Q-Sort Ergebnisse der Hauptstudie: Histogramme und Tabellen C) TRI-Q-Sort der Pilotstudie und der Vorstudien: Testerprobung und Testgenerierung
6
DANKSAGUNG
Die vorliegende Arbeit ist auf Anfrage von Prof. Dr. med. Kai von Klitzing nach Abschluss der Nationalfondsstudien von ihm selbst, von Prof. Dr. med. Dieter Bürgin und von Dr. phil. Heidi Simoni entstanden. Die Förderung dieses sozialwissenschaftlichen Messinstruments durch die Stiftungen Dürr und Vontobel hat die eingehende Beschäftigung mit dem Thema sowie die Anwendung und Weiterentwicklung der spezifischen Testmethodik möglich gemacht. Im Rahmen der Forschungsabteilung an der Kinder- und Jugendpsychiatrischen Universitätsklinik und -poliklinik Basel fand das Projekt grundlegend wertvolle Unter-stützung und Anregung.
Allen voran danke ich Herrn Prof. Dr. rer. nat. Udo Rauchfleisch, Professor für Klinische Psychologie an der Universität Basel und Psychoanalytiker, Herrn Prof. Dr. med. Kai von Klitzing, Leitender Arzt der Kinder- und Jugendpsychiatrischen Universitätsklinik undpoliklinik Basel, Psychoanalytiker SGPsa, und Frau Dr. phil. Sonja Perren, Forschungspsychologin in Basel und Assistenzprofessorin für Jugendforschung in Zürich, die mich in allen wichtigen Abschnitten der wissenschaftlichen Arbeit fachlich und durch ihre Ermutigung ausstrahlende Grundhaltung entscheidend gefördert haben. Als herausragende Experten waren sie mit ihrer Kompetenz zu anschaulichen Darstellungen und Analysen methodischer Zusammenhänge und mit ihrer Klarheit bei der Verwendung der testtheo-retischen Begrifflichkeit meine wichtigsten Gesprächspartner bei der Konzeptualisierung und Ausgestaltung der Arbeit.
Besonders wichtige Ansprechpartner zu ausgewählten Fragen des Q-Sorts, des Triadeninterviews und der Statistik waren mir Herr PD Dr. Psych. Blaise Pierrehumbert, Universität Lausanne, Frau Dr. phil. Agnes von Wyl, Forschungsmitarbeiterin in Basel, Frau Dr. phil. Heidi Simoni, Forschungsleiterin Marie-Meierhofer Institut für das Kind, Zürich, und Frau Dr. phil. Ilse Braun, Wettingen. Zusammen mit dem Raten der vielen Videoaufzeichnungen von Herrn lic.phil. Gabriel Pfändler, Herrn lic.phil. Felix Amsler und Frau lic.phil. Anne D’Aujourdhui haben sie nachhaltig zur inhaltlichen und methodischen Entwicklung und Bearbeitung des Messinstruments beigetragen.
7
Ein besonderer Dank gilt den vielen Eltern, die durch ihre Teilnahme an den Triadeninterviews und mit ihrem Einverständnis zu weiterführender Forschung anhand der Videoaufzeichnungen diese Arbeit erst ermöglichten. Sie gaben mir damit eine einzigartige Gelegenheit zu einem vertieften Einblick in das wohl grösste aller menschlichen Wunder, das Werden einer Familie.
In den Jahren dieser polyadisch fruchtbaren Zusammenarbeit wurden meine Kenntnisse wissenschaftlichen Arbeitens und mein Verständnis für die Vielfalt triadischer Beziehungsentwicklung in meinem privaten und beruflichen Leben entscheidend erweitert und verfeinert, wofür ich allen sehr dankbar bin.
Zürich, 6. Januar 2006
8
ZUSAMMENFASSUNG
Die Generierung, Ueberprüfung und Optimierung des TRI-Q-Sorts als standardisiertes, ökonomisches Auswerteverfahren zum Triadeninterview von Klitzings für die Einschätzung triadisch elterlicher Kapazität hinsichtlich deren Bedeutung für die psychische Entwicklung des Kindes wurde in der vorliegenden Arbeit in drei Etappen vorgenommen. In den Vorstudien zum TRI-Q-Sort wurde in Zusammenarbeit mit den Triadeninterview-Experten das TRI-Q-Sort Itemsample in seiner Grundstruktur generiert. Eine erste Erprobung des TRI-Q-Sorts erfolgte in der Pilotstudie mittels eines Triadeninterview-Video-Ratings anhand einer kleinen Stichprobe durch zwei unabhängige Rater. Abschliessend wurde der TRI-Q-Sort in der Hauptstudie an einer heterogenen Eichstichprobe von 78 Triadeninterview-Videos durch dieselben Rater auf sein Testgüte überprüft und itemanalytisch und bezüglich Objektivität optimiert. Mit dem TRI-Q-Sort liegt nun ein reliables und valides Test- und Auswertungsverfahren zum Triadeninterview von Klitzings für den Einsatz in der Forschung vor. Die Anwendung des TRI-Q-Sorts in der Routinediagnostik der Prävention bedingt noch die Erfüllung der idealen Testgütekriterien. Es wird davon ausgegangen, dass die Nachweise dazu mit der vorliegenden TRI-Q-Sort Final Version erbracht werden können. Parallel zur Generierung des TRI-Q-Sorts wurden drei methodische Neuerungen für den Bereich der Q-Sort Testentwicklung erarbeitet. Als erstes konnten aufgrund der spezifischen Konzeptualisierung des TRI-Q-Sort mit einem paritär bipolaren und deshalb rekodierbaren Itemsample erstmalig für einen Q-Sort die Test- und Item-Homogenität wie auch die Trennschärfe berechnet werden. Die neu entwickelte Adaptation dieser traditionellen Testprüfmethoden auf das Q-Sort Verfahren ermöglicht es künftig, einen Q-Sort ebenso wie ein traditionell entwickeltes Testverfahren einer unabdingbaren, wissenschaftlich überprüfbaren Itemanalyse zu unterziehen. Ebenfalls erstmalig in der Domäne des Q-Sort wird zum zweiten dank der Konzeptionalisierung des TRI-Q Sort mit 60 objektiven, homogenen und validen Items und einem hälftig aufteilbaren TRI-Q-Sort Profil auf der Basis eines normierten Ratings mittels Experten-Ideal-Profil künftig eine Reliabilitätsprüfung des TRI-Q-Sort Itemsamples mit einem TRI-Q-Sort Paralleltest hinsichtlich Aequivalenz durchführbar, zusätzlich zur Prüfung der Stabilität mittels Retest und der Konsistenzanalyse mittels Homogenitätsprüfung. Die dritte Neuerung entstand durch die Evaluation der TRI-Q-Sort Testnormierung mittels Cut-Off-Werten zu den TRI-Q-Scores. Diese Methode der Q-Sort Normierung unterscheidet sich von den bisherigen Verfahren mittels Q-Sort Prototypen in der Q-Sort Forschung. Weite- re Untersuchungen werden zeigen, welches Verfahren sich als das geeignetere erweisen wird.
9
Entwicklung und Evaluation des TRI-Q-Sort (Triadeninterview Q-Sort) und Innovationen zu den Q-Sort Testgütemethoden
Fragestellung: Ziel dieser Arbeit war die Entwicklung und Evaluation eines standardisierten, ökonomischen Auswertungsinstruments zum Triadeninterview von Klitzings (1996) mit den fünf Dimensionen Dialog, Trilog, Flexibilität, Ambivalenz und Kohärenz. Auf der Theoriebasis der triadisch elterlichen Kapazität (Bürgin 2000 und von Kliltzing 1996) sollte mit dem TRI-Q-Sort Beziehungseinstellungen und Beziehungsverhalten werdender Eltern bezüglich ihres Schutz- oder Risikofaktors für die psychische Entwicklung des erwarteten Kindes einschätzbar werden.
Methode: Der TRI-Q-Sort wurde mit 74 paritär verteilten Items zu den fünf Dimensionen und den beiden Schutz- und Risikofaktoren um die inhaltliche, bipolare Null-Achse des vorgegebenen Q-Sort-Normalverteilungsprofils generiert und anhand des Expertenprofils verankert. Nach der Expertenbeurteilung wurde er an 20 Triadeninterview-Videos der Untersuchung von Klitzings (1996) erprobt. Die Evaluation der TRI-Q-Sort Testgüte erfolgte durch ein normiertes Rating zweier unabhängiger Rater an einer heterogenen Eichstichprobe von 78 Triadeninterview-Videos mit Ein- und Paar-Eltern aus der Untersuchung Simonis (1996). Ergebnisse: Die spezifische Testkonstruktion des TRI-Q-Sorts ermöglichte eine Rekodierung der Risiko-Items und damit individuelle Mittelwertsberechnungen zu den TRI-Q-Sort Einschätzungen. Auf dieser Datenbasis wurden für einen Q-Sort innovativ traditionelle, statistische Testgüteverfahren zur Objektivität (Interraterkorrelation; Testnormierung), Reliabilität (Inter-Item-Konsistenz; Paralleltest) und Validität (Kriteriumsvalidität) entwickelt und durchgeführt und mit einer Itemanalyse (Itemschwierigkeit, Trennschärfe und Homogenität) abgeschlossen. Objektivität: r = 0.7 - 0.9 bei Ein- und Paar-Eltern-Triadeninterviews; Testnormierung noch ausstehend. Reliabilität: Inter-Item-Konsistenz x = .223 und x = .211 mit Alpha .958 und .955. Validität: r = .439** - .534** (Pearson) mit ICC .769; gemäss Posthoc Vergleichen nach LSD werden Eltern mit tiefer triadischer Kapazität von denjenigen mit hoher triadischer Kapazität signifikant und alle drei Gruppen mit F = 8.448*** und F = 14.606*** sehr gut unterschieden. Anhand der Itemanalyse wurden die TRI-Q-Sort Items optimiert und 14 Items selektioniert.
Der TRI-Q-Sort ist im Vergleich zur halbstandardisierten Auswertungsmethode von Klitzings ein mehrfach ökonomischeres Auswertungsinstrument.
10
Schlussfolgerungen: Der TRI-Q-Sort hat eine gute Testgüte und kann für Forschungszwecke eingesetzt werden. Für seine Anwendung in der Präventionsdiagnostik bedarf es noch einer Testnormierung in einer weiteren Untersuchung mit dem TRI-Q-Sort Final Version. Keywords: TRI-Q-Sort (Triadeninterview-Q-Sort); Innovationen der Q-Sort Methodik (Testkonstruktion, Testgüteprüfung); Triadisch elterliche Kapazität; Prävention psychischer Entwicklungsstörungen - (Engl.: TRI-Q-Sort (Triadic-Interview-Q-Sort); Innovations in Q-Sort Methods (construction, quality testing); Triadic capacity of parents; Prevention of psycholo- gical development disturbancies
11
EINLEITUNG
Demografische Vergleiche in der Kinder- und Jugendpsychiatrischen Universitätspoliklinik Basel, geleitet von Prof. Dr. med. Dieter Bürgin und Prof. Dr. med. Kai von Klitzing, zeigten auf, dass überwiegend Kinder aus Familien ohne oder nur mit einem Elternteil in der Poliklinik Hilfe suchten. In der schweizerischen Gesamtbevölkerung macht der Anteil dieser Kinder jedoch nur einen geringen Prozentsatz aus. Psychische Störungen haben ihre Wurzeln in biologischen Gegebenheiten, im kindlichen Temperament und in elterlichen Einstellungen. Die Vernetzung dieser Faktoren ist die weitaus häufigste Ursache. Beziehungen bilden ab Geburt den Bereich, in dem sich die Dysregulationen abspielen. Hier werden sie am ehesten sichtbar und können deshalb auch therapeutisch angegangen werden.
Den Längsschnittuntersuchungen von Bürgin (2000) und von Klitzing et al (1999) zufolge kann der Beginn von Beziehungsstörungen beim Kind im familiären Bezugsrahmen bereits im ersten Lebensquartal einsetzen. Sind das elterliche Beziehungsverhalten und die elterlichen Einstellungen durch mangelnde psychische Integration konfliktualisiert, ergibt sich mit dem Hinzukommen des Kindes als Drittem die Tendenz, notbehelfsmässig zu zweit ausschliessende Bündnisse gegen die dritte Person - den Partner, die Partnerin, das Kind und nachfolgende Geschwister - zu bilden. Damit ist die triadische Kapazität der Eltern beeinträchtigt. Triadisch ausschliessendes, elterliches Konfliktverhalten prägt die emotionale und kognitive Bahnung des Kindes während der impliziten Gedächtnisentwicklung in der ersten Lebensphase grundlegend. Die psychische Entwicklung seiner Selbstregulation, Fremdwahrnehmung und Anpassung und später seiner Selbstreflexion, Selbststeuerung und seines Sozialverhaltens werden durch mangelnde triadische Beziehungskapazität der Eltern geschwächt. Zwecks Prävention einer psychopathologischen Kindesentwicklung, beginnend mit Regulationsstörungen des Schlaf-, Trink- und Schreiverhaltens und sich fortsetzend mit Aufmerksamkeits-, Anpassungs- und Hyperaktivitätsstörungen, sind daher eine Frühdiagnostik der triadischen elterlichen Beziehungsfähigkeit und familientherapeutische Interventionen in den ersten Lebensmonaten des Kindes wichtig.
Kai von Klitzing hat mit dem Triadeninterview zur Einschätzung der familiären Beziehungsfähigkeit werdender Eltern und mit der Einrichtung einer Schrei-Sprechstunde für Babies mit Regulationsstörungen die geeigneten Mittel geschaffen, um Familien im Umgang mit ihrem Kind zu helfen und damit einem schädigenden Prägungseffekt in der ersten Lebenszeit ihres Kindes entgegenzuwirken.
12
In der vorliegenden Arbeit ging es darum, ein standardisiertes Auswertungsverfahren zum Triadeninterview von Klitzings (1996) zu entwickeln - den TRI-Q-Sort. Er soll die bisher halbstandardisierte, personal- und zeitaufwändige Auswertungsmethode ersetzen, damit das Triadeninterview in Forschung und Prävention zweckdienlicher und ökonomischer angewendet werden kann. Der TRI-Q-Sort wurde an Videos von 78 Triadeninterviews mit werdenden Ein- und Paar-Eltern aus Untersuchungen von Klitzings (1996) und Simonis (1996) der Längsschnittstudie Bürgins (2000) durchgeführt.
Im Theorie-Teil der Arbeit wird zum einen das Triadeninterview im Zusammenhang mit dem
dem Konzept triadisch elterlicher Kapazität und ihrer Wirkung auf die Kindesentwicklung erläutert und zum andern die Q-Sort Methode als Einschätzungs- und Auswertungsverfahren von Stephenson dargestellt. Beide Teile bilden die inhaltliche und methodische Grundlage für die Konzeptionalisierung des TRI-Q-Sort, welche in die Test-Generierung integriert werden mussten:
Dies sind in Kapitel 1.1 die triadische Beziehungskapazität von Eltern in seinen verschiedenen Ausprägungen als Schutz-, beziehungsweise Risiko-Faktoren für die kindliche Entwicklung; in Kapitel 1.2 die inhaltliche Struktur des Triadeninterviews mit den fünf Dimensionen Dialog, Trilog, Flexibilität, Ambivalenz und Kohärenz; in Kapitel 1.3 die Grundprinzipien der Q-Sort Methode mit erzwungener Item-Normalverteilung und entsprechenden Itemformulierungsregeln. In einer Analyse der Q-Sort Gütekriterien wird die Q-Sort Methode als standardisiertes Messverfahren anhand der Q-Sort Literatur hinsichtlich ihrer bisherigen Testgüte-Nachweise durchleuchtet. Essentielle traditionelle Testgüte-Prüfmethoden, welche bis anhin in Q-Sort Verfahren nicht zur Anwendung kamen, werden für die Testgüteprüfung des TRI-Q-Sorts geplant.
Im Methoden-Teil der Arbeit wird in Kapitel 2.1 die Zielsetzung festgelegt, einen TRI-Q-Sort mit nachweisbarer, traditioneller Testgüte zu generieren. In Kapitel 2.2 werden drei Fragestellungen zur TRI-Q-Sort Generierung, zu den TRI-Q-Sort Gütekriterien und zur TRI-Q-Sort Itemanalyse formuliert, die Triadeninterview-Video-Stichprobe vorgestellt und die Durchführung der TRI-Q-Sort Entwicklung und -Prüfung im Versuchsplan aufgezeigt.
Die Resultate zum TRI-Q-Sort werden im dritten Teil der Arbeit ausführlich dargestellt und im vierten Teil zusammenfassend diskutiert.
13
1 THEORIE
1.1 TRIADISCHE ELTERLICHE KAPAZITÄT UND KINDESENTWICKLUNG
Die triadische elterliche Kapazität als Konzept von Bürgin und von Klitzing (1998) ist eine Weiterentwicklung und Synthese der psychoanalytischen Paradigmen der Triangulierung (Abelin 1975) als entwicklungspsychologischer Reifungsschritt einerseits und der Triade (Bucholz 1990) als familiendynamische Beziehungsstruktur andererseits. Die theoretischen und empirischen Grundlagen und der Bedeutungsgehalt des Konzepts triadische elterliche Kapazität werden nachfolgend vorgestellt.
1.1.1 Das Triadische in der entwicklungspsychologischen Forschung
Der Psychoanalytiker Winnicott war in den 50-er Jahren der erste und für lange Zeit der einzige Forscher, welcher der Entwicklung der triadischen Beziehungsfähigkeit des Kindes in den ersten Lebensmonaten Bedeutung zumass. Bereits 1941 hält er fest: „Dieser Schritt ... in der Entwicklung des Kindes, der es befähigt, mit seiner Beziehung zu zwei ihm wichtigen Menschen, seinen Eltern, zur gleichen Zeit umzugehen, ist sehr wichtig. ... Solange das Kind ihn nicht getan hat, kann es seinen Platz in der Familie oder in einer sozialen Gruppe nicht zufrieden stellend einnehmen. ... Dieser wichtige Schritt wird innerhalb des ersten Lebensjahres zum ersten Mal vollzogen.“ (Winnicott 1941, S. 47)
Dessen ungeachtet konzeptionalisiert Mahler (1968) in ihren Untersuchungen zur Symbiose und Individuation des Kindes den Vater als Dritten erst ab dem zweiten Lebensjahr. Sie misst ihm als Garant für die Individuationsentwicklung und als Retter gegen den regressiven, psychopathologisch disponierenden Sog der Symbiose mit der wiederverschlingenden Mutter eine Bedeutung von entscheidender Tragweite für eine gesunde psychische Entwicklung des Kindes zu. Denn „schwache und begrenzte Beziehungsangebote führen zur Schwächung und zum Scheitern der Symbolisierung, die in Wechselbeziehung eingebunden ist“ (Leber 1995).
1971 entdeckt Abelin, ein Forschungsmitarbeiter von Mahler, bereits während der symbiotischen Entwicklungsphase im ersten Lebensjahr den Beginn einer spezifischen Beziehungsaufnahme des Kindes zum Vater. Mahlers Konzept erweiternd erstellt er das Konzept der „frühen Triangulierung“ (Abelin 1975) als Prozess, welcher der psychischen Organisation des Kindes ermöglicht, sich vom Niveau der agierten, sensomotorischen Beziehung hin zu
14
symbolisierten inneren Vorstellungen von sich selbst und den Bezugspersonen zu entwickeln (Fonagy 1998 und 2004).
In der psychoanalytischen und entwicklungspsychologischen Forschung erhält das Konzept der Triangulierung erst wieder ab 1980 durch Rotmann (1980), Stork (1986), Buchholz (1990), Bürgin (1998), Dammasch & Metzger (1999), Fivaz-Depeursinge (2001) und von Klitzing (1994, 1996, 1999, 2002) weitere Ausdifferenzierungen. Hiervon sind insbesondere die Arbeiten von Fivaz-Depeursinge und von Bürgin und von Klitzing zum Triadischen in der Kindesentwicklung von herausragender Bedeutung, da sie Winnicotts phänomenologisch empirische Befunde zur triadischen Beziehungsentwicklung im ersten Lebensjahr erstmals wissenschaftlich überprüfbar bestätigen.
Fivaz-Depeursinge (2001) hat mit der Erfindung des „Jeux à trois“, dem einzigen, standardisierten Untersuchungsinstrument für triadische Eltern-Kind-Beziehungen ab den ersten Lebensmonaten, den Nachweis erbracht, dass sich durch das Beziehungserleben mit den Eltern beim Kind bereits ab dem dritten Lebensmonat erste Muster der individuellen triadischen Beziehungsgestaltung als Schema im impliziten, prozeduralen, dem Bewusstsein nicht zugänglichen Gedächtnis konstituieren. Dieses Ergebnis deckt sich mit den von Stern (1985) erforschten generalisierten Interaktions-Repräsentanzen vom zweiten bis achten Lebensmonat, den sogenannten RIG’s (represented interactions generalized). Piaget (1954) definierte es in der sensomotorischen Entwicklungsphase als Schema, als erworbene Reaktionsmuster des Kindes auf seine Eltern, welche zur Wiederholung und Generalisierung tendieren.
Neueste Forschungsergebnisse (Lewis 1988, Fonagy 1998 und 2004, Fivaz-Depeursinge 2001, Grossmann 2004) weisen darauf hin, dass der Beginn von Beziehungsstörungen beim Kind im familiären Bezugsrahmen bereits im Beziehungsverhalten von werdenden Eltern vor der Geburt des Kindes wurzelt und ab dem ersten Lebensquartal einsetzt. Nach Schleske (1992) existiert das „phantasmatische Kind“ in den Vorstellungen der werdenden Eltern bereits vor seiner Zeugung und kann zum Träger elterlicher positiver Idealisierungen und negativer Projektionen werden. Insbesondere die intrapsychische Verleugnung und Abspaltung unerträglicher, aggressiver Erfahrungs- und Persönlichkeitsanteile der Eltern können dazu führen, dass diese abgespaltenen Anteile in einer Zwei-Personen-Beziehungsdynamik jeweils auf das Gegenüber übertragen und projiziert werden, damit individuell eine psychi- sche Entlastung erzielt werden kann. Die Paarbeziehung wird dadurch jedoch konfliktualisiert
15
und der oder die Partner/in gar als Sündenbock bekämpft. Durch das Hinzukommen des Kindes als Drittem kommt es bei Eltern mit dieser schwachen psychischen Integration und mit dem Ziel einer individuellen psychischen Entlastung von unerträglichen, aggressiven Persönlichkeitsanteilen zu der Tendenz, zu zweit ausschliessende Bündnisse gegen die dritte Person - den Partner, die Partnerin oder das Kind - zu bilden. Derart konflikthaftes elterliches Beziehungsverhalten prägt das Kind psychisch während der impliziten Gedächtnisentwicklung nachhaltig in aggressivierten Gefühlszuständen und Beziehungsmustern und behindert es in der Entwicklung seiner Selbststeuerung, Fremdwahrnehmung, Selbstreflexion und im Sozialverhalten (Fonagy 1998).
Psychische Störungen können ihre Wurzeln in biologischen Gegebenheiten, im kindlichen Temperament, in elterlichen Einstellungen oder - bei weitem am häufigsten - in einer Vernetzung dieser Aspekte haben. Die Beziehung ist jedoch der Bereich, in dem sich die Dysregulationen abspielen. Hier werden sie am ehesten sichtbar und können deshalb auch therapeutisch angegangen werden. Angesichts dieser grundlegenden ersten psychischen Prägung des Kindes durch die Elternbeziehungen in den ersten zwei bis drei Lebensmonaten werden zwecks Prävention einer psychopathologischen Kindesentwicklung eine Frühdiagnostik der triadischen elterlichen Beziehungsfähigkeit (von Klitzing 1996) und familientherapeutische Interventionen ab Geburt des Kindes (von Klitzing 2002 a)) eminent wichtig.
1.1.2 Konzepte und Untersuchungen von Bürgin und von Klitzing
In der von Bürgin und von Klitzing geleiteten Kinder- und Jugendpsychiatrischen Universitäts-Poliklinik Basel lebten 1995 von den über 800 Kinderpatienten 65% der Kinder in Familien mit keinem oder nur mit einem Elternteil, hauptsächlich der Mutter. In der schweizerischen Gesamtbevölkerung entsprachen die Kein- oder Ein-Eltern-Kinder jedoch nur 13%. Bürgin und von Klitzing nahmen an, dass diese Vaterlosigkeit eine ursächliche Bedeutung für die Störung hat, die ein Kind die Behandlung führt.
Ausgehend von Mahler und Abelin wurde vermutet, dass die Anwesenheit und beziehungsmässige Verfügbarkeit des Vaters oder eines bedeutungsvollen Dritten als Bezugsperson für das Kind zusammen mit der Mutter für die kindliche Entwicklung eine Ressource, beziehungsweise einen protektiven Faktor darstellt. Demgegenüber würde die Abwesenheit oder beziehungsmässige Nicht-Verbundenheit des Vaters oder eines bedeutungsvollen Dritten als
16
Bezugsperson für das Kind zusammen mit der Mutter für die kindliche Entwicklung eine Erschwernis, beziehungsweise einen Risikofaktor bedeuten.
1997 - nach Vorstudien seit 1992 - starteten Bürgin und von Klitzing mit der Basler Forschungsgruppe „Frühe Kindesentwicklung und Familienbeziehung“, unterstützt vom schweizerischen Nationalfonds und im Austausch mit Forschungsteams in Genf (Fivaz-Depeursinge), Frankreich (Lamour), Deutschland (Papousek), England (Fonagy) und in den USA (Emde) - erstmalig in der psychoanalytisch-entwicklungspsychologischen Forschungmit einer Langzeitstudie zur triadischen elterlichen Kapazität mit Einbezug des Vaters und mit Beginn vor der Geburt des ersten Kindes.
Ihr Interesse konzentrierte sich auf die Fragestellung, ob bei werdenden Eltern bereits vor der Geburt auf interpersonal-verhaltensbezogener und intrapsychisch-vorstellungsbezogener Ebene eine triadische Beziehungskapazität erfasst und nach der Geburt mit dem Verlauf der kindlichen Entwicklung in Bezug gesetzt werden kann. Mit dem Begriff „Kapazität“ anstelle von „Kompetenz“ ist eine Beziehungsfähigkeit gemeint, die sich je nach Kontext unterschiedlich im Beziehungsverhalten und in den Beziehungsvorstellungen manifestiert (Bürgin 1998, von Klitzing 1998).
Triadische elterliche Kapazität hat ihre Wurzeln in vergangenen Beziehungserfahrungen der Eltern (meistens während der eigenen Kindheit), und sie wird durch aktuelle Beziehungserfahrungen (meistens in der elterlichen Partnerschaft) immer wieder umgearbeitet. Sie ist eine psychische Fähigkeit, mit der werdende und faktische Eltern ihre familiären Beziehungen antizipieren und konzeptionalisieren und ihr Kind als Drittes sowohl in ihren Vorstellungen als auch in ihrem Verhalten in die familiäre Beziehungswelt integrieren, ohne sich selbst oder den/die Partner/in auszuschliessen (Bürgin 1998, von Klitzing 1998).
Diese elterlich vorgegebene Beziehungswelt bildet einen psychosozialen Entwicklungsraum für das Kind, in den das Kind hineingeboren wird. Er beinhaltet für die Kindesentwicklung ab den ersten Lebensmonaten sowohl Chancen als auch Risiken, indem die triadische elterliche Kapazität die Entwicklung der äusseren und inneren Beziehungswelt des Kindes entscheidend beeinflusst. Denn die Fähigkeit des Kindes zu emotionaler Regulation und kognitiver und sozialer Kompetenz entsteht und entwickelt sich innerhalb des Kontextes interpersona- ler Bedeutungen, welche in interaktiv-emotionalen Austauschvorgängen zwischen dem
17
Kind und seinen primären Bezugspersonen vermittelt werden (Bürgin 1998, von Klitzing 1998).
Laut Bürgin (1998, S. 31) ist die triadische Beziehung zwischen Kind, Mutter und Vater in der Innenwelt des Kindes von Anfang an potentiell vorhanden. Im Verlaufe der Individuationsentwicklung nach Mahler, welche mit Unterscheidungsprozessen der Selbst-Repräsentanzen von den elterlichen Objekt-Repräsentanzen einhergeht, wird die triadische angelegte psychische Beziehungswelt des Kindes erst allmählich erlebnisbezogen belebt und im Kontakt mit den Eltern spezifisch ausgefüllt. Wird nach dem Erreichen der verbalen Phase während der Individuationsphase und nach weiteren Entwicklungsschritten die prä-ödipale Dreisamkeit mit den Triebimpulsen der infantilen Sexualität aufgeladen, so bildet sich die komplexere Form der ödipalen Dreisamkeit. Für eine bestmögliche psychische Entwicklung des Kindes ist es entscheidend, ob die Eltern zur triangulären Beziehungsgestaltung fähig sind. Wenn nicht, gerät das Kind in eine präödipale und ödipale Beziehungsdynamik, in der es dauernd in eine Fusion mit einem Elternteil hineingezogen und von der Beziehung zum andern Elternteil abgeschnitten wird. Eine elterliche Verbündungs- und Ausschluss-Dynamik mit dem Kind behindert es in der Lösung seiner Individuations- und ödipalen Konlikte und dadurch in seiner emotionalen, kognitiven und sozialen Entwicklung. Laut von Klitzing (2002 b)) sind die frühe Triangulierung des Kindes und die triadische Beziehungskapazität von Eltern somit DIE Voraussetzungen für eine gelingende Individuations- und ödipale Entwicklung.
Von Klitzing (2002 b), S. 880) hält hierzu die Längsschnittstudie vorläufig zusammenfassend fest:
„Die Ergebnisse unserer Studien unterstützen weitgehend die psychoanalytischen Konzepte, in denen die psychischen Entwicklungen von Kindern von Anbeginn an als Triangulierungsprozesse verstanden werden. Die Sichtweise, nach der die präödipale Entwicklung durch dyadische Beziehungsprozesse geprägt ist und erst in der ödipalen Entwicklung die Triade eine Rolle zu spielen beginnt, hat ausgedient. ... Anstatt die Prä-Oedipalität als eine Entwicklungsphase zu sehen, in der nur die Dyade eine Rolle spielt, sollte der Oedipus-Komplex als eine Kulminationsphase im Kontinuum innerer und äusserer triadischer Entwicklungserfahrungen kon- zipiert werden.“ (Hervorhebungen von M.V.)
18
1.1.3 Hinweise zur Generierung des TRI-Q-Sort:
Die Items des TRI-Q-Sort sind so zu gestalten, dass die triadische Kapazität werdender Eltern in geäusserten Beziehungs-Vorstellungen und beobachtbarem Beziehungsverhalten eingeschätzt und in ihrer möglichen Auswirkung als Risiko- oder Schutz-Faktoren für die Kindesentwicklung angenommen werden können.
1.2 DAS TRIADENINTERVIEW
Ausgangspunkt der Längsschnittuntersuchung von Bürgin und von Klitzing war das „Basler Elterninterview“ (von Klitzing 1996) - später „Triadeninterview“ genannt. Mit diesem Instrument untersuchte von Kitzing et al. (1999) in mehreren Studien in halbstrukturierten, tiefenpsychologisch orientierten Paarinterviews Ein-Eltern und Paar-Eltern im letzten Trimester der Schwangerschaft mit dem erstgeborenen Kind zu deren triadischer elterlicher Kapazität. Der Interviewer spricht darin mit den werdenden Eltern entlang einem Gesprächsleitfaden über deren eigene Kindheitsgeschichte und ihre Beziehung zu den Herkunftseltern, die Geschichte und das Erleben ihrer Partnerschaft sowie über ihre inneren Bilder und Phantasien vom zukünftigen Kind.
Die ca. 120 durchschnittlich zweistündigen Interviews mit Paar-Eltern und Ein-Eltern wurden auf Video aufgezeichnet. Diese wurden von zwei bis drei geschulten Klinikern nach intensivem Training und nebst Supervision mit durchschnittlicher Dauer von anderthalb Stunden ausgewertet. Die triadische Kapazität wurde in fünf Dimensionen mit einer Fünferskala anhand eines halbstandardisierten, inhaltsanalytischen Auswertungsmanuals quantifiziert. Diese fünf Dimensionen wurden jeweils für Vater und Mutter getrennt und für das elterliche Paar als Ganzes bewertet. Die summierten und gemittelten Werte der Einschätzungen zu den fünf Dimensionen wurden in einer Gesamtbeurteilung zur Bewertung der triadischen elterlichen Kapazität zusammengefasst.
Der Kodiervorgang orientierte sich explizit am Inhalt des Elterngesprächs, an den Elternbeobachtungen während des Interviews und an den subjektiven Eindrücken der Interviewer und Rater. Der Einbezug der emotionalen Reaktionen von Interviewer und Rater ist kein übliches empirisches, sondern ein phänomenologisch psychoanalytisches Forschungsverfahren. Es trägt der Tatsache Rechnung, dass es unmöglich ist, die Qualität der inneren und äusseren Beziehungen ohne die subjektiv erlebten Gefühle des Beobachters als „Empfänger“ zu erfas-
19
sen. Entscheidend für eine valide Einschätzung der Versuchspersonen ist daher nicht das Umgehen dieses subjektiven Teils des Messverfahrens, sondern dass die von den Versuchspersonen ausgelösten Empfindungsreaktionen von den Ratern erkannt und in die Beurteilung mit einbezogen werden.
Mit den Gesamtbeurteilungen wurde festgehalten, in welchem Ausmass die Eltern (jeder Elternteil separat und das Paar als Ganzes) potentiell über innere und partnerschafltiche Voraussetzungen verfügen, das Kind in ihre Beziehungswelt zu integrieren und mit ihm die Partnerschaft als Eltern befriedigend fortzusetzen. Mittels Aussenkriterien - FPI-Fragebogen und Giessen-Test - wurden die Ergebnisse validiert und für weitere Analysen in den anschliessenden Erhebungen der Langzeitstudie verwendet (Simoni 1996, von Klitzing 1996).
Die fünf Dimensionen der triadischen elterlichen Kapazität im Triadeninterview (Bürgin: SNF-Bericht 2000, 3.12): 1. Persönlichkeit und Partnerschaftsdynamik
Partnerbeziehung mit Akzeptanz der Persönlichkeitsunterschiede und mit der Fähigkeit zu Ambivalenz in der Beziehung zum Partner versus Neigung zu Projektionen und psychischer Fusion in der Partnerschaft
2. Flexibilität von positiven und negativen Vorstellungen versus Rigidität von einseitigen Vorstellungen zum zukünftigen Kind
3. Triangularität der familiären Vorstellungen und des Gesprächsverhaltens im Interview versus Verbündung zu zweit mit Ausschluss einer Drittperson 4. Dialogfähigkeit der Eltern zum ungeborenen Kind und insgesamt im Interview-Gesprächsverhalten versus wenig Austausch zwischen den Eltern 5. Kontinuität der Beziehungserfahrungen und Kohärenz der Erzählungen zur eigenen Herkunftsgeschichte und im Interview-Gesprächsverhalten versus Diskontinuität in den Beziehungserfahrungen aufgrund unverarbeiteter, ungelöster Konflikte (vgl. auch von Klitzing (1996, Zusatzband): Einschätzungsskalen für Dimensionen 1-5)
Nach von Klitzing greifen die fünf Dimensionen „einzelne Aspekte eines komplexen Beziehungsgefüges auf. Es muss davon ausgegangen werden, dass all diese Aspekte untereinander in einem dynamischen Zusammenhang stehen. So hängen beispielsweise die intrapsychischen strukturellen Voraussetzungen bei beiden Eltern mit ihren Beziehungserfahrungen in der ei- genen Kindheit zusammen und haben deshalb einen grossen Einfluss auf die partnerschaftli-
20
che Beziehung. Zeichnet sich die Partnerschaft durch eine ausgewogene Beziehungsdynamik aus, so erleichtert das eine flexible Ausgestaltung der Vorstellungen vom Kind, auch im Zusammenhang mit dem Partner (trianguläres Niveau), was wiederum eine Rückwirkung auf die Partnerschaft hat. Auch die Dialogfähigkeit und -bereitschaft in der Partnerschaft steht in einer wechselseitigen Abhängigkeit zu den vorher genannten Bereichen. Hiermit in engem Zusammenhang steht das Einbeziehen des Kindes als Dialogpartner. Die reale Persönlichkeit des Kindes, wie sie sich im Laufe der Entwicklung zunehmend differenzierter gestaltet, hat umgekehrt auch einen Einfluss auf die inneren Bilder der Eltern vom Kind, welche sich ja auch nach der Geburt weiterentwickeln“ (von Klitzing 1996, S. 8-9).
1.2.1 Ergebnisse
Das Triadeninterview wurde in modifizierter Form mit dem anwesenden Kind nach dem ersten Lebensmonat und mit dem Kind von 12 Monaten wiederholt. Die Inter-Rater-Reliabilität von 0.69 im Triadeninterview vor der Geburt, von 0.82 einen Monat und von 0.75 ein Jahr nach der Geburt sind adäquat bis zufriedenstellend. Die Ergebnisse zur triadischen elterlichen Kapazität im pränatalen Triadeninterview korrelieren zum Triadeninterview mit den Eltern des einjährigen Kindes hochsignifikant. Das heisst, mittels Triadeninterview ist triadische elterliche Kapazität bereits in der Schwangerschaft reliabel und valide evaluierbar. Es wurde ausserdem deutlich, dass ein hohes Mass an durchgearbeiteten und gelösten entwicklungsspezifischen triadischen Konflikten (speziell in den Beziehungen zu den Herkunftsfamilien) eine wichtige Voraussetzung für die Bildung von triadischen Beziehungen mit dem Partner und dem Kind bilden.
Die Bindungsforscherin Main hat hierzu bereits 1985 empirisch nachgewiesen, dass es keine einfache lineare Verknüpfung zwischen „guten Kindheitserfahrungen“ und späterer „guter Elternschaft“ gibt. Auch negative Beziehungserfahrungen in der Familiengschichte führen nicht automatisch zu unlösbaren Problemen mit den eigenen Kindern. Wichtiger ist die narrative Kontinuität in den Beziehungserfahrungen. Das heisst, entscheidend für eine gute Elternschaft ist nicht das Ausmass entstandener intrapsychischer und interpersoneller Konflikte. Entscheidend ist, ob sie durchgearbeitet und damit in die eigene Persönlichkeit integriert werden konnten. Die emotionale Verarbeitung von eigenen Kindheitskonflikten kann trotz ausgesprochen negativer Kindheitserfahrung in ein kohärentes Selbstgefühl münden. Gerade dies macht es möglich, die Konflikte und Probleme anzugehen, die übli- cherweise in der Beziehung zu den eigenen Kindern aufkommen können.
21
Bei Eltern mit genügender aber vorübergehend geschwächter triadischer Kapazität in einer erschwerten Eingewöhnungszeit mit dem Kind besteht insbesondere während der ersten Säuglingszeit ein familientherapeutischer Behandlungsbedarf zur Behebung der situativ bedingten, psychischen Ueberlastung der Eltern und der damit einhergehenden familiären Konflikte. Damit kann eine mögliche psychopathologisch induzierende Prägung des Kindes während der ersten Lebensmonate präventiv behoben werden. Demgegenüber tendierten jedoch in den pränatal vorgestellten Beziehungen unhinterfragte selbst-, partner- oder kindausschliessende Phantasien bei beiden Eltern nach der Geburt des Kindes rigid zu werden und nur schwer durch reale, positive Alltagserfahrungen mit dem Kind veränderbar zu sein.
Explorativ wurde in der Längsschnittstudie zudem untersucht, welchen Einfluss die pränatal eingeschätzten Organisation der inneren Vorstellungswelt beider Eltern auf die Fähigkeit des Säuglings hatte, eine Dreierinteraktion überhaupt einzugehen. Dies führte zum unterwarteten Resultat, dass die Trilogfähigkeit des Säuglings (das heisst, die Fähigkeit zu gleichzeitiger Bezogenheit auf beide Eltern) besonders mit den Repräsentanzen des Vaters zusammenhing (r=.56; p > 0.001). Je mehr der Vater bereits während der Schwangerschaft sich innerlich auf das Kind eingestellt und sich diesem gegenüber als eine relevante Bezugsperson antizipiert hatte, ohne dabei die Mutter innerlich auszuschliessen, und je mehr dies auf positiven Identifikationen mit seinen Eltern beruhte, um so fähiger war das Kind im Alter von vier Monaten mit beiden Bezugspersonen ausgewogen Kontakt aufzunehmen.
Gemäss von Klitzing (2002) weisen die Ergebnisse der Längsschnittstudie bis dato darauf hin, dass diejenigen Eltern über eine bleibend gute triadische Kapazität verfügen, die bereits vor der Geburt des Kindes auf einer phantasmatischen Ebene das kommende Kind in ihre innere und äussere triadische Beziehungswelt während der Schwangerschaft integrieren konnten - das heisst ohne Ausschlusstendenzen von sich selbst, dem Kind oder gegenüber dem Beziehungspartner.
Insgesamt entstammen die Längsschnittergebnisse allerdings einer kleinen selektionierten Stichprobe und sind noch nicht in grösseren Stichproben repliziert worden. Für die Untersuchung mit einer grösseren Stichprobe ist eine standardisierte und ökonomischere Aus- wertungsmethode notwendig. Dies soll mit dem TRI-Q-Sort ermöglicht werden.
22
1.2.2 Hinweise zur Generierung des TRI-Q-Sort:
Für die Entwicklung des TRI-Q-Sort sind folgende Inhalte und Merkmale der halb-standardisierten Triadeninterview-Auswertemethode zu berücksichtigen: a) Der TRI-Q-Sort beinhaltet thematisch die Fragestellungen des Triadeninterview-Leitfadens für Ein-Eltern- und Paar-Eltern-Interviews. b) Der TRI-Q-Sort braucht theoriegeleitete Iteminhalte zur triadischen elterlichen
c) Sind emotionalen Reaktionen von Interviewer und Rater als reliabel und valide Hinweise für die triadische elterliche Kapazität im TRI-Q-Sort messbar? d) Die Halbstandardisierte Auswertemethode ist zu standardiesieren. e) Die Aussenkriteriums-Validierung ist gesichert. f) Die Interview-Auswertungsdauer von 90 Minuten ist zu reduzieren.
1.3 Q-SORT-VERFAHREN UND TESTENTWICKLUNG
Das Q-Sort-Verfahren wurde von Stephenson 1935 und 1953 als standardisierte Auswertemethode für ipsative Daten von Persönlichkeitseinschätzungen entwickelt. Laut Stephenson (1953, S. 344 ff) vergleicht der Q-Sort Individuen (anstatt Tests) mit einer inversen Fak-torenalanyse.
„Factor analysis in the past ... has concerned itself with individual differencies; its variables have been estimates or tests, its populations are groups of persons. The analysis I am to describe serves a very different, yet complementary purpose; its variables are persons, whilst its populations are groups of tests or estimates. This very simple inversion of all previous factor theorems and techniques leads unexpectedly to many new fields of experimental work.“
Jones (1990, S. 1988), der zu den gegenwärtigen Forschern mit der Q-Sort-Methode zählt, hielt zur Entwicklungsmethodik eines Q-Sorts fest,
„there exists no standard Q-set; rather, the goal is to provide a set of items that can capture as comprehensively as possible the critical dimensions of variation among ca- ses under study.“
23
Der Q-Sort fand in den USA und in Deutschland ursprünglich v.a. als Selbsteinschätzungsverfahren in der demografischen Meinungsforschung mit unterschiedlichstem Inhalt Verwendung.
Nach dem zweiten Weltkrieg wurden mit diesem Verfahren zu den Selbst- auch Fremdeinschätzungen erhoben und miteinander korreliert. Für spezifische klinische Fragestellungen mit oder ohne Theoriebezug wurden verschiedene Q-Sorts als standardisierte Evaluationsinstrumente für Moment- und Verlaufsanalysen zur Ueberprüfung sowohl von inter- als auch intraindividuellen Differenzen entwickelt. Die bekanntesten Beispiele sind:
Beispiele: Nicht-theoriegeleitete Q-Sorts:
1.3.1 Konstruktion eines Q-Sort
Die Konstruktion und die Struktur eines Q-Sorts als standardisiertes Testverfahren entsprechen in den Grundzügen der üblichen Testtheorie, weichen jedoch infolge der spezifischen Q-Sort Item-Verteilungsstruktur in entscheidenden Punkten davon ab. Dies bedingt ein modifiziertes Vorgehen für die Testentwicklung und -überprüfung des TRI-Q-Sort.
1.3.1.1 Q-Sort Struktur
Ein Q-Sort besteht aus einem Sample von Items. Anzahl und Sortiermodus der Items sind nach Pierrehumbert (2000) statistisch optimal mit 50-100 Items zu einer vorgegebenen Gauss’schen Normalverteilung (vgl. Rauchfleisch 1994, Abbildung 1) auf 9 bis 11 Kategorien mit mindestens 20-50 Versuchspersonen pro Eichstichprobe (Mowrer 1953; Block 1961).
Nach Block sind bei 40 Versuchspersonen mit 100 Items auf 9 Kategorien 6.45 x 10 85 Kombinationen möglich. Mit diesen Richtgrössen können für Anwendungsuntersuchungen sowohl Alpha- als auch Beta-Fehler bestmöglich minimiert werden.
25
einer normativen, Q-Sort-immanenten Referenzgrösse erforderlich (Prototyp, Ideal-Profil oder statistisches Aehnlichkeitsmass).
1.3.1.2 Q-Sort Referenzgrösse
Mangels Item-Nullpunktwerten sind für die reliable und valide Aussagegültigkeit von Q-Sort-Einschätzungen normative, testimmanente Referenzgrössen, auch Prototypen oder Experten-Ideal-Profile, erforderlich. In einem bestehenden Q-Sort wird ein Q-Sort-immanente Referenzgrösse theoriegeleitet oder statistisch generiert. Eine theoriegeleitete Referenzgrösse wie beispielsweise im Attachment Q-Sort von Kobak (1993) wird von Experten erstellt, welche mit dem vorgegebenen Item-Sample eine idealtypische Wertung, das heisst ein Experten-Ideal-Profil zur gegebenen Fragestellung festgelegen. Statistische Referenzgrössen (vgl. Block 1961 und Jones 1985) werden mit einem reliablen und validen Itemsample ermittelt, indem anhand der Q-Sort-Werte einer Eich-Stichprobe mittels Faktorenanalyse bestimmte Itemkonfigurationen als signifikante Merkmale oder für das ganze Item-Sample ein statistisch signifikantes Profil (Prototyp) eruiert werden. Beide Arten von Referenzgrössen dienen als Normwerte für die Persönlichkeits-Einschätzungen eines bestimmten Q-Sorts. Ein Experten-Ideal-Profil kann ausserdem mit einem reliablen und validen Item-Sample mittels Konvergenz von faktorenanalytischer und itemmetrischer Analyse mit einer konfirmatorischen Clusteranalyse validiert werden.
Ein methodischer Vergleich von theoriegeleiteten mit nicht-theoriegeleiteten Q-Sorts zeigt, dass deren unterschiedliche Referenznormen beträchtliche Unterschiede hinsichtlich dem Design der Testentwicklung und der teststatistischen Ueberprüfung ihrer Reliabilität mit sich bringen: Ein theoriegeleiteter Q-Sort wie bei Kobak (1993) kann in der teststatistischen Ueberprüfung des Messinstrumentes reliable Ergebnisse erbringen, soweit er von theorievertrauten Experten-Untersuchern durchgeführt wird und die Reliabilität mittels Re-Test (Stabilität) überprüfbar ist. Demgegenüber erfordern nicht-theoriegeleitete Q-Sorts wie diejenigen von Block (1961) und Jones (1985) für den Nachweis der Reliabilität des Messinstrumentes eine teststatistische Ueberprüfung auf einer Datenbasis von mehreren hundert Items, einer grossen Stichprobenzahl und mindestens 60-70 Untersuchern (Block 1961). - Ein derartiger Q-Sort wird in der Anfangsphase seiner Entwicklung von thematisch verschiedenen, theorievertrauten Experten- und Laien-Untersuchern erprobt und kann in den Folgephasen ausschliesslich von Laien-Untersuchern durchgeführt werden.
26
1.3.1.3 Generieren eines Q-Sort Itemsamples
In der Methodik zum Q-Sort-Verfahren „little attention has given to sampling theory“ (Mowrer 1953, S. 358) und Block (1961, S. 98) hält gar fest, „there exists no criteria on forming and testing items“. Pragmatisch orientiert sich die Erstellung eines Q-Sorts zur Auswertung eines Interviews an den Inhalten und an den Auswertungsergebnissen der vorgegeben Interviews. Aus den Theorie- und Beobachtungs-Kontexten werden jeweils typische Items zusammengestellt, mit denen sowohl die Narrative der Interviewten als auch die Einschätzung der Versuchspersonen durch den Rater beschrieben werden können (Zimmermann 1994).
Die Bedeutsamkeit von Items für eine Persönlichkeitseinschätzung wird somit nach subjektiven, als auch nach theoriegeleiteten Kriterien festgelegt. Die Itemformulierung sollte derart sein, dass sie eine Verhaltens- oder Persönlichkeitsausprägung eindeutig beschreibt, die in einem polaren Kontinuum von „nicht charakteristisch“ bis „charakteristisch“ eingeschätzt und graduell in + 10 Stufen unterteilt werden kann. Block (1961, S. 78) empfiehlt für eine Item-Zusammenstellung mit der erzwungenen Normalverteilung eine Anzahl positiver, neutraler und negativer Inhalte im Verhältnis 1:2:1. Diese Verteilung ergibt sich auch automatisch, wenn nur negative und positive Iteminhalte im Vergleich mit dem Experten-Ideal-Profil mit unterschiedlicher Gewichtung im Verhältnis 1:1 für das Itemsample ausgewählt werden. Ein auf diese Weise generierter Q-Sort wird auf seine Reliabilität und seine Validität als Gesamttest und in jedem Item an einer möglichst heterogenen Eichstichprobe überprüft. Daran anschliessend wird mit einer Itemanalyse die Brauchbarkeit jedes Items für die Messung des Untersuchungsmerkmals untersucht (vgl. 1.3.3.).
1.3.2 Gütekriterien eines Q-Sorts
Die drei Hauptgütekriterien eines Tests sind gemäss Bortz et al, (2002, S. 193-202) Objektivität, Reliabilität und Validität: Die Objektivität eines Tests gibt an, in welchem Ausmass die Testergebnisse vom Testanwender unabhängig sind. Die Reliabilität (Zuverlässigkeit) eines Tests kennzeichnet den Grad der Genauigkeit, mit dem das geprüfte Merkmal gemessen wird. Sie lässt sich durch Erhöhung der Objektivität verbessern. Die Validität (Gültigkeit) eines Tests gibt an, wie gut der Test in der Lage ist, genau das zu messen, was er vorgibt.
Im Q-Sort Verfahren mit seiner Spezifizität der erzwungenen Normalverteilung erfährt die Ueberprüfung der genannten Testgütekriterien insbesondere in den Bereichen der Objektivität
27
und der Reliabilität entscheidende Modifikationen. Diese werden im Vergleich zur traditionellen Testtheorie anhand der Ausführungen der Q-Sort-Methodiker Stephenson (1936) und Block (1961) und auf dem Hintergrund der nachhaltigsten Q-Sort-Anwender, den Attach-mentforschern Waters & Deane (1985) und Ijzendoorn (2004), dargestellt.
Lienert (1969, S. 18-19) und Rauchfleisch (1994, S. 64-65) weisen zudem auf Nebengütekriterien hin, die zu einem Test beachtenswert sind: Vergleichbarkeit, Oekonomie und Nützlichkeit.
1.3.2.1 Objektivität
Objektivität in der Testtheorie und im Q-Sort-Verfahren
Gemäss Lienert (1969, S. 13-14), Rauchfleisch (1994, S. 55-57) und Bortz (2002, S. 194-195) ist für eine gute Reliabilität eines Tests und damit auch eines Q-Sorts eine gute Test-Objektivität bezüglich seiner Durchführung, Auswertung und Interpretation erforderlich. Die Objektivität eines Q-Sorts wird mittels Berechnungen zur Interrater-Korrelation in unterschiedlichen Zusammenhängen gemessen.
A) Objektivität der Durchführung
Den drei genannten Autoren zufolge sollte mit einer objektiven Testdurchführung das Testergebnis vom Untersucher (Triadeninterviewer und TRI-Q-Sorter) unbeeinflusst sein. Verletzt wäre die Forderung nach Durchführungsobjektivität, wenn eine Versuchsperson die Frage bei einem Testleiter (Triadeninterviewer) nicht versteht, hingegen bei einem anderen problemlos beantworten kann. Unvergleichbar werden Testergebnisse von Versuchspersonen, denen nicht dieselben Fragen gestellt werden. Soll die Durchführungsobjektivität maximal hoch werden, dann muss die Instruktion an den Untersucher (Triadeninterviewer und TRI-Q-Sorter) schriftlich so genau wie möglich festgelegt und die Untersuchungssituation (Triadeninterview und TRI-Q-Sort) so weit wie möglich standardisiert werden.
B) Objektivität der Auswertung
Laut Lienert (1969), Rauchfleisch (1994) und Bortz (2002) betrifft die Auswertungsobjektivität die numerische oder kategoriale Auswertung des registrierten Testverhaltens nach vorgegebenen Regeln. Sie hängt von der Art der Itemformulierung ab und wird erhöht mit eindeutigen Vorgaben zur Fragenstellung und deren Beantwortung (richtig-falsch oder multiple- choice versus offene Fragen und Beantwortung) und zur Antwortbewertung (wie viele
28
Punkte werden für welche Antwort vergeben). Die Auswertungsobjektivität wird mittels Korrelation der Messwerte verschiedener Untersucher geprüft.
So wird seit Stephenson (1936; zit. nach Mowrer 1953, S. 328), dem Erfinder des Q-Sort Verfahrens, gemäss Block (1961, S. 100-107) dem bekanntesten Q-Sort Testentwickler und in Uebereinstimmung mit Waters & Deane (1985), den heute noch tätigen Q-Sort Anwenderinnen in der Attachment-Forschung, die Interrater-Korrelation eines Q-Sorts auf drei Ebenen untersucht: 1) auf Konzept-Ebene, 2) auf Profil-Ebene und auf 3) Item-Ebene.
1. Die Auswertungs-Objektivität auf Konzept-Ebene (Interraterkorrelation) Die Auswertungsobjektivität auf Konzept-Ebene gibt an, ob ein Q-Sort seiner konzeptuellen Referenzgrösse entsprechend messgenau ist. Laut Block (1961, S. 100-107) ist die Berechnung der Interrater-Korrelation auf Konzept-Ebene in einem Q-Sort notwendig, weil die erzwungene Normalverteilung im Q-Sort-Verfahren dazu führt, dass jedes Q-Sort Profil denselben Mittelwert hat und dadurch die Interraterkorrelationen nicht auf einen konzeptuellen Nullpunkt bezogen berechnet und geprüft werden können. Die dafür notwendige testimmanente Referenzgrösse wird in der Form eines Q-Sort-Idealprofils erstellt und für die Berechnung von Q-Korrelationen verwendet. Die Auswertungsobjektivität auf Konzeptebene wird durch die Interraterkorrelation der Q-Korrelationen bestimmt. Diese werden von nun an TRI-Q-Scores genannt. Sie sind das Uebereinstimmungsmass der Q-Sortings der Rater mit der konzeptuellen Normgrösse des Q-Sort Ideal-Profils.
2. Auswertungs-Objektivität auf Profil-Ebene (Interraterkorrelation) und
3. Auswertungs-Objektivität auf Item-Ebene (Interraterkorrelation) Waters & Deane (1985, S. 54) beschreiben die Vorgehensweise zur Berechnung der Interra-terkorrelationen auf Item- und Profil-Ebene wie folgt:
„In Q-sort data, agreement can be assessed in terms of the reliability of individual items or of an entire sort. Item agreement is assessed by intercorrelating the scores assigned by two sorters across a sample of subjects. Agreement on a complete sort can be assessed first within each subject by intercorrelating the arrays of scores assigned to a particular subject by two sorters, and second mean agreement can be assessed by computing the average agreement across all the subjects in a sample“ (Her- vorhebungen und Einfügungen von M. Vogel).
29
Oser (1993, S. 158) und Rauchfleisch (1994, S. 60) ergänzen dazu, jedoch ohne genauere Angaben dazu zu machen, dass auf Item-Ebene niedrigere Korrelationskoeffizienten zu erwarten sind als auf Profil- und Konzept-Ebene.
Als Erklärung für die unterschiedliche Verwendung des Begriffs „reliability“, wie er beispielsweise bei Waters & Deane auftritt, sei darauf hingewiesen, dass sie in der empirischen Forschung im amerikanischen Gesundheitswesen in der Regel dem Objektivitätskriterium der Untersucher-Uebereinstimmung entspricht und nicht der Reliabilität in ihrem eigentlichen Sinne, dem des untersucherunabhängigen Merkmalszusammenhangs.
C) Objektivität der Interpretation
Die Interpretationsobjektivität betrifft den Grad der Unabhängigkeit der Interpretation des Testergebnisses von der Person des interpretierenden Testauswerters, der nicht mit dem Untersucher identisch zu sein braucht. Sie ist gegeben, wenn aus den gleichen Auswertungsergebnissen verschiedener Versuchspersonen gleiche Schlüsse gezogen werden. In einem Testmanual sollten möglichst genaue Hinweise darüber gegeben werden, wie ein bestimmtes Testverhalten zu interpretieren ist. Dabei orientiert man sich an Vergleichswerten, beziehungsweise Testnormen, die anhand repräsentativer Stichproben und mittels Expertenbeurteilung ermittelt werden. Sie gelten als Testnormierung. Im TRI-Q-Sort sind dies die Cut-Off-Werte der TRI-Q-Scores, welche mittels Q-Korrelation an einer Eichstichprobe ermittelt und an Aussenkriterien (vgl. Kapitel Validität) überprüft werden. Die Cut-Offs der TRI-Q-Scores zu den Merkmalsausprägungen hoher, mittlerer und tiefer triadischer elterlicher Kapazität ermöglichen die Einordnung des individuellen TRI-Q-Sort Ergebnisses (Rohdaten) in ein Bezugssystem (Standardwerte). Ein Test, der für die Routinediagnostik und nicht nur für wissenschaftliche Untersuchungen eingesetzt werden soll, bei denen es in der Regel nur um den Vergleich von Gruppen geht, bedarf in jedem Fall einer Normierung (Lienert, 1969 und Rauchfleisch, 1994).
Zusammenfassung: Die Objektivität im TRI-Q-Sort
Die Objektivität des TRI-Q-Sort kann wie folgt gewährleistet werden: a) Die Objektivität der TRI-Q-Sort Durchführung mit einer genau festgelegten Testinstruktion und einer möglichst standardisierten Untersuchungssituation b) Die Objektivität der TRI-Q-Sort Auswertung mit einer numerischen und kategoria- len Antwortbewertung nach vorgegebenen Regeln
30
c) Die Objektivität der TRI-Q-Sort Interpretation mit einer Normierung mittels TRI-Q-Scores.
Die teststatistische Ueberprüfung der TRI-Q-Sort Objektivität insbesondere der TRI-Q-Sort Auswertung kann auf drei Ebenen mittels Berechnungen der Interrater-Uebereinstimmung durchgeführt werden:
Erstens auf der TRI-Q-Sort-Konzept-Ebene mittels Q-Korrelation.
zweitens auf der TRI-Q-Sort-Profil-Ebene mittels Interraterkorrelation bezüglich der Versuchspersonen-Profile und deren Mittelwerte,
drittens auf der TRI-Q-Sort-Item-Ebene mittels Interraterkorrelation bezüglich der Items.
Die Prüfung der TRI-Q-Sort Objektivität betreffend Durchführung, Auswertung und Interpretation kann qualitativ und quantitativ vorgenommen werden. Das Mass der Interrater-Uebereinstimmung in den Berechnungen zur TRI-Q-Sort Auswertung und zur TRI-Q-Sort Interpretation wird mit der Korrelation nach Pearson (r) und mit der Intra-Class-Correlation (ICC) geprüft.
1.3.2.2 Reliabilität
Reliabilität in der Testtheorie und im Q-Sort Verfahren
Nach Bortz (2002, S. 195) gibt die Reliabilität den Grad der Messgenauigkeit eines Instrumentes an. Die Reliabilität ist um so höher, je kleiner der zu einem Messwert gehörende Fehleranteil (Fehlervarianz) ist. Perfekte Reliabilität würde bedeuten, dass der Test in der Lage ist, den wahren Wert (wahre Varianz) ohne jeden Messfehler zu erfassen. Dieser Idealfall tritt in der Praxis leider nicht auf, da sich Fehlereinflüsse seitens der Versuchspersonen durch situative Störungen, Müdigkeit der Probanden, Missverständnisse oder Raten nie ganz ausschliessen lassen. Nach Lienert (1969, S. 211) fallen als Fehlerquelle seitens der Untersucher insbesondere Unterschiede in der Testdurchführung und als Fehlerquelle aus der Testkonstruktion eine schwache Homogenität der Testaufgaben ins Gewicht. Die Analyse und Behebung von Fehlerquellen seitens der Versuchspersonen und seitens der Untersucher gehört als Ueberprüfung von Testgütekriterien in die Evaluation der Test-Objektivität (vgl. Kapitel Resultate, Abschnitt Objektivität). Demgegenüber ist die Evaluation der Testkon- struktion ein Prozess, der bereits mit der Generierung eines Tests beginnt.
31
Im Hinblick auf die Reliabilitätsprüfung eines Tests erläutert Schelten (1997, S. 109-110) bezüglich Testkonstruktion, dass „ungenaue Messergebnisse sich neben der mangelnden Präzision des Messinstrumentes auch auf den Messgegenstand zurückführen lassen. Dies trifft zu, wenn der Gegenstand, der gemessen werden soll, sich rasch verändert. Solche instabilen Persönlichkeitsmerkmale können z.B. sein: die Stimmung, der Neurotizismus, die Angst. Wenn die Stabilität des zu messenden Merkmals gering ist, wird das einzelne Messergebnis unzuverlässig. Die punktuell vorgenommene Messung gibt nur eine recht ungenaue Abschätzung der Ausprägung des zu messenden Merkmales wieder.“ Diese mögliche Fehlerquelle als unerwünschte Einflussgrösse auf die Test-Reliabilität gilt es bei der Testkonstruktion zu berücksichtigen (vgl. Kapitel Resulate, Abschnitt Item-Generierung). Gemäss gemäss Bortz (2002, S. 196-198), Rauchfleisch (1994, S. 57-60) und Lienert (1969, S. 234) sind vier Methoden zu unterscheiden, mit denen die Reliabilität von eindimensionalen Testskalen berechnet werden kann: Retest-Reliabilität, Paralleltest-Reliabilität, Testhalbierungs-Reliabilität und Interne Konsistenz. Diese vier Methoden der Reliabilitätseinschätzung ordnen die Autoren drei verschiedenen Konzepten zu: A) Stabilitätskonzept (Re-Test) (zeitliche Merkmalskonstanz) B) Aequivalenzkonzept (Paralleltest, Halbierungsmethoden) (Merkmalskonstanz in unterschiedlichen Tests) C) Homogenitätskonzept (Inter-Item-Konsistenz)
(instrumentelle Konstanz, dh Leistungsfähigkeit des Tests als Messinstrument)
Bei der Reliabilitätsbewertung ist die Art der Reliabilitätsbestimmung zu beachten. Erfasst ein Test ein stabiles Persönlichkeitsmerkmal mit hoher zeitlicher Variabilität bzw. hoher „Funktionsfluktuation“ - Lienert und Raatz, (1994, S. 201) verstehen hierunter Merkmale, deren Bedeutung sich mit der Testwiederholung ändern -, „erweist sich eine hohe Paralleltest-Reliabilität als günstig. Beansprucht der Test jedoch, zeitlich stabile Merkmalsausprägungen zu messen, sollte besonderer Wert auf eine hohe Retest-Reliabilität gelegt werden. Hohe interne Konsistenz ist indessen von jedem Test zu fordern“ (Schelten 1997, S. 109-110). Lienert (1969, S. 309) schlägt als Reliablitätskoeffizienten folgende Werte vor: Konsistenz (standardisierte Tests) r > 0,9; Re-Test- oder Paralleltest-Reliabilität r > 0,8. Laut Bortz (2002, S. 199) sollte „ein guter Test ... eine Reliabilität von über 0,8 aufweisen. Reliabilitäten zwischen 0,8 und 0,9 gelten als mittelmässig. Reliabilitäten über 0,9 gelten als hoch. Bortz (2002, S. 195) hält zusammenfassend zur Reliabilität eines Tests fest, je grösser die Aehnlichkeit
32
zwischen Messwertreihen (Re-Test, Paralleltest, Halbierungsverfahren, Inter-Item-Konsistenz), umso höher ist der Anteil der systematischen, gemeinsamen Variation der Werte und umso geringer ist der Fehleranteil. Ist die Reliabilität eines Tests erwiesen, sind Messwertunterschiede zwischen den Versuchspersonen nicht „zufällig“, sondern systematisch; sie gehen auf „wahre“ Merkmalsausprägungen zurück und konstituieren die „wahre“ Varianz (Bortz 2002, S. 195).
In Bezug auf die Testmethodik im Q-Sort Verfahren schildert Minsel (1985, S. 144) in der Enzyklopädie der Psychologie: Trotz der Beliebtheit des Q-Sort-Verfahrens in der Persönlichkeits- und Psychotherapieforschung liegen „insgesamt sehr wenig Untersuchungen vor, die sich mit der Reliabilität von Q-Sorts befassten. Zudem sind kleine Stichprobengrössen und fehlende Angaben zu Zeitintervallen und Repräsentativität der Untersuchung die Regel. (...) Wenn die Reliabilität untersucht wurde, dann unter dem Aspekt der Stabilität. Andere Formen der Reliabilitätsprüfung, z.B. Paralleltest- und Halbierungs-Reliabilität fehlen ganz.“ Zudem hat sich die einzige, von Minsel (1985, S. 143) angeführte Methode Konsistenzberechnung mit „einem Koeffizienten für die Homogenität der Items innerhalb der Zellen“ nach Neff & Cohen (1967) als ungeeignet erwiesen, da sie lediglich eine Differenzierung der Inter-rater-Korrelationsberechnungen beinhaltet. Auch in der Metaanalyse zur Reliabilitäts- und Validitätsprüfung in der Q-Sort Methode von Van Ijzendoorn et al (2004) werden keine anderen Ermittlungsmethoden zur Berechnung von Q-Sort Objektivität und Q-Sort Reliabilität aufgeführt als diejenigen der Interrater-Korrelation und des Retest-Verfahrens.
A) Stabilitätskonzept (Re-Test)
Zur Bestimmung der Retest-Reliabilität wird gemäss Bortz (2002, S. 197) derselbe Test derselben Stichprobe zweimal vorgelegt, wobei das zwischen den Messungen liegende Zeitintervall variiert werden kann. Die Retest-Reliabiliktät ist definiert als Korrelation beider Messwertreihen. Diese Korrelation gibt an, wie viel Prozent der Gesamtunterschiedlichkeit der Testergebnisse auf „wahre“ Merkmalsunterschiede zurückzuführen sind. Eine Retest-Reliabilität von Rel = 0.76 lässt darauf schliessen, dass 76 % der Merkmalsvarianz auf „wahre“ Merkmalsunterschiede zurückgehen und nur 24 % auf Fehlereinflüsse.
Bei der Reliabilitätsbestimmung nach der Testwiederholungsmethode besteht die Gefahr, dass die Reliabilität eines Tests überschätzt wird, d.h. eine sogenannte Scheinreliabiliät zustande kommt, wenn die Lösungen der Testaufgaben erinnert werden, womit vor allem bei kurzen
33
Tests mit inhaltlich interessanten Items zu rechnen ist. Die Wahrscheinlichkeit von Erinnerungseffekten nimmt jedoch mit wachsendem zeitlichem Abstand zwischen den Testvorgaben zu. Lienert (1969, S. 217) vermerkt zur der häufig gestellten Frage, wie viel Zeit zwischen dem Test und seiner Wiederholung liegen soll:
„Einmal sollen die Erinnerungsspuren möglichst verblassen, das Intervall also möglichst gross sein; zum anderen soll das untersuchte Persönlichkeitsmerkmal möglichst unverändert bleiben, was wiederum ein kurzes Intervall wünschenswert erscheinen lässt. Je nach der Eigenart des Testinhaltes werden die Zeitabstände zwischen Test und Wiederholung von Tagen bis zu Monaten variieren.“
Die Bestimmung der Retest-Reliabilität ist nach Rauchfleisch (1994, S. 58) bei einer Reihe von Testverfahren häufig die einzige anwendbare Methode zur Ueberprüfung der Reliabilität des betreffenden Messinstruments, bietet sie doch die Möglichkeit, auch bei solchen Tests, für die keine Parallelformen vorliegen oder die sich nicht in zwei äquivalente Hälften unterteilen lassen, einigermassen verlässliche Reliabilitätsschätzungen vorzunehmen. Wenig brauchbar ist die Testwiederholungsmethode nach Bortz (2002, S. 196-197) bei Tests, die instabile bzw. zeitabhängige Merkmale erfassen, d.h. eine hohe Merkmalsfluktuation aufweisen. Hierbei wäre dann unklar, ob geringe Test-Tetest-Korrelationen für geringe Reliabilität des Tests oder für geringe Stabilität des Merkmals sprechen. Als Beispiel beschreibt Bortz einen Test, der verschiedene Stimmungen erfassen soll, die typischerweise sehr starken intraindividuellen Schwankungen unterliegen. Die Reliabilitätsschätzung mittels Retest-Methode ergibt z.B. Rel = 0.34. Dies würde einem Anteil von 34 % „wahrer“ Varianz in den Messwerten enstprechen, bzw. 66 % Fehlervarianz. Es wäre jedoch verfehlt, den Test nun wegen vermeintlich fehlender Messgenauigkeit abzulehnen, da in diesem Fall unsystematische Messwertdifferenzen zwischen den Untersuchungszeitpunkten nicht nur Fehlereffekte, sondern auch „echte“ Veränderungen darstellen. Laut Schelten (1997, S. 116) wird die Retest-Reliabilität eines Tests immer höher sein als seine Paralleltest-Reliabilität. Bei der Wiederholung ein und desselben-Tests ist der Testinhalt der gleiche. Es wird nicht eine neue Stichprobe von Testaufgaben aus dem Aufgabenuniversum dargeboten, wie dies bei der Reliabilitätsbestimmung über Paralleltests der Fall ist. Während bei der Paralleltest-Reliabilität eine Korrelation von 0.80 und höher verlangt wird, kann bei der Retest-Reliabilität ein Wert von 0.85 und höher gefordert werden.
Der Q-Sort Methodenübersicht von Minsel (1985, S. 144) folgend ist die Reliabilitätseinschätzung mittels Retest die einzig angewendete Methode, nach der die Reliabilität in den unterschiedlchen Q-Sort Verfahren geprüft wird. Zur Ermittlung der TRI-Q-Sort Reliabili- tät mittels Retest sind die Untersuchungsbedingungen mit einer Test-Wiederholung der Tri-
34
adeninterview-Video-Auswertungen an der Eichstichprobe bei genügendem Zeitabstand der TRI-Q-Sort Ratings optimal gegeben.
B) Aequivalenzkonzept (Paralleltest, Halbierungsmethoden)
Nach Lienert (1969, S. 349-365), Schelten (1997, S. 109-116) und Bortz (2002, S. 196-197) erfordert die Ermittlung der Paralleltest-Reliabilität die Entwicklung von zwei Testversionen, die beide Operationalisierungen desselben Konstrukts darstellen, wobei die möglichst hohe Uebereinstimmung der Mittelwerte und der Varianzen der beiden Testformen zu prüfen ist. Je ähnlicher die Ergebnisse beider Tests ausfallen, umso weniger Fehlereffekte sind offensichtlich im Spiel, d.h. die wahre Varianz wird hier als Kovarianz zwischen den Testwerten einer Personenstichprobe auf beiden Paralleltests geschätzt. Das Ergebnis einer Reliabilitätsprüfung nach der Paralleltest-Methode sind stets zwei Testformen, die sich entweder beide als reliabel oder beide als unreliabel erweisen.
Die Konstruktion von zwei Paralleltests erfolgt nach einer Itemanalyse mit Trennschärfe- und Schwierigkeits-Berechnungen, indem das Itemsample in Itempaare mit vergleichbarer, äquivalenter Schwierigkeit und Trennschärfe zusammengestellt und danach die Itempaare auf zwei Paralleltests aufgeteilt werden. Für heterogene Tests wird dabei noch auf die Gleichartigkeit des Testinhaltes zu achten sein und ist ein Aussenkriterium vorhanden, empfiehlt Lienert die Selektion, um Aufgabenpaare gleicher Validität zu gewinnen.
Eine Reliabilitätsüberprüfung mittels Testhalbierung kommt für das Q-Sort Verfahren nicht in Frage, da diese Methode aufgrund der erzwungenen Q-Sort Normalverteilung für beide Testhälften identische Ergebnisse erbringen würde. Die Paralleltest-Reliabilität hingegen kann in einem Q-Sort ermitelt werden, indem zusätzlich zu den genannten Regeln und den geforderten Itemkriterien Trennschärfe und Schwierigkeitsgrad beide Tests dieselbe erzwungene Profil-Normalverteilung aufweisen müssen, damit die Mittelwerte und die Varianzen der Paralleltests nicht infolge unterschiedlicher erzwungener Normalverteilungs-Profile als Paralleltest unvergleichbar sind.
C) Homogenitätskonzept (Inter-Item-Konsistenz)
Zur Inter-Item Konsistenz, auch interne Konsistenz genannt, vermerkt Lienert (1969, S. 235), dass „die Kennwerte der Reliabilität, wie sie durch Testhalbierung oder durch Konsis- tenzanalyse ermittelt werden, der grundlegenden Idee, dem Wesen der Reliabilität, am nächs-
35
ten kommen. Der Konsistenzkoeffizient steht daher in einem teilweisen Gegensatz zu den beiden anderen Reliabilitätskennwerten, die mehr eine Information für die Testpraxis als eine Aussage über die Qualität des Testmittels darstellen.“ Aus diesem Grunde bezeichnet Lienert (1969) die Homogenität eines Tests als funktionale Reliabilität. Die Berechnung der Inter-Item-Konistenz, auch interne Konsistenz genannt, stellt nach Bortz (2002, S. 198) „eine Erweiterung der Testhalbierungs-Methode dar und zwar nach der Ueberlegung, dass sich ein Test nicht nur in Testhälften, sondern in so viele „kleinste“ Teile zerlegen lässt, wie er Items enthält. Es kann also praktisch jedes einzelene Item wie ein „Paralleltest“ behandelt werden.“
Die Berechnung des Reliabilitätskoeffizienten der Inter-Item-Konsistenz kann in einem Test mit polytomen, bipolaren Items über die „Kuder-Richardson-Formel“ erfolgen (Dieterich 1973, Scheltern 1997). Nach Bortz (2002, S. 198) sind heute jedoch die Intraclass-Correlation Koeffizienten (Shrout & Fleiss 1979) und der Alpha-Koeffizient von Cronbach (1951, S. 1953) am gebräuchlichsten, welche sowohl auf dichotome als auch auf polytome Items anwendbar sind. Da das Cronbach-Alpha den auf eine Merkmalsdimension zurückgehenden Varianzanteil aller Items erfasst, wird das Mass der Inter-Item-Konsistenz auch als Homogenitätsindex verwendet und Bortz (2002, S. 198) ergänzt:
„Formal entspricht der Alpha-Koeffizient der mittleren Testhalbierungs-Reliabilität eines Tests für alle möglichen Testhalbierungen. ... Alpha ist umso grösser, je mehr Items die Skala enthält und je höher die Item-Korrelationen sind“.
Rauchfleisch (1994) vermerkt zu den verschiedenen Verfahren der Reliabilitäsprüfung, dass je nach Testverfahren unter Umständen nur eine bestimmte Methode der Reliabilitätseinschätzung möglich ist und dies bei vielen Tests auf zwei Ebenen: auf der Item-Ebene und auf der syndromalen Gesamttest-Ebene. Die Ergebnisse auf diesen beiden Ebenen seien zudem unterschiedlich zu gewichten:
„Da die Reaktionen auf die einzelnen Testitems stets gewissen Schwankungen unter-worfen sind, müssen wir in der Regel bei Reliabilitätsprüfungen auf der Item-Ebene niedrigere Koeffizienten erwarten als bei Schätzungen der Reliabilität auf syndromaler Ebene“ (Rauchfleisch 1994, S. 60).
Die Homogenität im Q-Sort, resp. im TRI-Q-Sort, kann infolge der erzwungenen Item-Normalverteilung an sich nicht berechnet werden, wie die Q-Sort Literatur zeigt. Im spezifischen Fall des TRI-Q-Sort kann jedoch aufgrund der speziellen Testkonstruktion des TRI-Q-Sort mit einer Testaufteilung in Risiko- und Schutz-Items eine Skalentransformation vorgenommen werden, welche Homogenitätsberechnungen auf Gesamttest- und auf Item-Ebene ermöglicht.
36
Zusammenfassung: Reliabilität des TRI-Q-Sort
Die Reliabilität des TRI-Q-Sort kann mit folgenden Methoden der drei Konzepte erstellt werden: a) Die Reliabilität des TRI-Q-Sort betreffend Stabilität ist mit einem Retest überprüfbar, wenn eine Testwiederholung der Triadeninterview-Auswertungen an der Eichstichprobe mit einem genügend grossen Zeitabstand von den TRI-Q-Sort Ratern vorgenommen werden kann. b) Die Reliabilität des TRI-Q-Sorts betreffend Aequivalenz kann mit dem Paralleltest-Verfahren untersucht werden, nicht jedoch mittels Testhalbierung. Ein Paralleltest kann durchgeführt werden, wenn die TRI-Q-Sort Items bezüglich Trennschärfe und Schwierigkeit so quantifizierbar sind, dass der TRI-Q-Sort in geeignete Item-Paare eingeteilt und diese auf zwei identische normalverteilte Tests aufgeteilt werden können. c) Die Reliabilität des TRI-Q-Sorts betreffend Homogenität ist im TRI-Q-Sort trotz der erzwungenen Item-Normalverteilung aufgrund der spezifischen TRI-Q-Sort Itemkonstruktion mit gleichverteilten Risiko- und Schutz-Items mit einer Skalentransformation sowohl auf Gesamttest- als auch auf Item-Ebene berechenbar.
1.3.2.3 Validität
Im Unterschied zu Minsel (1983, S. 145), der bezüglich dem Q-Sort-Verfahren festhält, dass die Validität der meisten Q-Sorts überwiegend ungeklärt ist, wird nachfolgend die Theorie zur Validitätsprüfung eines Tests dargestellt und - soweit möglich - am TRI-Q-Sort eine Validitätsprüfung vorgenommen. Die Gründe für Minsels Befund liegen primär darin, dass für spezifische Fragestellungen immer wieder neue Q-Sorts zusammengestellt wurden, ohne den Aufwand einer teststatistischen Ueberprüfung einzugehen. Diese Tendenz wurde unterstützt durch den nicht berücksichtigten Widerspruch ipsativer Datenerhebung und normativer Datenverrechnung, der eine teststatistische Validierung als vernachlässigbar erscheinen liess. Messinstrumente können jedoch sehr exakt immer das Falsche messen; dann sind sie zwar reliabel, aber nicht valide.
Nach Rauchfleisch (1994, S. 60) stellt die Validität „das wohl wichtigste, zugleich aber empirisch am schwierigsten überprüfbare Gütekriterium dar“. Die Bestimmung der Validität kann fast nie als endgültig betrachtet werden, weil die Validität streng genommen nur mittels eines anderen Messinstruments geprüft werden kann, dessen Validität bereits bekannt sein müsste.
37
Der Minimalanspruch an die Validität eines Tests ist laut Bortz (2002, S. 201), dass die Entscheidungen und Vorhersagen, die auf der Basis eines Tests getroffen werden, tauglicher sind als Entscheide und Vorhersagen, die ohne Test möglich wären. Bortz (2002, S. 199-202), Rauchfleisch (1994, S. 60-63), Dieterich (1973, S. 99-143) und Lienert (1969, S. 255-313) unterscheiden drei Hauptarten von Validitätsuntersuchungen zu einem Test: A) Inhaltsvalidität (logische Validität) B) Kriteriumsvalidität (empirische Validität) C) Konstruktvalidität
A) Inhaltsvalidität (logische Validität)
Strenggenommen handelt es sich bei der Inhaltsvalidität nicht um ein Testgütekriterium, sondern nur um eine Zielvorgabe, die bei der Testkonstruktion bedacht werden sollte. Ein Test, für den Inhaltsvalidität in Anspruch genommen wird, wird als repräsentative Stichprobe aus jener Population von Verhaltensweisen aufgefasst, auf die man vom Test aus schliessen will. Der Test ist dann so valide, wie die mit ihm erfasste Verhaltensstichprobe repräsentativ für den interessierenden Verhaltensbereich ist. Diese Repräsentativität kann nach Amelang (2001) nicht gemessen, sondern muss - am sinnvollsten durch Experten - geschätzt werden. „Es geht letztlich darum, dass eine Messung das relevante Phänomen möglichst in allen Spektren erfasst, und dies kann nur durch Forschen, Nachdenken und Kommunikation zwischen Wissenschaftlern herausgefunden werden und nicht durch bestimmte ‚Techniken’“ (ILMES, 2004).
Inhaltsvalidität ist ausserdem gegeben, wenn der Inhalt der Test-Items das zu messende Konstrukt in seinen wichtigsten Aspekten erschöpfend erfasst. Die Grundgesamtheit der Testitems, die potentiell für die Operationalisierung eines Merkmals in Frage kommen, müssen sehr genau definiert werden. Dieterich (1973, S. 42-63) empfiehlt hierzu eine sprachliche Analyse und Normierung der Testitems. Nach Lienert (1969, S. 265-294) hingegen ist für die exakte Gewinnung subjektiver Kriterien eine genaue Definition oder eine ausführliche Umschreibung der Aspekte, nach denen die Beurteilung der Versuchspersonen erfolgen soll, die wichtigste Voraussetzung. Für Lienert (1969, S. 265-267) und Bortz et al (2002, S. 199-201) ist die Einschätzung der Inhaltsvalidität abschliessend auch noch von Bedeutung, weil qualitativ „logisch-inhaltliche Analysen der Testitems Hinweise geben können, ob tatsächlich das fragliche Konstrukt oder ein alternatives Konstrukt gemessen wird“ (Bortz 2002, S. 201).
38
B) Kriteriumsvalidität (empirische Validität)
Bei der Kriteriumsvalidität geht es um die Uebereinstimmung eines Messinstruments mit anderen relevanten Merkmalen, sogenannten Aussenkriterien. Genauer unterscheidet man hier zwischen der Uebereinstimmungsvalidität, in der das Aussenkriterium gleichzeitig erhoben wird, und der Vorhersagevalidität, bei der das Aussenkriterium erst später gemessen wird (ILMES, 2004). Grundlage der Kriteriumsvalidität ist der Korrelationsschluss: Bei empirisch gesicherter Korrelation zwischen Test und Kriterium darf vom Test auf das Kriterium geschlossen werden, auch wenn die Korrelation theoretisch nicht erklärt werden kann (Amelang 2001). Ebenso wie bei der Objektivitäts- und Reliabilitätsprufung wird auch die empirische Validität eines Messinstruments anhand von gemessenen Kriteriums-Zusammenhängen quantifiziert. Dabei gelten auf Gesamttestebene Korrelationskoeffizienten zwischen 0,4 und 0,6 als mittelmässig und Koeffizienten über 0,6 als hoch (Bortz 2002, S. 201) Auf Itemebene ist der grösseren Variabilität entsprechend mit niedrigeren Koeffizienten zu rechnen.
Gemäss Rauchfleisch (1994, S. 61) setzt eine Ueberprüfung der empirischen Validität eines Tests voraus - und darin liegt das Hauptproblem -, dass sich empirisch fassbare, reliable und valide Aussenkriterien finden lassen, zu denen die Testreaktionen in Beziehung gesetzt werden können. Dass bei diesem Ausgangspunkt eine Validierung von Testverfahren mit tiefenpsychologischen Konstrukten besonders grosse Probleme aufwirft, da sie selbst oft vieldeutig und zum Teil so komplex sind, dass sie sich nicht leicht empirisch erfassen lassen, liegt auf der Hand.
C) Konstruktvalidität
Das Konzept der Konstruktvalidität bezieht sich auf den Schluss von einem Test auf ein theoretisches Konstrukt, das nicht direkt beobachtbar ist. Die Rechtfertigung dieses Schlusses muss sowohl theoretisch aus der Theorie über das Konstrukt wie empirisch begründet sein. Für die empirische Begründung gibt es keine verbindlichen Richtlinien. Im Allgemeinen wird die Konstruktvalidität empirisch so untersucht, dass man aus der Theorie, in die das Konstrukt eingebettet ist, Vorhersagen über das Verhalten im Test macht, und diese Hypothesen empirisch in Experimenten und Korrelationsstudien überprüft. Ein Test ist demzufolge konstruktvalide, wenn aus dem zu messenden Zielkonstrukt Hypothesen ableitbar sind, die anhand der Testwerte bestätigt werden können.
39
Gemäss Lienert (1969, S. 262) bezieht eine Konstruktvalidierung alle möglichen methodischen Wege der Inhalts- und der Kriteriumsvalidität mit ein: 1. Korrelationen des Tests mit Aussenkriterien 2, Korrelationen des Tests mit Tests ähnlicher Validität 3, Korrelationen mit Tests, die andere Persönlichkeitsmerkmale erfassen 4. Faktorenanalyse des zu validierenden Tests mit Aussenkriterien und mit ähnlichen und divergierenden Tests
5. Analyse interindividueller Unterschiede in den Testresultaten 6. Analyse interindividueller Veränderungen bei wiederholter Durchführung mit und ohne systematische Variation der Durchführungsbedingungen
7. Inhaltlich-logische Analyse der Testelemente - inhaltliche Inter-Item-Konsistenz
Alle in den Punkten 1-7 genannten empirischen Methoden zur Konstruktvalidierung ergänzen einander, indem sie das Konstrukt, das dem zu validierenden Test zugrundeliegt, von verschiedenen Seiten her einkreisen. Ein exaktes Mass der Höhe der Konstruktvalidität gibt es natürlich nicht. Deshalb ist für die Beurteilung empirischer Forschung die kritische Einschätzung gerade der Validität der verwendeten Masse und Variablenoperationalisierungen essenziell wichtig. Da nach Amelang (2001) in der Grundlagenforschung vor allem das Konzept der Konstruktvalidität als Argumentations- und Legitimations-Basis für empirische Untersuchungen verwendet wird, sollte auch den Nachweisen zur Inhaltvalidität und Kriteriumsvalidität als Basis der Konstruktvalidität besondere Aufmerksamkeit geschenkt werden.
Abrundend wird man laut Amelang (2001) zu einer Konstruktvalidierung auch konkurrierende Theorien heranziehen, um zu überlegen, ob das Testverhalten durch andere Konstrukte nicht ebenso gut oder besser erklärt werden kann. Erst auf dem Hintergrund vieler solcher Untersuchungen und dem Versuch, ihre Ergebnisse auch anders als durch das interessierende Konstrukt zu erklären, kann eine Einschätzung der Konstruktvalidität eines Tests vorgenommen werden.
Zusammenfassung: Validität im TRI-Q-Sort
Obwohl die Validität eines Q-Sorts nach Minsel (1983) in der Regel nicht überprüft wird, wird in der vorliegenden Untersuchung die Validitätsprüfung des TRI-Q-Sort gemäss Test- theorie auf drei Arten vorgenommen:
40
a) Inhaltsvalidität (logische Validität)
In dieser Evaluation werden die Repräsentativität des TRI-Q-Sort durch Experten und die TRI-Q-Sort Items mittels qualitativ logisch-inhaltlichen Analysen untersucht. b) Kriteriumsvalidität (empirische Validität)
Mit emprisch fassbaren, reliablen und validen Aussenkriterien werden sowohl der TRI-Q-Sort als Gesamttest als auch die TRI-Q-Sort Items auf ihre Validität mittels Korrelationsschluss überprüft. c) Konstruktvalidität
Erweist sich der TRI-Q-Sort als objektiv, reliabel und valide wird er auf sein Konstrukt hin, die triadische elterliche Kapazität, überprüft.
1.3.2.4 Nebengütekriterien
Als Nebengütekriterien beschreiben Lienert (1969, S. 18-19) und Rauchfleisch (1994, S. 64-65): Vergleichbarkeit
Ein Test ist dann vergleichbar, wenn ein oder mehrere Paralleltestformen vorhanden oder validitätsähnliche Tests verfügbar sind. Oekonomie
Ein Test ist ökonomisch, wenn er 1. eine kurze Durchführungszeit beansprucht, 2. wenig Material verbraucht, 3. einfach zu handhaben, 4. als Gruppentest durchführbar und 5. schnell und bequem auswertbar ist. Nützlichkeit
Ein Test ist dann nützlich, wenn er eine Persönlichkeitsmerkmal misst, für dessen Untersuchung ein praktisches Bedürfnis besteht. Er hat eine hohe Nützlichkeit, wenn er ein relevantes Persönlichkeitsmerkmal erfasst, welches durch kein anderes Testverfahren ermittelt werden kann. Er hat eine geringe Nützlichkeit, wenn er ein Persönlichkeitsmerkmal prüft, das mit einer Reihe anderer Tests ebenso gut untersucht werden könnte.
1.3.3 Itemanalyse
Nach Bortz (2002, S. 217-221, Schelten (1997, S. 143) Rauchfleisch (1994, S. 76-78) und Lienert (1969, S. 130-132) ist die Qualität eines Tests abhängig von der Art und der Zusammensetzung der Items, aus denen er besteht. Die Itemanalyse ist deswegen ein zentrales In- strument der Testkonstruktion und Testbewertung, in deren Verlauf die psychometrischen
Arbeit zitieren:
Miriam Vogel, 2006, TRI-Q-Sort: Triadische elterliche Kapazität und psychische Kindesentwicklung, München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
Formatvorlage (Microsoft Word) für eine Diplomarbeit, Masterarbeit, Ha...
Für MS Word 2003 - Update 2010
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Formatvorlage (OpenOffice) für eine Diplomarbeit, Masterarbeit, Hausar...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 35 Seiten
Formatvorlage / Vorlage zur Erstellung einer Diplomarbeit, Bachelorarb...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 15 Seiten
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Für MS Word 2007 - dotx
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wisse...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 20 Seiten
Erstellen einer schriftlichen Hausarbeit
Vorlagen, Muster, Formulare, Infobroschüren
Hausarbeit, 14 Seiten
Grundtechniken wissenschaftlichen Arbeitens
Bibliografieren - Reden - Schr...
Vorlagen, Muster, Formulare, Infobroschüren
Skript, 46 Seiten
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - ...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 39 Seiten
Psychologie - Klinische u. Gesundheitspsychologie, Psychopathologie: TRI-Q-Sort: Triadische elterliche Kapazität und psychische Kindesentwicklung ist nun auf dem Buchmarkt erhältlich
Psychologie - Klinische u. Gesundheitspsychologie, Psychopathologie: neuer Titel erschienen: TRI-Q-Sort: Triadische elterliche Kapazität und psychische Kindesentwicklung
Miriam Vogel hat einen neuen Text hochgeladen
Einführung in die Pädagogik der früheren Kindheit
Lilian Fried, Barbara Dippelhofer-Stiern, Michael-Sebastian Honig, Ludwig Liegle
Psychische Entwicklung bei chronischer Krankheit im Kindes- und Jugend...
Cornelia von Hagen, Hans Peter Schwarz
Regulationsstörungen der frühen Kindheit
Frühe Risiken und Hilfen im En...
Mechthild Papousek, Michael Schieche, Harald Wurmser
0 Kommentare