Leseprobe
Inhaltsverzeichnis
Tabellen- und Abbildungsverzeichnis
Abkürzungsverzeichnis
Zusammenfassung / Abstract
1 Einleitung
2 Theorie
2.1 Begriffsbestimmungen und Forschungsstand
2.2 Fragestellung und Hypothesen
3 Methode
3.1 Stichprobe
3.2 Durchführung
3.3 Instrumente undKodierungsschema
3.4 Statistische Analysen
4 Ergebnisse
4.1 Prüfung der Voraussetzungen und deskriptive Statistik
4.2 Prüfung der Hypothesen
4.2.1 StichprobengrößeninJPSP
4.2.2 Stichprobengrößen in NP
4.2.3 Effektstärken in JPSP und NP
4.2.4 Präregistrierungen, Poweranalysen, Veröffentlichung zusätzlicher Daten
4.3 Zusätzlich erhobene Variablen und explorative Analysen
4.3.1 Art der Stichprobe
4.3.2 Weitere Variablen
4.4 Berechnung des N-Pact Factor
5 Diskussion
5.1 Diskussion derErgebnisse und Schlussfolgerungen
5.1.1 Stichprobengrößen und -Zusammensetzungen
5.1.2 Poweranalysen und Datenveröffentlichung
5.1.3 N-Pact Factor und Effektstärken
5.1.4 Generalisierbarkeit der Ergebnisse
5.2 Einordnung in die bestehende Literatur und Ausblick
5.3 Limitationen
5.4 Fazit
Literaturverzeichnis
Anhang
Tabellen- und Abbildungsverzeichnis
Tabellenverzeichnis
Tabelle 1. Kodierungsschema für die statistischen Analysen
Tabelle 2. Deskriptive Statistik nach Journal und Jahr
Tabelle 3. NF und Effektstärke nach Journal und Jahr
Abbildungsverzeichnis
Abbildung 1. Berichtete a priori Poweranalysen im Jahr 2017
Abbildung 2. Berichteten Statements zur Datenveröffentlichung in 2017
Abbildung 3. N-Pact Factor nach Journal und Jahr
Abbildung 4. Effektstärken nach Journal und Jahr
Abkürzungsverzeichnis
Abbildung in dieser Leseprobe nicht enthalten
Zusammenfassung / Abstract
Zusammenfassung
Vor gut einem Jahrzehnt erschütterte die Replikationskrise die Wissenschaft. Seitdem setzt sich die psychologische Forschung intensiv mit Ursachen und Wegen zur Überwindung dieser Krise auseinander. Eine empirische Zeitschriftenanalyse untersuchte den Status quo und verglich dazu Stichprobengrößen und Effektstärken in den Subdisziplinen Sozial-, Persönlichkeits- und Neuropsychologie vor und nach Einschnitt der Replikationskrise. Weiterhin wurde die Anzahl berichteter Präregistrierungen, a priori Poweranalysen und Statements zur Veröffentlichung zusätzlicher Daten betrachtet. Während sich die Stichproben vergrößerten, verkleinerten sich die untersuchten Effekte in den drei Subdisziplinen. Präregistrierungen blieben auch in 2017 noch weitestgehend ungenutzt. Die Anzahl berichteter apriori Poweranalysen und Statements zur Datenveröffentlichung stieg in der Sozial- und Persönlichkeitspsychologie, nicht aber in der Neuropsychologie. Weitere Untersuchungen sind erforderlich, um die Ergebnisse zu replizieren.
Schlüsselwörter: Replikationskrise, Stichprobengröße, Effektstärke, Präregistrierung, a priori Poweranalyse, Open Science I’ve got the power: Implications of the replication crisis for sample sizes in several psychological subdisciplines - a journal analysis on sample sizes, effect sizes and additional factors that have an influence on the statistical power of research.
Abstract
More than a decade ago the scientific world was struck by a deep replication crisis and the psychological field started to search for possible causes and ways to overcome the deficits. The present study analyzed two scientific journals to compare sample sizes and effect sizes in social psychology, personality psychology, and neuropsychology before and after the outset of the crisis. The number of preregistrations, a priori power analyses and statements on supplemental data publication were also considered. While sample sizes increased, effect sizes decreased in all of the three subdisciplines. Preregistrations remained largely unused. The number of reported a priori power analyses and supplemental data statements grew in social and personality psychology, but not in neuropsychology. Additional studies are needed to replicate the results.
Key words: replication crisis, sample size, effect size, preregistration, a priori power analysis, Open Science
1 Einleitung
Die aktuelle Replikationskrise, deren Startpunkt spätestens auf das Jahr 2011 datiert wird, führte zur Entdeckung schwerwiegender und anhaltender Probleme im Berichten, Analysieren und selektiven Publizieren von Daten in verschiedenen wissenschaftlichen Disziplinen, darunter auch in der Psychologie, wodurch Ergebnisse von Untersuchungen verfälscht und somit nicht replizierbar werden (Renkewitz & Heene, 2019). Einige Subdisziplinen der Psychologie scheinen stärker davon betroffen zu sein als andere, so gibt die Open Science Collaboration (2015) an, dass insgesamt lediglich 36 Prozent der 97 von ihnen replizierten Studien signifikante Ergebnisse aufwiesen, es dabei aber große Unterschiede gab zwischen den untersuchten Subdisziplinen Sozialpsychologie, mit einer Replikationsrate von 25 Prozent, und Kognitiver Psychologie, mit einer Replikationsrate von 50 Prozent. Als mögliche Begründung für diese Diskrepanz wird neben den kleineren untersuchten Effekten in der Sozialpsychologie auch die Tatsache genannt, dass in der Kognitiven Psychologie häufiger Designs mit Messwiederholungen vorkamen, die per se eine höhere Teststärke aufweisen (Open Science Collaboration, 2015).
Seit diesen Befunden der Open Science Bewegung wird in der psychologischen Forschung vielseitig und kontrovers über Ursachen und Maßnahmen zur Überwindung der Replikationskrise debattiert. Neben den oben genannten Faktoren Studiendesign und Effektstärke scheinen auch weitere Faktoren eine Rolle zu spielen. Renkewitz und Heene (2019) nennen die Tendenz zur einseitigen Veröffentlichung positiver Befunde, den sogenannten Publication Bias, fragwürdige Forschungspraktiken, bekannt als QRP (aus dem Englischen questionable research practices), sowie ungünstige Förderstrukturen seitens der Fachzeitschriften und Geldgeberorganisationen. Neben diesen Faktoren mit negativem Einfluss auf die Verlässlichkeit und Replizierbarkeit von Studien werden aber auch positive Aspekte als protektive Faktoren benannt, darunter ausreichende Teststärke und, damit verbunden, größere Stichproben (z.B. Erdfelder, 2018; Sassenberg & Ditrich, 2019).
Wo steht die psychologische Forschung heute, etwa zehn Jahre nach Beginn der aktuellen Replikationskrise? Die vorliegende Arbeit soll einen Beitrag zur Beantwortung dieser Frage leisten, indem sie die Faktoren Stichprobengröße und Effektstärke betrachtet. Mittels einer empirischen Zeitschriftenanalyse werden die diesbezüglichen Veränderungen in insgesamt drei Subdisziplinen - Sozial- und Persönlichkeitspsychologie zusammengefasst auf der einen, Neuropsychologie auf der anderen Seite - zu drei Zeitpunkten, 2005, 2011 und 2017, untersucht. Fragen, die dabei beleuchtet werden, sind: Wie haben sich die Stichprobengrößen als wesentlicher Aspekt, der die Teststärke einer Studie beeinflusst, über die Jahre hinweg verändert? Gibt es Unterschiede in den Entwicklungen in der Sozial- und Persönlichkeitspsychologie im Vergleich zur Neuropsychologie? Welche Rolle spielen die Größe der untersuchten Effekte und weitere Faktoren, wie zum Beispiel eine erfolgte Präregistrierung oder die Art der Stichprobe, in diesem Zusammenhang? Sicherlich werden diese Fragen nicht abschließend beantwortet werden können. Vielmehr soll die vorliegende Arbeit einen Eindruck des Status quo vermitteln, aus dem, zusammen mit anderen Untersuchungen der Faktoren, welche die Replikationskrise bedingen, Perspektiven für weitere notwendige Veränderungen abgeleitet werden können.
2 Theorie
Zunächst werden zentrale Begriffe geklärt, der aktuelle Forschungsstand dargestellt und historisch eingeordnet. In Abschnitt 2.2 werden die Hypothesen der vorliegenden Studie dargelegt und in die aktuelle Fragestellung eingebettet, auf die sie sichjeweils beziehen.
2.1 Begriffsbestimmungen und Forschungsstand
Die Teststärke, auch statistische Power genannt und berechnet als 1 - ß (wobei ß für den Fehler 2. Art steht), wird definiert als Wahrscheinlichkeit, dass ein statistischer Test einen Effekt einer bestimmten Größe aufdeckt, wenn dieser Effekt tatsächlich existiert (Chambers, 2019). Dabei ist die Teststärke einer Untersuchung abhängig von drei Faktoren: dem zuvor festgelegten Signifikanzkriterium a, der Größe des untersuchten Effekts sowie der Stichprobengröße (Cohen, 1992b). Seit den 1960er-Jahren ist bekannt, dass die Teststärke in der wissenschaftlichen Psychologie häufig zu niedrig ist. Damals führte der Psychologe Jacob Cohen die ersten systematischen Poweranalysen mittels einer groß angelegten Zeitschriftenanalyse durch und fand heraus, dass die durchschnittliche Teststärke für das Aufdecken mittlerer Effekte in der Psychologie bei 48 Prozent lag, für kleine Effekte sogar bei lediglich 18 Prozent (Chambers, 2019; Sedlmeier & Gigerenzer, 1989), wobei eine Teststärke von 80 Prozent als gerade noch angemessen gilt, eine Stärke von 96 Prozent als erstrebenswert (Erdfelder, 2018; Schimmack, 2012). Obwohl Cohens Erkenntnisse zahlreiche Untersuchungen zum Thema Teststärke in den 1960er- und 1970er-Jahren zur Folge hatten, änderten sich die Forschungspraktiken nicht merklich zum Besseren, wie Sedlmeier und Gigerenzer Ende der 1980er-Jahre herausfanden (Sedlmeier & Gigerenzer, 1989). Zu ähnlich ernüchternden Ergebnissen kamen Scott Bezeau und Roger Graves im Jahr 2001, mit einer durchschnittlichen ermittelten Teststärke von 50 Prozent für die Entdeckung mittlerer Effektgrößen, sowie Kate Button und Kollegen im Jahr 2013, mit einer noch geringeren durchschnittlichen Teststärke von lediglich 21 Prozent für Studien aus dem Bereich Neurowissenschaften (Button et al., 2013; Chambers, 2019).
Als Auslöser der aktuellen Replikationskrise in der Psychologie gilt die Veröffentlichung eines Artikels des renommierten Psychologen Daryl Bem im Journal of Personality and Social Psychology im Jahr 2011, in dem er anhand gängiger empirischer Forschungspraktiken eine menschliche Fähigkeit zur Vorausahnung, den Psi-Effekt, ,nachwies‘, was in Forscherkreisen zu Ungläubigkeit und zu der Frage führte, wie solch abwegige Ergebnisse in einer renommierten wissenschaftlichen Fachzeitschrift publiziert werden konnten (Nelson et al., 2018; Renkewitz & Heene, 2019). Dieses Mal blieben die Faktoren, die zu einer mangelnden Replizierbarkeit von Befunden führten, nicht unbeachtet. Neben einer Welle der Empörung darüber, dass anerkannte methodische Praktiken zur Konzeption von Studien und zum Berichten statistischer Ergebnisse zu solch fragwürdigen Ergebnissen führen können (Chambers, 2019), begann eine Bewegung, die das Momentum des Vertrauensverlusts in die Psychologie nutzte, um etablierte Verfahren, Methoden und Rahmenbedingungen grundlegend infrage zu stellen - es entstand die sogenannte Open Science Bewegung.
Open Science wird definiert als eine Reihe von Maßnahmen, die den Forschungsprozess transparenter und Daten leichter verfügbar machen sollen, sodass Ergebnisse und deren Herleitung leichter nachvollziehbar werden. Langfristiges Ziel ist dabei die Verbesserung von Robustheit und Replizierbarkeit wissenschaftlicher Befunde (Spellman, 2022). Durch Open Science und andere Anstrengungen seitens vieler Forscherinnen und Forscher hat in den letzten Jahren ein Umdenken in der wissenschaftlichen Psychologie stattgefunden. Immer mehr einzelne Forschende, aber auch ganze Institutionen sowie Fachzeitschriften und andere Organisationen bekennen sich zu Transparenz und Verfügbarmachung von Daten, widmen sich der Replizierbarkeit von Studien und verpflichten sich zur Präregistrierung ihrer Arbeiten (Nelson et al., 2018). Doch inwiefern wirken sich diese veränderten Forschungs- und Publikationspraktiken bereits auf die Qualität von Fachartikeln aus? Wenn vor einigen Jahren noch davon ausgegangen werden musste, bei komplexen Designs aufgrund der angewandten methodischen Praktiken Raten von bis zu 61 Prozent falsch positiver Befunde vorzufmden (Chambers, 2019; Simmons et al., 2011), lässt sich dann in neueren publizierten Artikeln erkennen, dass Autorinnen und Autoren Maßnahmen ergreifen, die dem entgegenwirken (zum Beispiel durch die Auswahl größerer Stichproben, Präregistrierung der geplanten Studien und Veröffentlichung aller relevanten Daten)?
Zahlreiche aktuelle Studien und Analysen widmen sich dieser Frage, darunter auch eine Reihe empirischer Fachzeitschriftenanalysen (z.B. Fraley & Vazire, 2014; Kossmeier et al., 2019; Reardon et al., 2019; Sassenberg & Ditrich, 2019). Ein Aspekt scheint dabei besonders im Fokus zu stehen, vermutlich aufgrund seiner Bedeutung für die Teststärke einer Untersuchung und damit für die Aussagekraft von Studienergebnissen: die Stichprobengröße. Ein weiterer häufig untersuchter Aspekt ist die Effektstärke. Die Effektstärke bzw. Effektgröße beschreibt laut Sedlmeier und Gigerenzer (1989, zitiert nach Cohen (1977)) die Diskrepanz zwischen der Nullhypothese (Ho) und der Altemativhypothese (Hi). Bei einem LTest für Mittelwerte, beispielsweise, wäre es der standardisierte Unterschied zwischen den zwei Populationsmittelwerten, die von Ho und Hi postuliert werden. Die Effektstärke bezieht sich auf die Stärke der Abweichung in einer bestimmten Variable beim Vergleich unterschiedlicher Populationen bzw. auf die Stärke des Zusammenhangs zwischen verschiedenen Variablen innerhalb einer Population (Schäfer und Schwarz, 2019).
Sassenberg und Ditrich (2019) fanden in einer Studie zu Stichprobengröße und Teststärke unter anderem ihre Annahme gestützt, dass in der Sozialpsychologie zwischen den Jahren 2009/2011 und 2016/2018 ein signifikantes Wachstum sowohl der Stichprobengrößen als auch der damit verbundenen Teststärke stattfand. Schäfer und Schwarz (2019) hingegen untersuchten durchschnittliche Effektstärken verschiedener psychologischer Subdisziplinen und kamen zu dem Ergebnis, dass viele berichtete Effekte überhöht waren und nicht den Populationswerten entsprachen. Des Weiteren fanden sie deutliche Unterschiede in den Effektstärkenje nach Subdisziplin, mit höheren Werten für die Biologische und die Experimentelle Psychologie als für die Entwicklungs- oder Sozialpsychologie, sowie signifikante Unterschiede in den Effektstärken von präregistrierten und nicht präregistrierten Studien. Daraus leiteten sie einen Appell für eine stärkere Nutzung von Präregistrierungen ab, um robuste Effektstärken zu erhalten, die als Referenzwerte für weitere Untersuchungen dienen können. Fraley und Vazire (2014) schlugen im Jahr 2014 die Einführung eines sogenannten N-Pact Factor (NF) vor, der über die mediane Stichprobengröße und somit indirekt über die Teststärke von Studien informiert. Der NF kann laut der Autorin und dem Autor als Instrument dafür dienen, die Qualität veröffentlichter psychologischer Forschung über verschiedene Journals hinweg zu bewerten und zu vergleichen. Die drei oben beschriebenen Untersuchungen illustrieren beispielhaft die Bedeutung von Stichprobengröße, Teststärke und Effektstärke in der aktuellen wissenschaftlichen Debatte.
2.2 Fragestellung und Hypothesen
In der vorliegenden Arbeit wurde mittels einer empirischen Zeitschriftenanalyse zunächst untersucht, ob sich die in anderen Studien gefundenen Zuwächse in Stichprobengrößen replizieren lassen. Es wurde weiterhin betrachtet, inwiefern der Einschnitt der Replikationskrise im Jahr 2011 unterschiedliche Auswirkungen auf die Stichprobengrößen in den Subdisziplinen Sozial- und Persönlichkeitspsychologie auf der einen Seite und Neuropsychologie auf der anderen Seite hatte (Hypothesen la bis lc sowie 2a bis 2c). Unterschiede in den durchschnittlichen Effektstärken wurden mit Hypothese 3a untersucht, mit Hypothese 3b wurde die Anzahl berichteter Effektstärken vor und nach dem Beginn der Replikationskrise verglichen. Hypothesen 4a bis 4c prüften jeweils die Anzahl berichteter Präregistrierungen, a priori Poweranalysen und Statements zur Veröffentlichung zusätzlicher Daten in den verschiedenen Subdisziplinen. Es wurden folgende Hypothesen geprüft:
Hypothese la: In den untersuchten Artikeln der Fachzeitschrift Journal of Personality and Social Psychology (JPSP) findet sich ein signifikantes Wachstum der berichteten Stichprobengrößen zwischen den Jahren 2005 und 2011.
Verschiedene empirische Zeitschriftenanalysen berichteten für die Subdisziplinen Sozialpsychologie und Persönlichkeitspsychologie bereits vor dem Einschnitt der Replikationskrise wachsende Stichprobengrößen. Fraley und Vazire (2014), beispielsweise, berichteten für JPSP eine mediane Stichprobengröße von N= 80 für das Jahr 2006 und von N= 96 für das Jahr 2010.
Hypothese Ib'. In den untersuchten Artikeln der Fachzeitschrift JPSP findet sich ein signifikantes Wachstum der berichteten Stichprobengrößen zwischen den Jahren 2011 und 2017.
Für den Zeitraum nach dem Einschnitt der Replikationskrise wurden ebenfalls mehrfach Zuwächse in den Stichprobengrößen berichtet. Sassenberg und Ditrich (2019), beispielsweise, berechneten für JPSP eine durchschnittliche Stichprobengröße von N= 102 für das Jahr 2011 und von N= 195 für das Jahr 2016.
Hypothese lc: Das Wachstum der berichteten Stichprobengrößen in den untersuchten Artikeln der Fachzeitschrift JPSP ist signifikant größer zwischen den Jahren 2011 und 2017 als im Vergleichszeitraum 2005 bis 2011.
Sassenberg und Ditrich (2019) fanden nach dem Einschnitt der Replikationskrise größere Zuwächse in den durchschnittlichen Stichprobengrößen von Studien und schlossen auf einen stattgefundenen Lerneffekt innerhalb der Sozialpsychologie.
Hypothese 2a. In den untersuchten Artikeln der Fachzeitschrift Neuropsychology findet sich ein signifikantes Wachstum der berichteten Stichprobengrößen zwischen den Jahren 2005 und 2011.
Eine der wenigen Studien zu typischen Stichprobengrößen in der Neuropsychologie stammt von Bezeau und Graves (2001) und berichtete für die Jahre 1998/1999 eine durchschnittliche Stichprobengröße von N = 53.68 (bei einer medianen Stichprobengröße von N= 39.5) für die Klinische Neuropsychologie.
Hypothese 2b'. In den untersuchten Artikeln der Fachzeitschrift Neuropsychology findet sich ein signifikantes Wachstum der berichteten Stichprobengrößen zwischen den Jahren 2011 und 2017.
Vergleichende Untersuchungen von Stichprobenumfängen über die Jahre hinweg konnten für die Subdisziplin Neuropsychologie nicht gefunden werden. Es wird davon ausgegangen, dass, ähnlich anderer Subdisziplinen der Psychologie, auch die Neuropsychologie ein graduelles Wachstum der Stichprobenumfänge erfuhr.
Hypothese 2c. Das Wachstum der berichteten Stichprobengrößen in den untersuchten Artikeln der Fachzeitschrift Neuropsychology ist - im Gegensatz zum Wachstum in den untersuchten Artikeln der Fachzeitschrift JPSP - nicht signifikant größer zwischen den Jahren 2011 und 2017 als im Vergleichszeitraum 2005 bis 2011. Bezeau und Graves (2001) betrachteten die Subdisziplin Neuropsychologie als weniger betroffen von einem Mangel an Teststärke als andere Subdisziplinen und bezeichneten die in den Jahren 1998/1999 untersuchten Stichprobengrößen als angemessen. Gelman und Geurts (2017) beschrieben die Eigenperspektive der Neuropsychologie als eine, die sich wenig betroffen sieht von der aktuellen Replikationskrise. Dementsprechend wurde in der vorliegenden Studie davon ausgegangen, dass, während sich die Zuwächse in Stichprobengrößen in den Subdisziplinen Sozial- und Persönlichkeitspsychologie teilweise durch eine Reaktion der Akteure dieser Subdisziplinen auf die Replikationskrise erklären lassen sollten, dies für die Neuropsychologie nicht der Fall sein wird. Somit sollte das Wachstum von Stichprobenumfängen in der Neuropsychologie in ähnlichem Umfang stattfinden, wie bereits vor Beginn der Replikationskrise.
Hypothese 3a: In den untersuchten Artikeln der Fachzeitschrift Neuropsychology werden injedem betrachteten Jahr - 2005, 2011 und 2017 - größere Effektstärken berichtet als in den untersuchten Artikeln der Fachzeitschrift JPSP.
Verschiedene Studien (z.B. Fraley & Vazire, 2014) nannten r=.21 als für die Sozialpsychologie typische Effektstärke. Bezeau und Graves (2001) fanden eine durchschnittliche Effektstärke von d =.88 (r =.40) für die Klinische Neuropsychologie. Entsprechend wird postuliert, dass in der Neuropsychologie über alle drei Zeitpunkte hinweg größere Effektstärken berichtet werden als in der Sozialoder Persönlichkeitspsychologie.
Hypothese 3b: Sowohl in der Fachzeitschrift JPSP als auch in der Fachzeitschrift Neuropsychology werden in den untersuchten Ausgaben des Publikationsjahres 2017 mehr Artikel veröffentlicht, in denen Effektstärken zu den gefundenen Ergebnissen berichtet werden, als in den untersuchten Ausgaben der Publikationsjahre 2005 und 2011.
Motyl et al. (2017) untersuchten Veränderungen in der Anzahl berichteter Effektstärken in sozialpsychologischen Studien und fanden heraus, dass sich diese Zahl zwischen 2003/2004 und 2013/2014 mehr als verdoppelte, von 19,22 % auf 49,65 %. Es wird postuliert, dass das Berichten von Effektstärken nach der Replikationskrise zu einer gängigen Praxis in allen Subdisziplinen der Psychologie wurde und entsprechend im Jahr 2017 für alle drei Subdisziplinen größer ausfallen sollte als in den Jahren 2005 und 2011.
Hypothese 4a: In den untersuchten Ausgaben des Publikationsjahres 2017 werden in der Fachzeitschrift JPSP mehr Artikel veröffentlicht, in denen Präregistrierungen von Studien berichtet werden, als in der Fachzeitschrift Neuropsychology.
Nosek et al. (2017) betonten die Bedeutung von Präregistrierungen für die Forschung, erwähnten aber gleichzeitig, dass diese gerade erst beginnen, sich zu etablieren. Schäfer und Schwarz (2019) berichteten von einem Zusammenhang zwischen Präregistrierung, Stichprobengröße und Größe des aufgedeckten Effekts in Studien. Gelman und Geurts (2017) schrieben über die Subdisziplin Neuropsychologie, dass diese im Rahmen der Replikationskrise bisher nicht im Fokus der Aufmerksamkeit stand, auch wenn sie ebenso davon betroffen sein mag. Für die Subdisziplinen Sozialund Persönlichkeitspsychologie hingegen gibt es eine große Anzahl an Studien, die sich mit den Auswirkungen der Replikationskrise und ihrer möglichen Überwindung befassen (z.B. Glöckner et al., 2018; Motyl et al., 2017; Nelson et al., 2018; Sassenberg & Ditrich, 2019). Folglich wird postuliert, dass sich mehr Maßnahmen zur Förderung von Transparenz, Verlässlichkeit der Ergebnisse und Replizierbarkeit von Studien in den Subdisziplinen Sozial- und Persönlichkeitspsychologie finden werden als in der Neuropsychologie. Ein Indiz dafür wäre eine gestiegene Anzahl an berichteten Präregistrierungen.
Hypothese 4b'. In den untersuchten Ausgaben des Publikationsjahres 2017 werden in der Fachzeitschrift JPSP mehr Artikel veröffentlicht, in denen a priori Poweranalysen zur Ermittlung der benötigten Stichprobengröße berichtet werden, als in der Fachzeitschrift Neuropsychology.
Shrout und Rogers (2018) betonen die Bedeutung von apriori Poweranalysen für das Erzielen verlässlicher Ergebnisse. Analog zur Begründung von Hypothese 4a wird erwartet, dass auch die Anzahl berichteter a priori Poweranalysen in den Subdisziplinen Sozial- und Persönlichkeitspsychologie im Jahr 2017 größer ausfallen wird als in der Subdisziplin Neuropsychologie. Bakker et al. (2012) fanden für das Jahr 2011 einen Anteil von 11 % an psychologischen Studien, in denen Überlegungen zur Teststärke aufBasis der Stichprobengröße angestellt wurden.
Hypothese 4c. In den untersuchten Ausgaben des Publikationsjahres 2017 werden in der Fachzeitschrift JPSP mehr Artikel veröffentlicht, in denen Statements zur Veröffentlichung aller relevanten Daten abgegeben werden, als in der Fachzeitschrift Neuropsychology.
Für die Sozialpsychologie fanden Motyl et al. (2017) einen großen Anstieg in der Anzahl von Studien, die Statements zur Veröffentlichung zusätzlicher Daten abgaben, von einem Anteil von 1,36 % der Studien im Jahr 2003/2004 auf 8,59 % im Jahr 2013/2014. Analog zu den Hypothesen 4a und 4b wird erwartet, dass die Anzahl berichteter Statements zur Veröffentlichung zusätzlicher Daten in der Sozial- und Persönlichkeitspsychologie größer ausfallen wird als in der Neuropsychologie.
Zusätzlich zur Hypothesenprüfung wurden aus den Artikeln beider Fachzeitschriften Daten erhoben, die mögliche Interpretationen der Befunde stützen beziehungsweise abschwächen oder zukünftige Forschungsprojekte anstoßen könnten: Angaben zur Art der Stichprobe, Anzahl der Studien pro Artikel, Art der Studien (Experiment, Quasi-Experiment, Korrelationsstudie), zum Studiendesign (Querschnitt, Längsschnitt, gemischtes Design; online oder offline) sowie zur Anzahl der Bedingungen/Gruppen pro Studie.
3 Methode
3.1 Stichprobe
Die Stichprobe wurde von den Prüferinnen der Bachelorarbeit vorgegeben und besteht aus Studien, die in Artikeln ausgewählter Ausgaben zweier psychologischer Fachzeitschriften publiziert wurden. Für die Subdisziplinen Sozial- und Persönlichkeitspsychologie wurde die Stichprobe der Zeitschrift Journal of Personality and Social Psychology (JPSP) entnommen, wobei zwei Ausgaben pro Jahr aus den Jahren 2005 und 2011 sowie drei Ausgaben aus dem Jahr 2017 ausgewählt wurden. Für die Subdisziplin Neuropsychologie wurde die Stichprobe der Zeitschrift Neuropsychology (NP) entnommen, wobeije zwei Ausgaben pro Jahr aus den Jahren 2005, 2011 und 2017 ausgewählt wurden.
JPSP und NP werden von der American Psychological Association (APA) herausgegeben. JPSP wird in mehreren Zeitschriftenanalysen (z.B. Fraley & Vazire, 2014; Prager et al., 2021; Sassenberg & Ditrich, 2019) als repräsentativ für die Subdisziplinen Sozial- und Persönlichkeitspsychologie herangezogen. Die APA (APA, 2022a) beschreibt dieses Journal als Medium für alle Bereiche der Sozial- und Persönlichkeitspsychologie. JPSP ist in drei getrennt editierte Rubriken aufgeteilt: Attitudes and Social Cognition (ASC), Interpersonal Relations and Group Processes (IRGP) und Personality Processes and Individual Differences (PPID). Während ASC und IRGP vornehmlich Artikel aus der Subdisziplin Sozialpsychologie veröffentlichen, deckt PPID die Persönlichkeitspsychologie ab. Mit einem Impact Factor (IF) von 7.673 für das Jahr 2020 sowie einem Fünfjahres-TF von 10.4 wird JPSP auf Platz drei im Ranking der 65 Fachzeitschriften in der Subdisziplin Sozialpsychologie gelistet (APA, 2022a) und ist somit ein renommiertes und viel zitiertes Journal aus diesem Bereich. NP steht mit einem IF von 3.295 für das Jahr 2020 und einem Fünfjahres-TF von 3.753 auf Platz 54 von 131 im Ranking der Fachzeitschriften für die Subdisziplin Neuropsychologie (APA, 2022b). Der Herausgeber beschreibt das Spektrum von Artikeln, die in NP veröffentlicht werden, als empirische Originalarbeiten, systematische Reviews, Metaanalysen und theoretische Artikel über die Zusammenhänge zwischen Gehirn und kognitiven, emotionalen und behavioralen Funktionen im Menschen. Es wird der Anspruch erhoben, die besten Forschungsarbeiten und Ideen aus dem Feld der Neuropsychologie zu publizieren (APA, 2022b).
Für die Analysen in der vorliegenden Studie wurden sämtliche Artikel folgender Ausgaben betrachtet: JPSP Band 89 Ausgaben 5 und 6, Band 100 Ausgabe 6, Band 101 Ausgabe 5 sowie Band 112 Ausgaben 3, 4 und 5; NP Band 19 Ausgaben 2 und 3, Band 25 Ausgaben 2 und 5 sowie Band 31 Ausgaben 1 und 2. Nach dem Ausschluss von Artikeln gemäß Kodierungsschema (siehe Abschnitt 3.3 Instrumente und Kodierungsschema) wurde aus der finalen Stichprobe nicht jede Studie in die statistischen Betrachtungen und Analysen aufgenommen, sondern jeweils nur eine Studie pro Artikel. Dies geschah aus folgenden zwei Gründen: Zum einen enthalten die Artikel aus JPSP in den meisten Fällen mehrere Studien, häufig drei oder vier, teilweise sogar bis zu acht, während NP meist eine Studie pro Artikel enthält, selten zwei oder drei. Würden sämtliche Studien pro Artikel berücksichtigt, führte dies zu sehr unterschiedlich großen Stichproben, nämlich 244 Studien in JPSP und 64 in NP, was die Vergleichbarkeit beider Gruppen beeinträchtigte. Zum anderen sind die Studien innerhalb eines Artikels nicht unabhängig voneinander (Sassenberg & Ditrich, 2019), sodass die Ergebnisse der statistischen Berechnungen und Analysen bei einer Berücksichtigung mehrerer Studien pro Artikel verfälscht würden. Bei der Auswahl einer Studie für die Datenerhebung und -analyse wurde, angelehnt an Schäfer und Schwarz (2019), nach folgender Regel vorgegangen: Es wurde generell die erste Studie eines Artikels betrachtet, aus der bei mehreren berichteten Ergebnissen das erste Ergebnis herangezogen wurde, das sich eindeutig auf die Hauptforschungsfrage bezieht. Letzteres ist vor allem für die Auswahl einer berichteten Effektstärke relevant beziehungsweise, bei fehlender berichteter Effektstärke, für die Berechnung einer Effektstärke auf der Grundlage berichteter Ergebnisse.
Von der betrachteten Gesamtstichprobe mit 149 Artikeln wurden 35 Artikel ausgeschlossen, 18 aus JPSP sowie 17 aus AP (siehe Ausschlusskriterien in Abschnitt 3.3 Instrumente und Kodierungsschema). Nach den Ausschlüssen bestand die finale Stichprobe aus 114 Artikeln, 58 aus JPSP und 56 aus NP. Allen 114 Artikeln konnten Stichprobengrößen für die Berechnungen und Analysen mit dieser Variable entnommen werden, in die Analysen mit Effektstärken konnten insgesamt 108 Werte einfließen (54 aus JPSP, 54 aus NP), darunter 61in Artikeln berichtete Werte (31 aus JPSP, 29 aus NP) sowie 60 errechnete Werte auf Basis berichteter Ergebnisse (30 aus JPSP, 30 aus NP). Die Tatsache, dass die Summe berichteter und berechneter Effektstärken größer ist als die insgesamt 108 aufgenommenen Werte liegt daran, dass einige Effektstärken in Maßen wie Gamma oder Wilks’ Lambda angegeben wurden, für die keine entsprechende Umrechnungsformel in den Korrelationskoeffizienten r gefunden wurde, sodass r in diesen Fällen trotz angegebener Effektstärke aus den berichteten Ergebnissen berechnet wurde.
Es erfolgten Stichprobenumfangsplanungen mittels G*Power 3.1 (Faul et al., 2007), um zu überprüfen, ob die Stichprobengröße der vorliegenden Studie ausreicht, um den erwarteten Effekt aufzudecken. Zur Bestimmung der Höhe des erwarteten Effekts wurden Vergleichsstudien herangezogen. Während Sassenberg & Ditrich (2019) in einer vergleichbaren Zeitschriftenanalyse von einem kleinen bis mittleren Effekt von/= .15 (entspricht r = .15) ausgehen, nennen Fraley & Vazire (2014) einen für die Subdisziplinen Sozial- und Persönlichkeitspsychologie typischen Effekt von d= 0.43 (entspricht r = .21) und legen selbst den Fokus auf einen Effekt von d= 0.41 (r = .20). Schäfer & Schwarz (2019) nennen Effekte von r =.19 bis r = .48 für die Sozial- und Persönlichkeitspsychologie. Reardon et al. (2019) gehen in ihrer Studie von einem Effekt von r = .20 für die Klinische Psychologie aus, die hier als mit der Neuropsychologie hinsichtlich der Effektgrößen vergleichbar betrachtet wird. Auf Grundlage der betrachteten Vergleichsstudien wurde für die vorliegende Studie ein kleiner bis mittlerer Effekt in Höhe von r =.20 erwartet. Um einen solchen Effekt mit einer a-Fehler-Wahrscheinlichkeit von .05 und einer Teststärke (1-ß) von .80 aufzudecken, müssten in die Analysen der Stichprobengrößen mittels Varianzanalyse Werte aus mindestens 244 Studien in die Berechnungen einfließen. In die Analysen der Effektstärken mittels t-Tests müsste mindestens ein n = 78 pro Gruppe einfließen. Die genauen Berechnungen sind den Anhängen Bl und B2 beigefügt. Es sei angemerkt, dass die geforderten Probandenzahlen deutlich größer sind als die in der vorliegenden Studie untersuchten Stichproben.
3.2 Durchführung
Die Erhebung wurde als quantitative empirische Zeitschriftenanalyse geplant und umfasst einen Vergleich der Journals JPSP und NP hinsichtlich darin berichteter Stichprobengrößen und Effektstärken zu drei Zeitpunkten: 2005, sechs Jahre vor dem Einschnitt der Replikationskrise, 2011, das Jahr, in dem die aktuelle Replikationskrise begann, und 2017, sechs Jahre nach Einschnitt der Replikationskrise. Für das Jahr 2017 wurde außerdem in beiden Zeitschriften die Anzahl berichteter Präregistrierungen, a priori Poweranalysen und Statements zur Veröffentlichung zusätzlicher relevanter Daten untersucht. Diese drei Aspekte - Präregistrierungen, Poweranalysen im Vorfeld der Datenerhebung und Veröffentlichung relevanter Daten - werden vielfach als mögliche Maßnahmen genannt und gefordert, um einigen der durch die Replikationskrise bekannt gewordenen Mängeln in den psychologischen Forschungspraktiken vorzubeugen (z.B. Adler et al., 2018; Moher et al., 2020; Motyl et al., 2017; Schäfer & Schwarz, 2019). Während Veränderungen in den Stichprobenumfängen in die vorhergesagte Richtung ein Indiz für eine Reaktion der Forschenden auf die Replikationskrise sein kann, könnten diese Veränderungen auch auf andere Einflüsse zurückzuführen sein, wie z. B. neue technische Möglichkeiten oder Veränderungen in der Art oder dem Design von Studien. Diese Faktoren wurden bei der Datenerhebung ebenfalls berücksichtigt und sollen in die Auswertung und Interpretation einfließen. Veränderungen in der Anzahl von Präregistrierungen, a priori Poweranalysen und Anzahl der Statements zu veröffentlichten Daten sollten ein klarer Ausdruck einer Reaktion der Forschenden auf die Replikationskrise sein - sei es durch eigene Motivation, die Missstände in der Forschung zu beheben und sich für gute wissenschaftliche Praxis einzusetzen, oder durch die Notwendigkeit, den Forderungen von Fachzeitschriften, Universitäten oder anderen Institutionen nachzukommen, denn diese Akteure spielen eine wichtige Rolle sowohl in der Entstehung als auch in den Bemühungen zur Überwindung der derzeitigen Replikationskrise, wie unter anderem Dominik et al. (2022) oder auch Nosek et al. (2018) feststellen. Auf diesen Aspekt wird in der Diskussion näher eingegangen.
3.3 Instrumente und Kodierungsschema
Die vorliegende Arbeit orientierte sich für die Erstellung des Kodierungsschemas und die Auswahl von Ein- und Ausschlusskriterien teilweise an den Vorgehensweisen von Fraley und Vazire (2014), Kossmeier et al. (2019) sowie Schäfer und Schwarz (2019). Die untersuchten Artikel und Studien wurden über die Elektronische Zeitschriftenbibliothek der Universitätsbibliothek der FernUniversität in Hagen abgerufen. Aufgenommen in die Analysen wurden ausschließlich quantitative Studien mit menschlichen Teilnehmern als Probanden. Ausgeschlossen wurden demnach theoretische Artikel, Konzeptpapiere, methodologische Artikel, Reviews (im Sinne von kritischen Besprechungen), Editorials, Kommentare, Studien mit unklarer Gesamtstichprobe, Studien ohne eigene Stichprobe (Sekundärdatenanalysen), Literaturreviews, Metaanalysen, Errata, qualitative Studien, metawissenschaftliche Arbeiten, Fallstudien, systematische Reviews und empirische Zeitschriftenanalysen. Sämtliche ausgeschlossenen Artikel wurden samt Ausschlussgrund in einer Tabelle im Anhang aufgeführt (Anhang E). In JPSP wurden ausgeschlossen: zwei theoretische Artikel, acht Artikel ohne eigene Stichprobe bzw. ohne menschliche Probanden, ein Editorial, zwei Kommentare, eine Metaanalyse, ein Erratum, eine qualitative Studie sowie vier sonstige Studien, die nicht das Kriterium quantitative Studie an menschlichen Probanden erfüllten (Untersuchung von Modellfit, exploratorische Faktorenanalyse, Untersuchung eines Inventars auf interkulturelle Validität, Analyse von Konstrukten). Einige Artikel erfüllten mehr als ein Ausschlusskriterium. In NP wurden ausgeschlossen: sieben Sekundärdatenanalysen bzw. Studien ohne eigene Stichprobe, zwei Literaturreviews, ein systematisches Review, zwei Metaanalysen, ein Erratum, eine qualitative Studie, vier Fallstudien, zwei sonstige Studien (Konfirmatorische Faktorenanalyse, nicht weiter spezifizierte nicht quantitative Analyse). Auch hier erfüllten einige Artikel mehr als ein Ausschlusskriterium.
Die Analyseeinheit war jeweils eine Studie pro Artikel. Anhand von Titel und Abstract wurde der Hauptuntersuchungsgegenstand derjeweiligen Studie identifiziert. Anschließend wurde die erste Gesamtstichprobe, die sich eindeutig auf den Hauptuntersuchungsgegenstand bezog, als A' kodiert und als ganze Zahl angegeben sowie eine eventuell berichtete Effektstärke als ÄS' in derjeweils angegebenen Metrik. Wurden keine Effektstärken angegeben, so wurden diese, sofern möglich, berechnet. Berichtete Effektstärken, die nicht als Korrelationskoeffizient r angegeben waren, wurden in Anlehnung an das Vorgehen von Schäfer und Schwarz (2019) in r umgerechnet, wenn möglich. Dafür wurde das Online-Programm Psychometrica (Psychometrica, 2022; Lenhard & Lenhard, 2016) verwendet. Fürjeden Artikel bzw. jede erste relevante Studie in einem Artikel wurden außerdem weitere Parameter wie im unten stehenden Kodierungsschema angegeben kodiert, sofern solche Parameter berichtet wurden. Bei den Parametern .a priori Poweranalyse‘ und Veröffentlichung aller bzw. zusätzlicher Daten‘ wurde nachträglich neben den Variablen 0 und 1 zusätzlich die Kodierung 2 hinzugefügt für Fälle, in denen zwar nicht explizit eine Poweranalyse durchgeführt wurde bzw. nicht sämtliche Daten veröffentlicht wurden, es aber im ersten Fall Überlegungen zur Teststärke der Studie gab, die auch in Bezug zur Stichprobe gesetzt wurden, oder es im zweiten Fall Angaben zur Veröffentlichung wesentlicher oder umfassender zusätzlicher Daten oder Materialien gab.
Das Kodierungsschema wurde erstellt in Anlehnung an das Codebook zum Artikel von Kossmeier et al. (2019), veröffentlicht unter https://osf.io/kcuyj/ auf der Website des Center for Open Science. Einzelne Elemente wurden weiterhin dem Coding Scheme zum Artikel von Schäfer und Schwarz (2019) entnommen, ebenfalls zu finden auf obiger Website unter https://osf.io/t8uvc/, sowie den Variables tables zum Artikel von Fraley und Vazire (2014), veröffentlicht unter https://osf.io/7im3n/.
Tabelle 1. Kodierungsschema für die statistischen Analysen
Abbildung in dieser Leseprobe nicht enthalten
[...]