Quantitative Analyse des Einflusses der Replikationsdebatte auf den Evidenzwert von Forschungsergebnissen in der Psychologie

Quantitative Literaturarbeit


Bachelorarbeit, 2018

60 Seiten, Note: 48 von 58

Anonym


Leseprobe

Inhaltsverzeichnis

Zusammenfassung

Inhaltsverzeichnis

Abbildungsverzeichnis

Tabellenverzeichnis

1 Einleitung

2 Theoretischer und empirischer Hintergrund
2.1 Die Replikationsdebatte
2.2 Gründe für fehlende Replizierbarkeit
2.2.1 Fragwürdige Forschungspraktika (Questionable research practices, QRP)
2.2.2 p -hacking
2.2.3 Der Publikationsbias
2.3 Die Open Science Bewegung
2.4 Kritik an der Open Science Bewegung
2.5 Bessere Forschung
2.6 Fragestellung, Studiendesign und Hypothese

3 Methode
3.1 Selektionskriterien
3.2 Ausschlusskriterien
3.3 Tabellen
3.4 P -curve
3.5 Die Testung
3.6 Genauigkeit einer p -curve Analyse

4 Ergebnisse

5 Diskussion
5.1 Einschränkungen der Studie
5.2 Einschränkungen der verwendeten Programme und p -curve
5.3 Zusammenfassende Einschätzung
5.4 Lösungsansätze
5.5 Fazit

Literaturverzeichnis

Anhang 1: Tabellen

Zusammenfassung

Wie jüngste Ereignisse zeigten, irrt sich die Wissenschaft und das nicht nur zufällig. Falsche, mangelhafte und sogar manipulierte Studien lösten eine Welle der Empörung aus. Zusätzlich stürzten eine Reihe gescheiterter Replikationsversuche um das Jahr 2009 die Psychologie endgültig in eine Krise.Ziel der vorliegenden Arbeit ist es herauszufinden, ob sich in den letzten zehn Jahren etwas an der Forschungspraxis geändert hat. Die Frage, ob sich die Replikationsdebatte in der Psychologie positiv auf den Evidenzwert von Forschungsergebnissen aus dem Jahr 2017 ausgewirkt hat, soll beantwortet werden. Aus insgesamt 34 Fachartikeln des wissenschaftlichen Magazins Psychological Science der Jahre 2009 und 2017, wurden die relevanten Teststatistiken extrahiert und anhand einer Onlineapp von Felix Schönbrodt (2018) die p -Kurven berechnet, sowie verglichen. Für die Kurven beider Jahre wurde statistische Evidenz festgestellt. Auffällig ist die deutlich rechtsschiefere Verteilung der p -Werte des Jahres 2017 aufgrund welcher die Hypothese angenommen werden kann, dass sich die Replikationsdebatte in der Psychologie positiv auf Forschungsergebnisse ausgewirkt hat. Es ist somit wichtig, dass sich die Psychologie der Replikationsdebatte stellt.

Abbildungsverzeichnis

Abbildung 1: p-curve der extrahierten Teststatistiken des Jahres 2009

Abbildung 2: p-curve der extrahierten Teststatistiken des Jahres des Jahres 2017

Abbildung 3: Auszug aus der Disclosure Tabelle 2009

Tabellenverzeichnis

Tabelle A Disclosure Tabelle 2009

Tabelle B Disclosure Tabelle 2017

Tabelle C Exclosure Tabelle 2009

Tabelle D Exclosure Tabelle 2017

1 Einleitung

Ohne wissenschaftliche Forschung gäbe es weder Innovation noch Fortschritt (Maasen, Kaiser, Reinhart & Sutter, 2012). Doch nicht immer bilden Forschungsergebnisse die Realität ab. Nicht selten wurde methodisch unsaubere oder sogar radikal gefälschte Forschung veröffentlicht. Die Anzahl zurückgezogener Artikel stieg von 22 Artikeln im Jahr 2001 auf 381 Artikel im Jahr 2011 an (Grifka, 2018). Studien rund um die Wirksamkeit eines Medikaments namens GcMAF sorgten kürzlich für große Aufregung. GcMAF[1] ist ein Protein, welches 2010 auf den Markt kam und als angebliches Wunderheilmittel gegen Krebs galt. Die Studien, aufgrund welcher sich die Fehlinformation bezüglich GcMAF verbreiten konnte, waren methodisch unsauber und basierten auf wissenschaftlich invaliden Ergebnissen. Inzwischen wurden die Studien zurückgezogen (Ugarte, Bouche & Meheus, 2014).

Im Jahr 1998 wurde eine Studie veröffentlicht, die bei 12 Kindern angeblich einen Zusammenhang zwischen Impfen und Autismus gefunden haben will (Wakefield et al., 1998). Daraufhin ließen viele Eltern ihre Kinder nicht mehr impfen, wobei sich vor allem die Masern wieder stärker ausbreiteten (Meyer, Reiter, 2004). Obwohl die Studie widerlegt wurde, hielt sich das Gerücht hartnäckig und die Impfzahlen erholten sich nur langsam (Burgess, Burgess & Leak, 2006).

Auch die Psychologie hat ein Glaubwürdigkeitsproblem. Im Jahr 2010 kam es zu heftiger Kritik an gängiger Forschungspraxis. Eine Vielzahl von Studienergebnissen konnten nicht repliziert werden, Untersuchungsmaterialien wurden oftmals nicht zur Verfügung gestellt, Ergebnisse im Nachhinein angepasst und es wurde sogar bewusst getäuscht (Spellman, Gilbert & Corker, 2017). Diese Replikationsmisserfolge im Jahr 2011 (Doyen, Klein, Pichon & Cleermans, 2012), sowie die generell fehlende Transparenz im Umgang mit Daten und methodischem Vorgehen (Spellmann et al., 2017) führte die Psychologie in die Replikationskrise und zum Start des Replikationsprojekts der Open Science Collaboration (OSC, 2015) [2]. Im Rahmen dieser Open Science Collaboration wurden insgesamt 100 Studien repliziert. Während ursprünglich 97% der Studien signifikant waren, konnten anschließend nur 36 Prozent erfolgreich repliziert werden (OSC, 2015). Die Gründe für dieses Replikationsproblem in der Psychologie sind zahlreich. Einerseits tendieren wissenschaftliche Magazine dazu, Studien mit signifikanten Ergebnissen zu veröffentlichen, was zu einem sogenannten Publikationsbias, einer Verzerrung der Datenlage, führt (Fecher, 2018). Dies ist insbesondere bei der Durchführung von Metaanalysen problematisch. Denn werden die Ergebnisse vieler ähnlicher Studien zu einer Schätzung zusammengefasst, diese Schätzung beinhaltet aber nur signifikante Ergebnisse, führt dies zu einer Überschätzung der Effektgrößen (Simmonsohn, Nelson & Simmons, 2014b).Zusätzlich haben verschiedene fragwürdige Forschungspraktiken, die unter dem Begriff p -hacking zusammengefasst werden, das Ziel, signifikante Ergebnisse zu produzieren und das auch bei Studien mit geringer Power (Simmons, Nelson & Simmonsohn, 2013). Unter p -hacking werden verschiedene Vorgehensweisen verstanden, welche die Ergebnisse von statistischen Analysen künstlich verbessern, um ein statistisch signifikantes Ergebnis zu erhalten (Simmons, et al., 2013). Dies kann beispielsweise „optionales Stoppen“ sein, was bedeutet, dass in einem Experiment so lange Versuchspersonen hinzugefügt werden, bis ein signifikanter p-Wert resultiert (Spellman et al., 2017). Vieles deutet also darauf hin, dass die bisher angewandten Methoden zur Qualitätssicherung in der psychologischen Forschung nicht ausreichten (Fecher, 2018).

Seit Beginn der Replikationskrise hat sich einiges verändert. Beispielsweise die Online Plattform Open Science (OSF), eine nonprofit Organisation, welche 2012 gegründet wurde, ermutigt Wissenschaftlerinnen und Wissenschaftler, ihre Arbeiten transparent zu halten und diese zu teilen. OSF ist zu einem großen Teil mitverantwortlich für bessere Forschungspraktiken in der Psychologie (Nelson et al., 2017). Psychologische Forschung wurde allgemein transparenter. Die Präregistrierung vieler Studien führt dazu, dass geplantes, methodisches Vorgehen eingehalten und nicht nachträglich verändert werden kann. Dies sollte auch zu einer Reduktion von p -hacking führen (Chambers, 2017). Ziel der vorliegenden Arbeit ist es herauszufinden, ob sich die Replikationsdebatte positiv auf die psychologische Forschungspraxis ausgewirkt hat. Hat sich der Evidenzwert von Forschungsergebnissen verbessert? Dazu werden p -Werte aus Artikeln der Ausgaben der Fachzeitschrift Psychological Science aus dem Jahre 2009 und 2017, also vor- und nach der Replikationsdebatte, anhand einer p -curve Analyse gegeneinander getestet und verglichen.

2 Theoretischer und empirischer Hintergrund

Im folgenden Kapitel soll der theoretische, sowie der empirische Hintergrund dieser Arbeit beschrieben werden. Zuerst wird der Begriff der Replikationsdebatte definiert und erläutert, weshalb es überhaupt zu einer Replikationsdebatte kam. Anschließend wird erläutert, warum von einer Veränderung des Evidenzwertes vor- und nach der Replikationsdebatte ausgegangen werden kann. Außerdem wird auf die Open Science Bewegung und das methodisch fragwürdige Vorgehen wie p -hacking eingegangen und auf deren Auswirkungen auf die p -Werte.

2.1 Die Replikationsdebatte

Die Replikationsdebatte, auch Replikationskrise genannt, fand ihren Anfang vor rund acht Jahren. Eine Reihe an Ereignissen zwischen den Jahren 2010 bis 2012 zwang die psychologische Forschung dazu, ihre eigenen Standards zu überprüfen. Es folgen einige Beispiele:

Das Journal of Personality and Social Psychology, ein monatlich erscheinendes wissenschaftliches Fachmagazin, veröffentlichte einen Artikel von Daryl Bem (2011). In dem Artikel wurden neun Experimente mit insgesamt mehr als eintausend Testpersonen vorgestellt. Daryl Bem (2011) testete die rückwirkende Beeinflussung durch Zeitumkehrung. Er behauptete also, dass Menschen von einem unvorhersehbaren, zukünftigen Ereignis beeinflusst würden und testete individuelle Antworten, welche abgegeben wurden, bevor die mutmaßlichen Stimulus Ereignisse auftraten. Obwohl derzeit in Hinblick auf physikalische oder biologische Mechanismen dieses Phänomen nicht erklärt werden kann, fielen acht der neun Experimente signifikant aus (Bem, 2011). Dies veranlasste die Forschungsgemeinde zu hinterfragen, wie ein angesehener Wissenschaftler Evidenz für offensichtlich falsche Hypothesen finden konnte (Nelson et al., 2017).Es wurden außerdem mehrere Fälle in der psychologischen Forschung bekannt, in denen im großen Umfang Daten gefälscht wurden (Lacetera & Zirulia, 2011).Diederik Stapel, ein niederländischer Psychologe, war einer der prominentesten Mitarbeiter der Sozialpsychologie mit jahrzehntelanger Erfahrung im Bereich der Datenanalyse. Seine Arbeiten wurden in mehreren, renommierten wissenschaftlichen Magazinen veröffentlicht. Er verfälschte Daten im großen Stil, erfand sogar Experimente, wiederholte Untersuchungen bis sie zu dem gewünschten Ergebnis führten oder entfernte ohne Begründung unerwünschte Versuchspersonen aus der Studie. Teilweise unterschieden sich auch die beschriebenen Forschungsverfahren von den tatsächlich Angewandten (Nelson et al., 2017). Zwei weitere Psychologen verloren ihre Professur nachdem auch bei ihnen gravierendes Fehlverhalten festgestellt werden konnte (Simmonsohn, 2013). Sowohl Lawrence Sanna als auch Dirk Smeesters veröffentlichten zusammen mit Kollegen Studien mit verdächtigen Ergebnissen, die Simmonsohn (2013) zweifeln ließen, ob die Ergebnisse aus randomisierten Stichproben stammten. Er forderte bei den betroffenen Psychologen die Rohdaten an wodurch es ihm gelang durch statistische Analysen den Betrug zu identifizieren (Simmonsohn, 2013). Hinzu kam die Erkenntnis, dass nur wenige der veröffentlichten, signifikanten Ergebnisse einer Replikation standhalten (Ioannidis et al., 2009; Brunner & Schimack 2016).

2.2 Gründe für fehlende Replizierbarkeit

Jahrzehntelang haben sich Psychologen auf eine Methodik der Datenerhebung und Analyse verlassen, die es Forschenden zu einfach machte, falsch-positive[3] und nicht reproduzierbare Ergebnisse zu veröffentlichen. In dieser Zeit war es nahezu unmöglich, zwischen wahren, also replizierbaren und falschen, nicht replizierbaren Befunden zu unterscheiden (Nelson et al., 2017). Grundlegende wissenschaftliche und methodische Standards wurden vernachlässigt. Ein Klima, das ermöglichte, dass methodisches Fehlverhalten in der Psychologie jahrelang unerkannt blieb (Enserink, 2012). Gründe für die Schwierigkeit Studien zu replizieren sind zahlreich. Da wäre beispielsweise die unzulängliche Dokumentation von statistischen Daten. Die Methodenabschnitte empirischer Artikel waren oft kurz und unvollständig. Nicht ordnungsgemäß archivierte Studienmaterialien gingen oftmals einfach verloren oder waren nicht wiederherstellbar (Spellman et al., 2017).Ioannidis et al. (2009) versuchte Ergebnisse aus 18 Studien zu replizieren. Obwohl die Studien ausgewählt wurden, weil alle statistischen Daten frei zugänglich waren, gelang es nur bei zwei Studien, Ergebnisse zu replizieren. Bei den übrigen waren die zur Verfügung gestellten Daten entweder unvollständig notiert oder es gab Defizite in der Notation der Vorgehensweise, der Datenverarbeitung und Analyse (Ioannidis et al., 2009). Es reicht also noch nicht aus, dass Daten zur Verfügung gestellt werden. Es muss auch sauber dokumentiert werden.

2.2.1 Fragwürdige Forschungspraktika (Questionable research practices, QRP)

In zwei Versuchen konnten Spellman et al. (2017) nachweisen wie einfach es ist, mittels bestimmter Vorgehensweisen in der Datenanalyse signifikante Ergebnisse zu produzieren. In ihrem ersten Experiment wurden Teilnehmerinnen und Teilnehmer zufällig entweder einem Kinderlied oder einem Kontrolllied zugeteilt. Sie sollten danach berichten, wie alt sie sich fühlten und wie alt ihr Vater war. Eine Kovarianzanalyse ergab, dass sich die Teilnehmer nach dem Hören des Kinderliedes deutlich älter fühlten. In einem zweiten Experiment hörten die verschiedenen Probanden entweder einen Beatles-Song „When I’m Sixty-Four“ oder das Kontrolllied aus der ersten Studie. Danach berichteten sie ihr Geburtsdatum und das Alter ihres Vaters. Eine ANCOVA ergab, dass die Teilnehmer, die „When I’m Sixty-Four“ hörten, deutlich jünger waren als die Kontrollgruppe. In Anbetracht des randomisierten und kontrollierten Designs, muss das Ergebnis also lauten, dass das Hören von Beatles-Songs Personen jünger werden lässt. Dieses offensichtlich falsch-positive Ergebnis konnte nur durch unsauberes methodisches Vorgehen erreicht werden.

Es gibt vielfältige theoretische Möglichkeiten für Wissenschaftlerinnen und Wissenschaftler um Studien so zu modifizieren, dass ein spannendes, publizierbares Ergebnis resultiert. Forschende können ihre Stichprobengröße frei wählen, sie können mit der Datenerfassung aufhören wann immer sie wollen und sie können entscheiden welche Kovariablen inkludiert werden und welche nicht. Sie sind außerdem frei in ihrer Entscheidung, welche Teststatistiken berichtet werden und sie können sogar Hypothesen nachträglich ändern, damit diese ergebniskonform werden. Solche Studien werden kaum robust genug sein um erfolgreich repliziert werden zu können (Spellman et al., 2017).

2.2.2 phacking

Die Anreize spannende und signifikante Ergebnisse zu produzieren sind zahlreich. Ein Forschender muss möglichst viel und in möglichst renommierten[4] Magazinen veröffentlichen, um seine Reputation zu erhöhen. Es ist also ein großer Druck vorhanden, signifikante Ergebnisse und spannende Erkenntnisse zu produzieren, denn nicht signifikante Ergebnisse sind nicht so leicht publizierbar wie Signifikante. Eine Tatsache, die als Publikations-Bias bekannt ist (Fecher, 2018).Nelson et al., (2017) befürchten daher, dass besonders vor der Replikationsdebatte auch nicht signifikante Studien in Fachzeitschriften mit vermeintlich signifikanten Ergebnissen zu finden sind. Die Autoren gehen davon aus, dass viele Wissenschaftlerinnen und Wissenschaftler Experimente wiederholten oder ihr methodisches Vorgehen anpassten, wenn eine Studie keine signifikanten Ergebnisse hervorbrachte. Es wird vermutet, dass Forschende beispielsweise nach Fällen suchen, die den Effekt stören und diese dann als Ausreißer deklarieren, oder sie fügen Versuchspersonen hinzu, bis ein Ergebnis signifikant wird (optionales Stoppen). Eine andere Möglichkeit wäre, abhängige Variablen umzukodieren oder selektiv auszuwählen und ergebniskonforme Hypothesen erst nach der Datenerhebung aufzustellen (Harking). Dieses methodisch fragwürdige Vorgehen, nur selektiv signifikante Analysen zu berichten, macht es Forschenden einfach, falsch-positive Befunde zu veröffentlichen und ist unter dem Begriff p -hacking bekannt (Nelson, Simmonson & Simonsohn, 2017).

2.2.3 Der Publikationsbias

Der Publikationsbias bezeichnet die bereits erwähnte Tendenz von wissenschaftlichen Zeitschriften, nur Studien mit signifikanten Ergebnissen zu veröffentlichen. Bereits 1995 fanden Sterling, Rosenbaum und Weinkam Evidenz dafür, dass publizierte signifikante Ergebnisse aus wissenschaftlichen Studien keine repräsentative Darstellung von wahren Forschungsergebnissen sind. Ein gefundener Effekt ist immer nur eine Schätzung des wahren Effekts. Diese Schätzung der Effektgröße hängt von drei Faktoren ab: Der Stichprobengröße, der Wahrscheinlichkeit mit der ein Effekt als signifikant akzeptiert wird (Alpha-Fehler, in der Psychologie typischerweise 5%) und der Fähigkeit eines Tests, diesen Effekt zu erkennen – was als statistische Power eines Testes bezeichnet wird. Somit ist es möglich, dass Studien Effekte finden, die in Wahrheit nicht vorhanden sind oder umgekehrt (Field, 2009). Demzufolge sind kleinere Effektstärken mit größeren p -Werten von statistischen Tests verbunden (Simmonsohn et al., 2014b). Je größer die Anzahl an Testpersonen, umso höher ist die Chance, dass ein gefundener Effekt auch tatsächlich ein wahrer Effekt ist. Oft wird jedoch eine viel zu kleine Stichprobe gewählt, die ungeeignet ist, einen Effekt zu messen. Die Größe des Effekts in der Population ist der eigentlich interessante Wert, da dieser aber nicht messbar ist, wird die Effektgröße aus der Stichprobe verwendet, um die wahrscheinliche Größe des Effekts in der Population zu schätzen. Egal wie dieser gemessen wird, eine Maßzahl von Null bedeutet immer keinen Zusammenhang; Eins wäre ein perfekter Effekt. Die Größe des gewünschten Effekts, kann berechnet werden, womit ist es möglich ist, vor Experimentbeginn abzuschätzen, wie viele Probanden benötigt werden, um einen kleinen (.10), mittleren (.30) oder großen (.50) Effekt finden zu können (Field, 2009).Wenn nun tendenziell mehr signifikante Ergebnisse publiziert werden oder Ergebnisse, in denen die Ergebnisse künstlich unter die .05 Grenze gedrückt wurden, stellt das eine Verzerrung in Richtung positiver Ergebnisse dar (Brunner & Schimmack, 2016). Die Reproduzierbarkeit von Studien in der Psychologie kann also unter anderem anhand der statistischen Power geschätzt werden. Die statistische Power ist die Wahrscheinlichkeit eines Tests, einen tatsächlichen Effekt in der Population zu finden. Idealerweise wird die Power vor Beginn der Erhebung berechnet. Von psychologischen Studien mit geringer Power spricht man bei Werten <.80, also einer Wahrscheinlichkeit von unter 80%, einen Effekt mit der verwendeten Stichprobengröße zu finden. Eine adäquate Power liegt bei 80%, also .80 (Field, 2009). In der Psychologie werden aber regelmäßig Studien mit geringerer Power durchgeführt (Simmonsohn et al., 2014b). Bakker, van Dijk und Wicherts berichten in ihrer Studie (2012), dass 96% der psychologischen Studien signifikante Effekte berichten. Diese hätten jedoch oftmals eine geringe Power. Forschende würden kleine Studien gegenüber Größeren bevorzugen, da sie so leichter kleine Änderungen des Forschungsdesigns vornehmen können und somit eine größere Chance auf signifikante Ergebnisse haben (Bakker, et al., 2012).

2.3 Die Open Science Bewegung

Die gegenwärtige Open Science Bewegung (OSF) entstand aus den Bedenken gegenüber der Integrität psychologischer Forschung, welche durch oben erwähnte Ereignisse ausgelöst wurde. Open Science ist ein Begriff, der für die Reform wissenschaftlicher Praktiken steht und glaubt an eine offene Wissenschaft mit transparenten, methodischen Vorgehensweisen (Spellman et al., 2017). OSF ist eine Onlineplattform, welche im Jahr 2012 veröffentlicht wurde und es ermöglicht Untersuchungen transparent zu dokumentieren, indem die Versuchspläne hochgeladen werden können. Über die Onlineplattform können sich Forschende außerdem austauschen oder Arbeiten von anderen Forschenden suchen. Dank OSF ist es nun einfach, Rohdaten und Untersuchungsmaterialien einem breiten Publikum zu präsentieren. Zusätzlich hat die Zeitschrift Psychological Science in Zusammenarbeit mit dem Center für Open Science ein Auszeichnungssystem in Form eines kleinen Symbols auf der ersten Seite von Artikeln entwickelt, welches auf Publikationen zu finden ist, die ihre Untersuchungsmaterialien öffentlich zugänglich gemacht haben (Nelson et al., 2017).In einer groß angelegten Replikationsstudie hat ein von OSF unterstütztes Projekt versucht die Reproduzierbarkeit veröffentlichter Ergebnisse zu schätzen (OSC, 2015). Ziel war es, 100 Ergebnisse aus drei einflussreichen Zeitschriften der Sozial- und Kognitionspsychologie zu replizieren. 97% der replizierten Studien berichteten statistisch signifikante Ergebnisse, nur 37% der Studien konnten erfolgreich repliziert werden. In den Magazinen der Sozialpsychologie lag die Erfolgsquote sogar nur bei 25%. Reproduzierbarkeit ist ein Kernprinzip des wissenschaftlichen Fortschritts und wissenschaftliche Behauptungen sollten weder durch den Status oder Autorität des Autors, sondern durch die Nachvollziehbarkeit ihrer Ergebnisse, an Glaubwürdigkeit erlangen (OSC, 2015).

2.4 Kritik an der Open Science Bewegung

Es gibt durchaus Bedenken, ob offene Wissenschaft die Lösung der Publikationsprobleme darstellt. Der Wissenschaftshistoriker Michael Hagner beispielsweise, setzte sich in seinem Buch Zur Sache des Buches (2015) kritisch mit Open Access Methoden auseinander. Für ihn gehört zu einer freien Wissenschaft auch die freie Wahl eines Forschenden bezüglich der Veröffentlichungsform. Denn oftmals sind Forschende gar nicht in der Lage ihre Daten öffentlich zugänglich zu machen, weil sie beispielsweise Mitarbeiterin oder Mitarbeiter eines Unternehmens sind, welches dies nicht zulässt (Fecher, 2018). Außerdem werde es durch Open-Access-Plattformen dazu kommen, dass unzählige wissenschaftliche Artikel in den Tiefen des Internets verschwinden werden und nicht wie gedrucktes Papier in Bibliothekregalen landen, wo sie Jahrzehntelang zugänglich sind (Hagner, 2015). Zusätzlich äußert Hagner (2015) ethische Bedenken, bei der Verbreitung ungeschützter Forschungsdaten im Internet. Im Großteil, werden in der Literatur aber dennoch die Vorteile einer offenen Wissenschaft (Open Access) betont, welche in der verbesserten Replizierbarkeit von Ergebnissen liegt (Fecher, 2018).

2.5 Bessere Forschung

Eine erfolgreiche Replikation bedeutet, dass das theoretische Verständnis des ursprünglichen Befundes richtig ist. Sie liefert vor allem Beweise für die Zuverlässigkeit eines Ergebnisses (OSC, 2015). Bereits 2011 präsentierten Simmons, Nelson und Simmonsohn Wege zu besserer Forschung, die es ermöglichen sollten Studien replizierbarer werden zu lassen:

1. Klare, a priori, festgelegte Regeln bezüglich des Abbruchs der Datensammlung. Vor Beginn der Datensammlung soll festgelegt und notiert werden, wie viele Versuchspersonen untersucht werden (Simmons et al., 2011)
2. Es müssen mindestens 20 Untersuchungen stattfinden, da ansonsten die Power zu gering ist
3. Alle in einer Studie gesammelten Variablen müssen transparent aufgelistet werden
4. Alle experimentellen Bedingungen, einschließlich fehgeschlagener Manipulationen, müssen berichtet werden
5. Wenn Beobachtungen exkludiert werden müssen Autoren auch die Ergebnisse, welche diese Beobachtungen inkludieren, berichten
6. Enthält eine Analyse eine Kovariable, soll das Ergebnis der Analyse mit und ohne diese Kovariable berichtet werden

Zusätzlich legen Simmons, et al. (2011) den Gutachtern nahe zu überprüfen, ob die oben erwähnten Punkte eingehalten wurden. Ein Rezensent soll Forschende ermutigen, überzeugende und nicht zufallsbasierte Ergebnisse zu liefern. Gutachter sollten aber auch toleranter gegenüber imperfekten Ergebnissen sein. Wissenschaftliche Magazine sollten eher eine Studie mit einem Ergebnis mit einem p -Wert von p < .06 publizieren, als eine Studie mit einem perfekten Ergebnis mit zu kleiner Power (Simmons, Nelson, Simmonsohn, 2011).

Die Präregistrierung hat sich als ein hilfreiches Instrument erwiesen, um erwähnte Anforderungen einzuhalten. Diese zwingt Forschende den idealtypischen Ablauf der Untersuchung festzulegen bevor die Datenerhebung beginnt. Hypothesen und methodisches Vorgehen müssen vorab bekannt gemacht und eingehalten werden. Dies sorgt nicht nur für mehr Transparenz, sondern schützt die Forschenden auch vor Selbstbetrug. Viele Zeitschriften und Forschungsorganisatoren verlangen inzwischen eine Präregistrierung (Spellman et al., 2017).

2.6 Fragestellung, Studiendesign und Hypothese

Zusammengefasst ist das Ziel der vorliegenden Arbeit zu untersuchen, ob die Replikationsdebatte einen Einfluss auf die Forschungspraxis in der Psychologie hatte. Anhand eines Vergleichs von Evidenzwerten von Forschungsergebnissen kann deskriptiv aufgezeigt werden, ob sich etwas verändert hat. Ein Vorgehen, um der selektiven Berichterstattung in der Psychologie entgegenzuwirken, ist die p -curve Analyse. Eine p -curve ist die Verteilung statistisch signifikanter p -Werte (p < .05) über eine bestimmte Reihe von Studien und kann genutzt werden, um festzustellen, ob eine Studie replizierbare Effekte berichtet. Sie kann somit ein Indikator für die Qualität einer Studie sein und eine Aussage darüber machen, ob ein berichteter Effekt nur die selektive Berichterstattung des Autors widerspiegelt (Simmonsohn et al., 2014b).

Die p -curve Analyse beruht darauf, dass wahre Effekte jeglicher Größe, untersucht an beliebig vielen Versuchspersonen, in aller Regel geringere signifikante p -Werte (p < .01) erzeugen und damit eine rechtsschiefe Verteilung der p -curve bewirken, während verfälschte Effekte zu hohen p -Werten (.04 < p < .05) und damit linksschiefen Verteilungen der p -curve führen, was gegen die Replizierbarkeit der Studie und für das Stattfinden von p -hacking spricht (Nelson et al, 2017; Simmonsohn et al, 2014b). Wie die statistische Power ist auch die Form der p -curve eine Funktion aus Effektgröße und Stichprobengröße. Die p -curve wird umso rechtsschiefer je höher die wahre Power steigt. Die p -curve verändert sich, wenn Forschende p -hacking anwenden und durch zusätzlich Analysen versuchen, aus einem nicht signifikanten Ergebnis ein signifikantes zu machen. Wird nämlich p -hacking angewendet, ist die Chance gering, dass Forschende möglichst kleine p -Werte entdecken (p < .025), weil davon ausgegangen werden kann, dass mit dem p -hacking aufgehört wird, sobald signifikante Ergebnisse (p < .05) erreicht werden. Dementsprechend wird ein überproportional hoher Antel an p-Werten höher sein, wenn p -hacking angewendet wurde. Aufgrund der Tatsache, dass die Untersuchung wahrer Effekte noch kein statistisch signifikantes Ergebnis garantiert, können Forschende p -hacking auch anwenden, um aus wahren aber nicht signifikanten Ergebnissen, signifikante Ergebnisse zu machen. Wenn Forschende Studien mit schlechter Power durchführen, ist die Wahrscheinlichkeit gering, dass sie statistisch signifikante Beweise für einen tatsächlich vorhandenen Effekt finden. In diesem Fall ist die p -Kurve eine Kombination aus einer rechtsschiefen Kurve (resultierend aus den wahren Effekten) und einer linksschiefen Kurve (resultierend aus Werten die durch p- h acking entstanden sind). Die Form der p -curve hängt also von der Power der Studie (vor dem p-Hacking) und der Intensität des p -hackings ab (Simmonsohn et al., 2014b)

In der vorliegenden Arbeit soll ebenfalls eine p -curve Analyse an einer Reihe von statistischen Befunden durchgeführt werden, um ihren Evidenzgehalt zu überprüfen. Um die Verteilung der p -curve zu berechnen, wurden Artikel aus dem erwähnten Fachmagazin Psychological Science untersucht. Es wurden 19 Artikel der Ausgabe des Novembers 2009 ausgewählt, um eine p -curve für Befunde aus der Zeit vor der Replikationsdebatte zu erstellen und 15 Artikel der Ausgabe aus dem November 2017, um eine p -curve für Befunde aus der Zeit nach der Replikationsdebatte zu erstellen.Hypothese 1 (H1) postuliert, dass die Replikationsdebatte einen positiven Einfluss auf die Evidenzwerte der publizierten Artikel aus dem Jahr 2017 hat, im Vergleich zum Evidenzwert der Studien aus dem Jahr 2009.Gilt die Hypothese 0 (H0), dann ist davon auszugehen, dass die Replikationsdebatte keinen oder einen negativen Einfluss auf die Evidenzwerte der im Jahr 2017 veröffentlichten Artikel hat. Eine rechtsschiefe p -curve spricht für eine höhere Evidenz, also mehr p -Werte im niedrigen (p = .01) als im hohen (.04 < p < .05) Bereich. Eine gleichverteilte p -curve spricht dafür, dass die Studien keine Evidenz haben, also beispielsweise eine geringe Power haben. Eine linksschiefe Kurve deutet darauf hin, dass p -hacking angewendet wurde und sich somit viele p -Werte knapp unter der Signifikanzgrenze bzw. im hohen Bereich (p = .05) ballen. Eine p -curve erlaubt daher eine Aussage über die Evidenz von Studien ohne diese direkt replizieren zu müssen (Simmonsohn et al., 2014b). Aufgrund der Hypothesen wird in der vorliegenden Arbeit nun erwartet, dass die Replikationsdebatte, im Vergleich zum Evidenzwert der Studien aus dem Jahr 2009, einen positiven Einfluss auf die Evidenzwerte der publizierten Artikel aus dem Jahr 2017 hat. Somit sollte die p -curve aus dem Jahr 2017 mehr Evidenz, also eine signifikant rechtsschiefere Verteilung aufweisen, als die des Jahres 2009.

3 Methode

In der vorliegenden Arbeit soll untersucht werden, ob die Replikationsdebatte in der Psychologie einen Einfluss auf den Evidenzgehalt von Forschungsergebnissen hatte. Dazu wurde das Journal Psychological Science als führende Fachzeitschrift der Psychologie, welche empirische Forschung veröffentlicht, ausgewählt. Um den Evidenzgehalt der veröffentlichten Studien vor der Replikationsdebatte beurteilen zu können, wurde die Ausgabe aus dem Monat November des Jahres 2009 ausgewählt. Um den Evidenzgehalt der veröffentlichten Studien nach der Replikationsdebatte beurteilen zu können, wurde die Ausgabe des Monats November des Jahres 2017 ausgewählt. Von nach bestimmten Selektionskriterien ausgewählten Artikeln dieser Ausgaben des Magazins Psychological Science wurden die zentralen Hypothesen und Testwerte extrahiert. Anhand dieser Werte wurde anschließend eine p -curve Analyse mit der p -curve App (Version 0.7; Schönbrodt 2018) berechnet. Ziel war es herauszufinden, ob sich die Kurven der beiden Jahre in der Rechtsschiefe ihrer Verteilung unterscheiden oder nicht.

3.1 Selektionskriterien

Aus insgesamt 34 Artikeln aus den Jahren 2009 (Volume 11; 19 Artikel) und 2017 (Volume 11; 15 Artikel), wurden erst die zentralen Hypothesen identifiziert und anschließend die dazugehörigen Teststatistiken extrahiert, welche die Ergebnisse zu der relevanten Hypothese berichteten. Dazu wurden bereits vor der p -curve Analyse Selektionskriterien erfasst und in einem Pre-Data Report (Jekel & Meloni, 2018) festgehalten. Dieser wurde online über OSF registriert. Die Selektionskriterien orientierten sich an dem Benutzerhandbuch von Simonsohn, Nelson und Simmons (2014a; 2014b). Zuerst wurde die zentrale Hypothese der einzelnen Studien identifiziert. Im Falle von mehreren postulierten Hypothesen in einer Studie, wurde immer die zuerst genannte Hypothese als zentrale Hypothese identifiziert. Diese, sowie das passende statistische Ergebnis, wurden zusammen mit dem Studiendesign in eine Disclosure-Tabelle nach dem Vorbild von Simonsohn et al. (2014b) eingetragen. Nur signifikante p -Werte gingen in die Berechnung ein. Testeten mehrere abhängige Variablen die gleiche Hypothese, wurde nur jeweils der erste p -Wert der ersten, abhängigen Variable inkludiert. Für eine erfolgreiche p -curve Analyse ist es entscheidend, dass die einzelnen statistischen Werte unabhängig sind. Daher kann von der gleichen Stichprobe jeweils nur ein statistischer Wert verwendet werden (Simmonsohn et al., 2014b). Überwiegend wurde jeweils eine Teststatistik pro Studie extrahiert, außer es lagen mehrere unabhängige Teststatistiken vor, die alle die zentrale Hypothesen testeten, wie dies beispielsweise bei einer Studie des Jahres 2009 (Matonakis, Rodero, Lesschaeve & Hastie, 2009) der Fall war. In dieser Studie wurden vier X[2]-Werte von jeweils unabhängigen Stichproben extrahiert. Wenn die von den Forschenden aufgestellte Hypothese eine Wechselwirkung beinhaltete, wurde jeweils der Interaktionseffekt berichtet. Die exakten p -Werte wurden anhand der App (Version 0.7; Schönbrodt, 2018) berechnet. Dies war notwendig, da p -Werte nicht immer richtig berichtet werden (Simmonsohn et al., 2014b). Bei einfachen Interaktionshypothesen, bei denen der Einfluss eines Prädiktors auf eine abhängige Variable von einer Drittvariable beeinflusst wurde, wurde jeweils der Interaktionseffekt berichtet (Simonsohn et al., 2014b).

[...]


[1] GcMAF (Gc-Makrophagen-aktivierender-Faktor)

[2] Eine genaue Definition von „Open Science“ erfolgt im Kapitel 2.3

[3] Falsch-positive Befunde sind signifikante Testergebnisse die resultieren, obwohl kein Effekt vorliegt (Simmonsohn et al., 2014b)

[4] Wie renommiert eine Fachzeitschrift ist, kann anhand des Impact-Factors gemessen werden, welcher anhand der durchschnittlichen Zitationen der Artikel eines Magazins misst, wie einflussreich dieses ist (Fecher, 2018).

Ende der Leseprobe aus 60 Seiten

Details

Titel
Quantitative Analyse des Einflusses der Replikationsdebatte auf den Evidenzwert von Forschungsergebnissen in der Psychologie
Untertitel
Quantitative Literaturarbeit
Hochschule
FernUniversität Hagen
Note
48 von 58
Jahr
2018
Seiten
60
Katalognummer
V458001
ISBN (eBook)
9783668902015
ISBN (Buch)
9783668902022
Sprache
Deutsch
Schlagworte
Quantitative Analyse, Fake Science, Replikationsdebatte, p-Werte, p-curve, Replikationskrise, p-hacking, open Science, publikationsbias, OSC, Poweranalyse, statistische Evidenz, Power
Arbeit zitieren
Anonym, 2018, Quantitative Analyse des Einflusses der Replikationsdebatte auf den Evidenzwert von Forschungsergebnissen in der Psychologie, München, GRIN Verlag, https://www.grin.com/document/458001

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Quantitative Analyse des Einflusses der Replikationsdebatte auf den Evidenzwert von Forschungsergebnissen in der Psychologie



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden