Die Luftschlösser der Psychologie: Zu schön, um wahr zu sein
Experimente anderer Wissenschaftler zu wiederholen, galt lange als Zeitverschwendung. Das Gegenteil ist richtig, zeigen nun Psychologen. Ohne sie baut die Wissenschaft Luftschlösser.
Eine vermüllte Bahnstation fördert rassistische Vorurteile. Wer Fleisch isst, ist selbstsüchtig und unsozial. Mächtige Männer und Frauen sind öfter untreu. Diese Sätze taugen nicht nur als Schlagzeilen. Sie haben eine weitere Gemeinsamkeit: Es sind Ergebnisse, die der niederländische Sozialpsychologe Diederik Stapel veröffentlicht hat. Er hat zugegeben, dass sie auf erfundenen Daten basieren – so wie mindestens 55 andere Studien im Laufe von fast zehn Jahren, in denen er Karriere machte. Er flog 2011 auf.
Fachjournale ziehen 500 bis 600 Studien pro Jahr zurück, betroffen sind alle Disziplinen. Manchmal plagiieren Forscher. Manchmal manipulieren sie Bilder. Manchmal schönen sie Statistiken oder fälschen sie sogar. „Fälscher gibt es immer wieder“, sagt Franziska Plessow, die seit zwei Jahren an der Harvard Medical School forscht. „Trotzdem ist mir unwohl, wenn ein Wissenschaftler an den Pranger gestellt wird.“ Denn auch wenn ein Experiment nicht replizierbar ist, wurde es oft nach bestem Wissen und Gewissen durchgeführt. „Dreiste Fälschungen sind Einzelfälle, ein Thema für sich“, sagt auch Andreas Glöckner vom Max-Planck-Institut für die Erforschung von Gemeinschaftsgütern in Bonn. „Gleichzeitig sind sie Symptom einer tiefergehenden Problematik.“ Seine Kollegin Susann Fiedler pflichtet ihm bei: „Wichtiger ist: Wie oft produzieren Forscher, die alles richtig machen wollen, aufgrund ihrer menschlichen Eingeschränktheit oder falscher Anreize Ergebnisse, die nicht besonders belastbar sind? Auf wie viele Ergebnisse können wir uns verlassen?“
Nicht einmal die Hälfte der Ergebnisse waren belastbar
Auf 39 Prozent, zeigte nun die Open Science Collaboration, zu der die drei deutschen Forscher gehören. 270 Psychologen auf fünf Kontinenten schlossen sich dem „Reproducibility Project“ unter der Führung von Brian Nosek von der Universität von Virginia in Charlottsville an. Sie wählten 100 Studien zufällig aus, die im Jahr 2008 in drei Fachjournalen publiziert wurden. Jeweils das letzte beschriebene Experiment teilten sie einem Team zu. Die Forscher berieten sich mit den Autoren der Originalstudien und versuchten dann, die Experimente zu wiederholen. Ihre Ergebnisse sind ernüchternd. In der Sozialpsychologie konnten sie ein Drittel der Studien replizieren, in der kognitiven Psychologie etwas mehr als die Hälfte, schreiben sie in „Science“.
Die Forscher machten sich die Entscheidung, ob eine Studie als bestätigt gelten kann, nicht leicht. Zunächst prüften sie, ob die Ergebnisse statistisch bedeutsam waren. Die magische Grenze dafür ist ein P-Wert von weniger als 0,05. Die Zahl besagt, dass die Wahrscheinlichkeit, dass ein Ergebnis durch Zufall zustande kam, geringer als eins zu 20 ist. Diesen Test bestanden 36 Prozent der Originalstudien. Da der P-Wert eine beliebige Festlegung ist, verglichen sie zusätzlich die beobachteten Effekte. Diese waren in 68 Prozent der Fälle vorhanden, im Durchschnitt jedoch nur halb so groß wie im Original. Beide Tests führten die Forscher zu einer subjektiven Bewertung zusammen. Es war der erste umfassende Versuch in der Wissenschaft, die Replizierbarkeit von Studien systematisch zu prüfen und somit eine Diskussionsgrundlage für Verbesserungen zu schaffen.
Andere nicht in Sackgassen laufen lassen
Es gehe nicht um „richtig“ und „falsch“, betonen die Forscher der Open Science Collaboration. Sie werfen den Autoren der unbestätigten Studien weder wissenschaftliches Fehlverhalten noch Schlamperei vor. Vielmehr zeige der Prozentsatz, dass durch Fehler im System Größe und Stabilität von Effekten überschätzt werden und Replikationsstudien dringend nötig sind, damit in der Forschung keine Kartenhäuser gebaut werden. Sie sollten selbstverständlicher Teil des wissenschaftlichen Prozesses sein.
Lange galt es als Verschwendung von Zeit und Ressourcen, die Experimente anderer Forscher nur zu wiederholen. „Die meisten meinen, dass sei viel Aufwand für nichts“, sagt Plessow. Doktoranden zum Beispiel fügen bekannten Experimenten immer eine Variation hinzu. Sie müssen etwas „Neues“ generieren, das sie in möglichst angesehenen Fachzeitschriften publizieren können – denn diese Aufsätze sind die Währung der Wissenschaft. Wenn die jungen Forscher scheitern, zweifeln sie meist an sich selbst. Höchstens in den Kaffeepausen bei Konferenzen kommen die Probleme zur Sprache. Auch andere Wissenschaftler liefen in Sackgassen, weil sie nicht wissen, dass es anderen vor ihnen genauso erging, sagt Susann Fiedler.
"Jetzt kann man nicht mehr wegschauen!"
Hinzu kommen bekannte Phänome: Die Fachjournale veröffentlichen vor allem Studien, die eine Hypothese bestätigen. Dementsprechend reichen Forscher Manuskripte ein, die das Kriterium erfüllen. Andere landen in der Schublade oder es wird der Teil der Daten hervorgehoben, der zur These passt. Manche formulieren sie nachträglich. All das verzerrt das Wissen, das in der Literatur zu finden ist. Wie sehr, wusste niemand. „Jetzt kann man nicht mehr wegschauen“, sagt Fiedler. „Wir müssen besser werden.“
Die Diskussion habe begonnen, sagt Glöckner. Einige Fachjournale bieten die Möglichkeit an, Hypothesen und geplante Experimente vorher festzuhalten. Wer sich so registriert, habe größere Chancen auf eine Publikation. Die Gutachter sollten außerdem größeren Wert auf den Methodenteil legen. Rohdaten und verwendete Hilfsmittel sollten möglichst transparent gemacht und geteilt werden.
Wie wichtig das sein kann, hat Plessow im „Reproducibility-Project“ gesehen. Sie hat ein Experiment wiederholt, das die Auswirkungen von Multitasking auf das Arbeitsgedächtnis prüft. Ihr Team konnte es nicht bestätigen. Noch verwirrender: Es fand einen ganz anderen Effekt. „Ich bin überzeugt davon, dass die Autoren des Originals hervorragende Arbeit geleistet haben“, sagt Plessow. Sie vermutet, dass sich die Instruktionen für die Teilnehmer minimal unterschieden, sodass sie die Aufgaben etwas anders lösten. „Die Originalmaterialien waren leider nicht mehr vorhanden.“ Sie würde nun gern gemeinsam mit der Arbeitsgruppe ein Folgeexperiment entwerfen. Sie will wissen, woran es lag.
Wissenschaft findet nicht plötzlich die "Wahrheit"
„Replikation fördert die Qualität und den Erkenntnisfortschritt“, sagt Glöckner. Deshalb sollten Forschungsförderer wie die Deutsche Forschungsgemeinschaft künftig verstärkt Wiederholungen finanzieren. Denkbar sei auch, Geld in Großprojekten für Replikationsversuche zu reservieren. Bisher sei das meist nicht vorgesehen. „Das ist ein Fehler“, findet Fiedler. „Zumal Naturwissenschaftler ähnliche Probleme haben wie wir. Jedes Labor nutzt etwas andere Materialien und Protokolle. Deshalb gibt es auch ein ähnliches Projekt zur Krebsbiologie.“
Und warum schnitt die Sozialpsychologie so schlecht ab? Das sei Spekulation, sagt Glöckner. Die Disziplinen seien sehr unterschiedlich. Während die kognitive Psychologie oft eine Person in einem Experiment wiederholten Messungen aussetzt und grundlegende Prozesse untersucht, widme sich die Sozialpsychologie komplexeren Phänomenen und misst oft nur einmal. Die Messungen seien anfälliger für unerwartete Einflüsse. Die Theorien in der kognitiven Psychologie seien oft mathematisch genauer beschrieben und erlaubten besser testbare Vorhersagen. Außerdem habe es in der Sozialpsychologie in der Vergangenheit die Tendenz gegeben, überraschende Ergebnisse zu bevorzugen. „Leider sind die meist falsch, da sie per Definition unseren Erwartungen widersprechen“, sagt er. „Außerordentliche Behauptungen erfordern besonders gute empirische Belege.“
Der Mensch sei eben nicht so einfach, meint Fiedler. Man könne die geringe Replikationsrate auch positiv interpretieren: „Sie zeigt, dass wir Neues erforschen und keine Trivialitäten prüfen.“ Wissenschaft finde nicht plötzlich „die Wahrheit“. Sie nähere sich langsam daran an.
Jana Schlütter