Meinfelder / Kluge | Bad Science | E-Book | sack.de
E-Book

E-Book, Deutsch, 152 Seiten

Meinfelder / Kluge Bad Science

Die dunkle Seite der Statistik

E-Book, Deutsch, 152 Seiten

ISBN: 978-3-8006-6029-2
Verlag: Franz Vahlen
Format: EPUB
Kopierschutz: Wasserzeichen (»Systemvoraussetzungen)



DIE SENSIBILITÄT FÜR DEN MISSBRAUCH STATISTISCHER METHODEN ERHÖHEN
Unter dem Begriff „Bad Science“ verstehen die Autoren und Herausgeber dieses Bandes sowohl schlampiges Vorgehen beim wissenschaftlichen Arbeiten, als auch auf Grund von Vorurteilen zu einseitig geratene Untersuchungen, bis hin zum Fälschen von Ergebnissen.

Die Beiträge dieses Sammelbandes basieren auf Seminararbeiten des „Blockseminar Survey Methodik“, das im Rahmen des Masterstudiengangs Survey-Statistik von der Otto-Friedrich-Universität Bamberg angeboten wurde.

Die Verfassenden der Beiträge sind somit alle Studierende, die an diesem Seminar teilgenommen und sich thematisch mit der Problematik „Bad Science“ auseinandergesetzt haben. Auf Grund der großen Relevanz des Themas wurde die Veröffentlichung der Artikel im Rahmen dieses Sammelbandes beschlossen, damit noch mehr Leser von den Erkenntnissen profitieren können. Inhaltlich wird eine theoretische Auseinandersetzung mit dem p-Wert allgemein, mit der Größe von Stichproben, dem Vorgehen des p-Hacking, der Schwäche von klassischen Hypothesentests und dem Vorgehen des HARKing aufgearbeitet.
AUS DEM INHALT:
I. Methodische Grundlagen

II. (K)eine Anleitung zum Mogeln

III. Wie man unter Zuhilfenahme statistischer Methoden Nonsens-Forschung einen wissenschaftlichen Anstrich verpasst

IV. Handfeste Konsequenzen in der wirklichen Welt
DIE HERAUSGEBER:
Rebekka Kluge, GESIS – Leibniz-Institut für Sozialwissenschaften, Mannheim, Dr. Florian Meinfelder, Lehrstuhl für Statistik und Ökonometrie, Otto-Friedrich-Universität Bamberg
Meinfelder / Kluge Bad Science jetzt bestellen!

Weitere Infos & Material


43Teil II
(K)eine Anleitung zum Mogeln
44Die Beiträge in diesem Teil beleuchten die bereits an einigen Stellen erwähnten Begriffe p-Hacking und HARKing. Aber was sind p-Hacking und HARKing eigentlich? Es sind in der Regel keine „Methoden“, zumindest hoffen wir das, denn es würde pauschal Vorsatz und damit auch eine gewisse kriminelle Energie unterstellen. Vielmehr denken wir, dass es sich bei den beiden Begriffen in den allermeisten Fällen um Beschreibungen einer Art Prozess handelt, der sich sukzessive ergibt und teilweise ist den Wissenschaftlern der Missbrauch vielleicht nicht einmal bewusst und es ist ihnen auch nicht vollständig klar, dass die so erzielten „signifikanten“ Ergebnisse wissenschaftlich unbrauchbar sind. Möglicherweise sehen manche auch eine Art Herausforderung darin, den Daten die „Wahrheit“ zu entreißen, womit wir bei dem zu Beginn von Kapitel 3 aufgeführten Zitat von Ronald Coase sind und bei der Feststellung, dass der Missbrauch statistischer Verfahren kein ganz neues Phänomen ist, da er die Aussage vor ungefähr 60 Jahren getätigt hat. Wir hoffen außerdem, dass die Leser diesen Teil nicht als Anleitung zum Schummeln auffassen, denn so sind die Beiträge der Autoren wahrlich nicht gemeint. Vielmehr geht es darum, dass wir alle unser Vorgehen bei der Modellierung kritisch hinterfragen müssen und die Herausgeber des Sammelbands sind nicht ohne Schuld: Auch wir sind bereits in eine Situation geraten, in der wir mit dem ersten Modell ’unzufrieden’ waren. Aber warum? Weil unsere Erwartung bezüglich der Ergebnisse eine andere war: Es erschien so plausibel, dass es – auch unter Einbeziehung von Kontrollvariablen – einen klar erkennbaren25 Zusammenhang geben musste, aber im geschätzten Modell war davon nichts zu sehen. Vielleicht war der Zusammenhang nicht linear und wir sollten noch Polynome oder Interaktionen aufnehmen …? Und schon ist der erste Schritt zum Missbrauch statistischer Verfahren unternommen und am Ende haben wir eventuell nur gezeigt, dass es möglich ist, mit den zugrundeliegenden Daten eine vorgefasste Hypothese anhand signifikanter Parameterschätzer eines Modells zu bestätigen. Wissenschaftlicher Nutzen gleich null. Ein nicht genug erwähnter Aspekt in diesem Kontext sind die im Laufe der Zeit immer geringer gewordenen „Kosten“ für modifizierte Wiederholungen von Analysen. Statistische Software lässt uns in Windeseile neue (zufriedenstellendere) Ergebnisse produzieren und trägt somit ebenfalls zur Verbreitung von Bad Science bei. Umso wichtiger ist Sorgfalt bei der Entwicklung des theoretischen Modells, und wenn man das erste zugunsten eines anderen verwirft, sollte dies nicht auf Grund der vorgefunden Ergebnisse geschehen. 454. Schritt für Schritt zum falsch-positiven ­Ergebnis
Kristina M. Neufang 4.1 Einleitung Das Ziel von Forschung ist es unter anderem, existierende beziehungsweise reale Zusammenhänge zwischen Phänomenen zu entdecken. Dazu werden Theorien aufgestellt, Hypothesen abgeleitet, Daten erhoben und untersucht, ob die Daten mit den formulierten Hypothesen übereinstimmen. Zwei Arten von Fehlern können dabei auftreten: Zum einen ein falsch-negativer Befund, das heißt die Ergebnisse der statistischen Analyse weisen darauf hin, dass zwei Phänomene nicht zusammenhängen, obwohl sie in der Realität assoziiert sind (ß-Fehler). Zum anderen ein falsch-positiver Befund, das heißt der statistische Test weist auf einen Zusammenhang der Phänomene hin, obwohl in der Realität kein Zusammenhang besteht (a-Fehler). Aufgrund der Anreize im Wissenschaftssystem scheinen falsch-positive Befunde häufiger aufzutreten (Ioannidis, 2005). So stellen Smaldino u. McElreath (2016) einen zunehmenden Wettbewerbsdruck im Forschungsbetrieb fest, der dazu führt, dass die Anzahl an peer-reviewten Publikationen immer wichtiger wird, um sich im Wissenschaftssystem zu etablieren. Dabei sind Forscher motiviert statistisch signifikante Ergebnisse aufzuzeigen, da „[…] positive results in support of some novel hypothesis are more likely to be published than negative results […]“ (Smaldino u. McElreath, 2016, S. 4).26 Dieser Anreiz im Zusammenspiel mit dem, was Simmons u. a. (2011) unter dem Begriff „Researcher degrees of freedom“ diskutieren, kann jedoch zu einer Erhöhung falsch-positiver Befunde führen. Datenerhebung und -analyse stellen Forscher vor verschiedene Entscheidungen. So ist unter Anderem zu überlegen, inwieweit es sinnvoll ist weitere Daten zu erheben, Ausreißer von der Analyse auszuschließen oder Daten zu transformieren. Bei diesen Entscheidungen gibt es meist kein regelbasiertes Vorgehen. Die Motivation statistisch signifikante Ergebnisse aufzeigen zu können, kann nun dazu führen, dass eine Vielzahl von Kombinationen dieser Entscheidungsmöglichkeiten erprobt wird, um nach Möglichkeit zu einem statistisch signifikanten Ergebnis zu gelangen, wodurch die Analyse explorativen Charakter erhält. Ein exploratives Vorgehen bei der Datenanalyse führt jedoch dazu, dass sich die Bedeutung des p-Wertes (das vermutlich immer noch am häufigsten eingesetzte Maß zur Bestimmung statistischer Signifikanz) verändert und falsch-positive Befunde zunehmen: „Conducting multiple analyses of the data and reporting only those with certain p-values (typically those passing a significance 46threshold) renders the reported p-values essentially uninterpretable“ (Wasserstein u. Lazar, 2016, S. 131–132). Entsprechende Praktiken können bewusst (sogenanntes „p-Hacking“27, z. B. Head u. a., 2015) und auch unbewusst geschehen, wobei beide Fälle äußerst problematisch sind: Zum Beispiel kann die Definition beziehungsweise Bestimmung von Ausreißern einen großen Einfluss auf die Ergebnisse von Analysen haben. Für die Bestimmung von Ausreißern gibt es jedoch kein klar definiertes Vorgehen. Vielmehr liegt es im Ermessen des Forschers zu entscheiden, welche Fälle als Ausreißer zu behandeln sind (und damit aus der Analyse ausgeschlossen werden sollten) und welche nicht. Auch Datentransformationen können, wenn sie post hoc und nicht theoriegeleitet erfolgen, zu falsch-positiven Ergebnissen führen. Ebenfalls problematisch kann die schrittweise Erhöhung einer Stichprobe sein, wenn diese, statt vor Beginn der Datenerhebung bestimmt zu werden (z. B. mit Hilfe einer Poweranalyse), sukzessive erhöht wird, bis der p-Wert das festgelegte a-Niveau unterschreitet (siehe auch Simmons u. a., 2011). Die Ergebnisse einer Arbeit der Open Science Collaboration (2015), in der eine Vielzahl psychologischer Effekte nicht repliziert werden konnte beziehungsweise der Replikationseffekt deutlich schwächer als der Originaleffekt ausgefallen ist, verdeutlichen die Problematik entsprechender Praktiken. Die Wirkungsweise eines solchen Vorgehens näher zu untersuchen, kann daher von großem Interesse sein. So soll im Folgenden anhand einer Simulation untersucht werden, inwieweit die schrittweise Erhöhung einer Stichprobe – gepaart mit der regelmäßigen Berechnung des p-Wertes – zu einer kritischen Erhöhung falsch-positiver Ergebnisse führen kann. 4.2 Simulationsaufbau Die Wirkungsweise und möglichen Konsequenzen des schrittweisen Erhöhens einer Stichprobe werden im Folgenden mittels einer entsprechenden Simulation untersucht.28 Zunächst wurden zwei unkorrelierte, standardnormalverteilte Zufallsvariablen erzeugt (ZV1/ZV2: N = 1.000.000, M = 0, SD = 1, Pearson’s r = 0,00).29 Abbildung 4.1 zeigt den entsprechenden bivariaten Kerndichteschätzer. Die Unkorreliertheit der beiden Variablen ist an der dafür typischen Kegelform des Kerndichteschätzers zu erkennen. 47 Abbildung 4.1: Bivariater Kerndichteschätzer der Zufallsvariablen 4.2.1 Ziehung der Stichproben In einem nächsten Schritt erfolgte die Stichprobenziehung. Die Ziehung der Stichproben wurde so gestaltet, dass die Ergebnisse des nachfolgenden Hypothesentests zwischen (a) einer schrittweise zu erhöhenden Stichprobe und (b) einer festen Stichprobe (Kontrollstichprobe) verglichen werden konnten. In einer ersten Simulation wurde hierzu für Fall (b) eine Stichprobe mit einem festen Stichprobenumfang von n = 200 Elementen gezogen. Für Fall (a) wurden zunächst vier Elemente gezogen,30 um anschließend jeweils ein weiteres Element der Stichprobe hinzuzufügen, bis sich entweder ein signifikantes Testergebnis einstellte, oder die Stichprobengröße aus Fall (b) (hier n = 200 Elemente) erreicht wurde. Die Stichprobenziehung wurde für beide Fälle jeweils 1000-mal wiederholt. 4.2.2 Hypothesentest In einem weiteren Schritt wurden für die unterschiedlichen Arten der Stichprobenziehung (a) und (b) über den Korrelationskoeffizienten von Pearson, Tests auf Unabhängigkeit der beiden Stichprobenvariablen durchgeführt. In Fall (a) wurde der Test innerhalb einer Schleife mehrmals wiederholt: Der Test erfolgte jedes Mal, wenn ein weiteres Element in die bestehende Stichprobe aufgenommen...


Ihre Fragen, Wünsche oder Anmerkungen
Vorname*
Nachname*
Ihre E-Mail-Adresse*
Kundennr.
Ihre Nachricht*
Lediglich mit * gekennzeichnete Felder sind Pflichtfelder.
Wenn Sie die im Kontaktformular eingegebenen Daten durch Klick auf den nachfolgenden Button übersenden, erklären Sie sich damit einverstanden, dass wir Ihr Angaben für die Beantwortung Ihrer Anfrage verwenden. Selbstverständlich werden Ihre Daten vertraulich behandelt und nicht an Dritte weitergegeben. Sie können der Verwendung Ihrer Daten jederzeit widersprechen. Das Datenhandling bei Sack Fachmedien erklären wir Ihnen in unserer Datenschutzerklärung.