Die gängige Forschungspraxis
Gängige Forschungspraxis
Nach wie vor werden die meisten empirischen Studien ohne vorherige Stichprobenumfangsplanung durchgeführt, obwohl die Berechnung mit Hilfe von Softwareprogrammen wie GPower mittlerweile relativ leicht vorgenommen werden kann. Die Angabe einer Wahrscheinlichkeit (der Betawahrscheinlichkeit, siehe unten) bei Entscheidung zugunsten der Nullhypothese (H0) sucht man oftmals ebenfalls vergebens. Häufig fehlt auch die Angabe von Effektgrößen bei Annahme der Alternativhypothese (H1). Dadurch bleibt offen, ob der gefundene Effekt nicht nur statistisch, sondern auch praktisch bedeutsam ist. Die praktische bzw. inhaltliche Bedeutsamkeit ist unter anderem abhängig von der Fragestellung der Untersuchung.
Beispiel
Beispielsweise könnte man in einem Experiment überprüfen, ob ein Training zur Verbesserung der schriftsprachlichen Fähigkeiten von Schülern wirkt. Dazu könnte die Trainingsgruppe mit einer Kontrollgruppe verglichen werden. Während die Nullhypothese (H0) annimmt, dass keinerlei Unterschiede zwischen den beiden Gruppen auftreten, postuliert die Alternativhypothese (H1) bessere Leistungen in der Trainingsgruppe. Neben der Angabe einer Wahrscheinlichkeit zur Entscheidung zugunsten einer der beiden Hypothesen gibt die Effektgröße – sofern berechnet – darüber Auskunft, in welchem Ausmaß die Verbesserung ausfällt. Dieser Wert kann dann mit den anfallenden Kosten des Trainings in Relation gesetzt werden.
Kritik an gängiger Forschungspraxis
Eine nicht durchgeführte Stichprobenumfangsplanung sowie fehlende Teststärken- und Effektgrößenangaben (siehe unten) führen zu folgenden Problemen:
- Fehlende Wahrscheinlichkeitsangabe: Bei einem nicht signifikanten Untersuchungsergebnis stellt sich die Frage, ob und mit welcher Wahrscheinlichkeit die Nullhypothese angenommen werden kann. Ohne Stichprobenumfangsplanung und ohne nachträgliche Teststärkeberechnungen kann keine Wahrscheinlichkeit für die Gültigkeit der Nullhypothese (H0) angeführt werden. Dies führt wiederum dazu, dass weder die Null- noch die Alternativhypothese angenommen werden können und somit keine fundierte Entscheidung zugunsten einer der beiden Hypothesen getroffen werden kann. Im aufgeführten Beispiel bliebe somit unklar, ob das Training wirkt.
- Schwierige Interpretierbarkeit: Neben der oftmals nicht durchgeführten Stichprobenumfangsplanung und den fehlenden Teststärkeangaben kann man bemängeln, dass keine standardisierten Effektgrößen in Untersuchungen berichtet werden. Dadurch können die ermittelten Ergebnisse nur schwer interpretiert werden. Einerseits erreichen bereits sehr kleine, praktisch nicht bedeutsame Effekte bei großer Stichprobengröße statistische Signifikanz. Andererseits verfehlen große, praktisch bedeutsame Effekte das gewünschte Signifikanzniveau aufgrund einer zu geringen Versuchspersonenzahl (vgl. fehlende Wahrscheinlichkeitsangabe).
- Fehlende Vergleichbarkeit: Für die Vergleichbarkeit der Ergebnisse verschiedener Untersuchungen werden ebenfalls standardisierte Effektgrößen benötigt. Liegen diese nicht vor, sind die ermittelten Effekte verschiedener Studien entweder nicht vergleichbar oder der Leser muss die Effektgrößen selbst umständlich ermitteln. Dies ist allerdings nur dann möglich, wenn alle notwendigen Angaben zur Berechnung in den Untersuchungen aufgeführt werden.
- Schwierige Aggregation für Metaanalysen: Auch für Forscher, die verschiedene Studien zu einer Metaanalyse mit statistischen Mitteln zusammenfassen möchten, ist die Angabe von standardisierten Effektgrößen äußerst nützlich. Metaanalysen dienen der Beantwortung der Frage, ob eine wissenschaftlich bereits erforschte Aussage zutrifft und wie groß der diesbezügliche Effekt ist. Beispielsweise wurde in Metaanalysen überprüft, ob die Fähigkeit zur mentalen Rotation bei Männern ausgeprägter ist als bei Frauen. Die Metaanalysen von Linn und Peterson sowie Masters und Sanders bestätigen diese Annahme und weisen eine große praktische Bedeutsamkeit des Effekts nach (d = 0.94 nach einer Metaanalyse von Linn & Petersen, 1985; d = 0.90 nach einer Metaanalyse von Masters & Sanders, 1993).
- Unzureichende Ökonomie: Ein weiterer Kritikpunkt an der gängigen Forschungspraxis betrifft die Ökonomie der Untersuchung. Grundsätzlich gilt für die Stichprobenumfangsplanung zwar: Je mehr Versuchspersonen, desto besser. Jedoch kostet das Anwerben und Untersuchen von Versuchsteilnehmern Zeit und Geld. Daher sollte man möglichst genau so viele Probanden untersuchen, wie zum Auffinden des gesuchten Musters (d.h. der H1) in den Zahlen und zur Absicherung gegenüber dem Zufall notwendig sind. Sollte es in den Zahlen kein oder ein anderes Muster (d.h. die H0) als das gesuchte geben, sind ebenfalls gerade so viele Probanden nötig, um eine solche Aussage (d.h. dass die H0 gilt) zu begründen.
Die folgenden Abschnitte widmen sich der Frage, wie die Ermittlung des Stichprobenumfanges vorgenommen wird.