Zusammenfassung von Daten
Datenaufbereitung
Umgang mit fehlenden Daten
Eine Herausforderung bei der Datenaufbereitung stellen fehlende Werte (missing data bzw. missing values) dar. Für den Umgang mit diesen Daten stehen mehrere Möglichkeiten zur Verfügung. Vor allem moderne Verfahren, wie etwa Maximum Likelihood Schätzungen oder multiple Imputationsverfahren (vgl. Peugh & Enders, 2004), sind im Vergleich zu traditionellen Ansätzen (z.B. einfaches Löschen oder aber Ersetzen durch den Mittelwert) mit einer Reihe von statistischen Vorteilen verbunden. Sie kommen aber in der entwicklungspsychologischen Forschung bisher nur selten zum Einsatz (vgl. Peugh & Enders, 2004).
Ausreißer
Eine besondere Bedeutung bei der Datenaufbereitung besitzen Ausreißerwerte. Ausreißerwerte sind Extremwerte, die sich deutlich von der erhobenen Messwertreihe abheben. Sie können einen erheblichen Einfluss auf die Datenauswertung ausüben. Abb. 18 visualisiert die Intelligenz- und Lernleistungen von 20 bzw. 21 (mit dem Ausreißer) fiktiven Versuchspersonen. Wird der Ausreißer mit einem IQ-Wert von 150 und einer Lernleistung von 46 Punkten bei der Ermittlung der Vorhersagegerade nicht berücksichtigt, so ergibt sich ein schwacher, positiver Zusammenhang (r = 0.15) zwischen den beiden Variablen. Die dazugehörige gestrichelte Regressionsgerade steigt folglich leicht an. Wird der einzelne Ausreißerwert hingegen mit einbezogen, ist der Zusammenhang zwischen IQ und Lernleistung leicht negativ (r = -0.17). Die dazugehörige lineare Regressionsgerade wurde in Abb. 1 als durchgezogene, abfallende Linie eingezeichnet.
- Abbildung 18: Fiktiver Zusammenhang zwischen Intelligenz und Lernleistung in einer E-Learning Umgebung. Ein Kreuz (+) stellt eine von 20 Versuchspersonen (bzw. 21 mit Ausreißer) dar. Ohne Berücksichtigung des umkreisten Ausreißers (unten rechts) zeigt sich ein schwacher, positiver Zusammenhang (gestrichelte, ansteigende Regressionsgerade). Bezieht man den Ausreißer hingegen mit ein, so ist die Korrelation hingegen leicht negativ ausgeprägt (durchgezogene, abfallende Regressionsgerade).
Feststellung von Ausreißern
Für die Feststellung von Ausreißern existiert kein allgemein gültiges Standardverfahren. Unter anderem können folgende Methoden angewandt werden (Lohninger, 2008):
- Ermittlung über die Standardabweichungen: Diese Verfahren eignen sich vor allem, wenn die Verteilungen symmetrisch und unimodal (eingipfelig) sind.
- Bei Annahme der Normalverteilung: In diesem Fall wird ein Wert als Ausreißer betrachtet, wenn er sich 2.5 (bzw. 3) Standardabweichungen ober- oder unterhalb des Mittelwertes befindet. Den in Abb. 18 dargestellten IQ-Wert von 150 würde man nach diesem Kriterium als Ausreißer eliminieren, da er sich etwa 3.15 Standardabweichungen über dem Mittelwert von 105.31 IQ-Punkten befindet.
- Ohne Normalverteilungsannahme: Sofern die Datenwerte keiner Normalverteilung angehören, erfolgt die Eliminierung von Ausreißern vorsichtiger. Nach dem Theorem von Tschebyschow wird ein Intervall von vier Standardabweichungen ober- und unterhalb des Mittelwertes gewählt. Diesem Kriterium zufolge wäre der in Abb. 18 visualisierte IQ-Wert von 150 kein Ausreißer.
-
Ermittlung über den Interquartilsabstand: Bei schiefen Verteilungen sollte die Feststellung von Ausreißern nicht über die Standardabweichungen erfolgen. Stattdessen bietet sich die Ermittlung auf Basis des Interquartilsabstandes (interquartile range, IQR) an. Der IQR ist definiert als der Abstand zwischen dem ersten (25%) und dritten (75%) Quartil. Die Bestimmung von Grenzwerten für Ausreißer erfolgt sodann über folgende Formel:
x0.25 - 1.5 * IQR < xi < x0.75 + 1.5 * IQR
Dabei stellt x0.25 das erste und x0.75 das dritte Quartil dar. Beträgt der IQR beispielsweise 20 und das dritte Quartil (x0.75) liegt bei 110, dann resultiert ein oberer Grenzwert von 140. Der obere Grenzwert für das oben aufgeführte Beispiel (Abb. 18) läge bei 138. Nach diesem Kriterium wäre der IQ-Wert von 150 als Ausreißerwert zu bezeichnen.
- Ermittlung über diverse Ausreißertests: Mehrere Autoren haben Tests entwickelt, um die Feststellung von Ausreißern vorzunehmen. Unter anderem kann hier der Ausreißertest nach Grubbs, der Dean-Dixon-Test, der Ausreißertest nach Walsh sowie der Nalimov-Test genannt werden. Entsprechende Formeln zu diesen Tests finden sich zum Beispiel im Internet unter:
- www.statistics4u.info/fundstat_germ/cc_outlier_tests
- http://de.wikipedia.org/wiki/Ausreißer
Manipulationsgefahr durch (fehlende) Ausreißerberücksichtigung
Durch die verschiedenen einsetzbaren Verfahren zur Feststellung von Ausreißern und den hohen Einfluss einzelner Ausreißerwerte auf die Datenauswertung können die Untersuchungsergebnisse leicht in eine bestimmte Richtung manipuliert werden. Dies gilt ebenso für das absichtliche Ignorieren von Ausreißern, um etwa signifikante Befunde nicht durch Beseitigung von Ausreißern aufgeben zu müssen. Derartige Probleme sind nicht nur statistischer, sondern vor allem ethischer Natur. In jedem Fall sollte die Eliminierung von Ausreißern hinreichend dokumentiert werden.