6 Warum testet man verschiedene Modelle?

In der psychologischen Forschung misst man verschiedenste Konstrukte. Einige davon sind (meistens) direkt beobachtbar, wie das Geschlecht. Andere wiederum müssen erfragt werden, weil man einer Person die Ausprägung dieses Konstruktes nicht direkt ansieht. Diese Konstrukte nennt man latente Konstrukte. Dazu gehören beispielsweise die Intelligenz einer Person, die Gewissenhaftigkeit, Offenheit für neue Erfahrungen oder auch die Empathiefähigkeit. Je nachdem welches Konstrukt wie gemessen werden soll, unterscheiden sich die Messgeräte teilweise gravierend voneinander. Zu den Messgeräten gehören Fragebögen, Computergestützte Testverfahren, Eye-Tracker und viele weitere. Alleine in der Sparte der Fragebögen kann man viele Unterscheidungen treffen, je nach Standardisierungsgrad, Konstrukt und Ziel der Untersuchung. Was allen Messinstrumenten gemein ist, ist dass sie das was sie messen wollen, nicht perfekt erheben können. Misst man ein Kilogramm Mehl mit drei verschiedenen Waagen, wird man drei unterschiedliche Ergebnisse erhalten. Diese Unterschiede werden nicht groß sein, aber sie sind vorhanden. Der Messwert, das Ergebnis der Messung also, ist immer messfehlerbehaftet.

Das gleiche Phänomen tritt auch in psychologischen Messungen latenter Konstrukte auf. Zum einen kann kein Messverfahren den Anspruch an sich stellen, ein latentes Konstrukt in seiner Gesamheit zu erfassen. Jedes psychologische Messverfahren ist defizient. Am Beispiel der Empathie, kann man dies daran aufzeigen, dass es keinem Fragebogen möglich ist, alle Facetten der Empathie einer Person in allen möglichen Lebenssituationen zu erfassen. Dies wäre aber notwendig, um den Empathiewert einer Person genau bestimmen zu können.

Darüber hinaus sind Messverfahren kontaminiert. Das bedeutet, dass sie etwas messen, was sie eigentlich gar nicht messen wollen und sollen. Am Beispiel der Empathie bedeutet das, dass ein Item mit dem Wortlaut “Ich kann mich gut in andere Personen hineinversetzen.” die Empathiefähigkeit, basierend auf der Perspektivübernahme, erfasst. Darüber hinaus kann es aber sein, dass das Item auch erfasst, wie gut eine Person ihrem Gegenüber zuhören kann oder in wiefern beide Personen ähnliche Erfahrungen gemacht haben, weswegen eine Perspektivübernahme gelingt, oder nicht.

Da jedes Item eines Fragebogens diese Probleme aufweist, hat jedes Item das Problem, den wahren Wert einer Person auf dem latenten Konstrukt nicht messfehlerfrei erheben zu können. Sprich, man kann mit einem Empathiefragebogen, unabhängig davon wie gut die Items formuliert wurden, nicht die wahre Empathiefähigkeit einer Person ermitteln. Der Wert, den man bei der Auswertung des Fragebogens erhält, wird immer zu einem Teil aus Messfehlern bestehen.

Auch wenn es keine Möglichkeit gibt, die wahre Merkmalsausprägung einer Person direkt zu ermitteln, kann man sich dem wahren Wert annähern. Die genauste Annäherung würde man erhalten, wenn man ein und dasselbe Konstrukt bei einer Person unendlich oft messen würde. Würde also der Empathiefragebogen an der gleichen Person unendlich oft, in unterschiedlichen Situationen, zu unterschiedlichen Zeitpunkten und Lebensphasen, durchgeführt werden, und man würde die Ergebnisse mitteln, könnte man sich dem wahren Empathiewert der Person annähern. Leider ist es nicht möglich und realistisch, davon auszugehen, dass man die Zeit und Möglichkeit hat, eine Person unendlich oft zu vermessen und zu befragen. Daher ist es der Wunsch der Forscher, schon bei der ersten, und oft einzigen Messung, so genau wie möglich die wahre Merkmalsausprägung zu erheben. Das bedeutet konkret, schon bei der Erstellung von Fragebögen soll und wird darauf geachtet, möglichst reliable Items zu erstellen. Items also, die möglichst nur das messen, was sie messen sollen, ohne bzw. mit möglichst geringem Messfehler. Damit Forscher einschätzen können, wie genau ein erstelltes Messinstrument misst, wird normalerweise die Reliabilität des Messinstruments angegeben. Hätte also eine Forschergruppe einen neuen Fragebogen entwickelt um Empathie zu erheben, hätte sie angegeben, wie reliabel der Fragebogen ist. Dabei setzt sich die Reliabilität des gesamten Fragebogens aus den Einzelreliabilitäten der Items zusammen. Allerdings kann man nicht einfach die Reliabilitäten summieren, um die Gesamtreliabilität zu erhalten. Je nachdem, wie gut der Fragebogen ist, gibt es verschiedene Möglichkeiten die Gesamtreliabilität aus den Einzelreliabilitäten zu berechnen.

Steht dem Anwender eines Fragebogens also die Information zur Verfügung, wie reliabel ein Messverfahren misst, kann der Anwender einschätzen, wie nah das Ergebnis des Fragebogens der tatsächlichen Merkmalsausprägung einer Person kommt. Für die Reliabilität gilt, dass diese umso besser ist, je höher sie ausfällt. Hohe Reliabilitäten bedeuten gleichzeitig niedrige Unreliabilitäten, also niedrige Messfehler bzw. “Verunreinigungen” des wahren Werts. Reliabilitäten nehmen Werte zwischen 0 und 1 an. Das sich ein Messergebnis aus dem wahren Wert einer Person und einem Messfehler additiv zusammensetzen, ist der Grundgedanke der klassischen Testtheorie (KTT) oder auch Messfehlertheorie.

Die KTT beinhaltet aber nicht nur die Zusammensetzung der Messergebnisse, sondern beinhaltet auch Annahmen über die theoretische Konzeption des Messfehlers. Dies wird in den unterschiedlichen Messmodellen der KTT deutlich, die in diesem Tutorial mitbehandelt werden. Die KTT gibt gleichzeitig Handlungsempfehlungen, wie mit Messfehlern umgegangen werden soll.

Auch wenn es aufwendig ist, bei der Berechnung der Reliabilität mehrerer Variablen den Messfehler zu berücksichtigen, hat die Nichtberücksichtigung gravierende Auswirkungen auf die Genauigkeit der Reliabilitätsberechnung. Bei Nichtberücksichtigung des Messfehlers kann es zu Über- oder Unterschätzungen der Reliabilität, des Anteils aufgeklärter Varianz an der Gesamtvarianz und eine Verringerung der Power, also der inferenzstatistischen Absicherung der Berechnung, kommen. Die Nichtberücksichtigung von Messfehlern kann sich auch in einer falschen Berücksichtigung ausdrücken. Davon kann dan gesprochen werden, wenn man die Reliabilität basierend auf falschen Annahmen berechnet. Falsche Annahmen können dadurch zustande kommen, dass ein Fragebogen nicht auf das zugrundeliegende Modell getestet wird. Da jedes Modell voneinander abweichende Annahmen über die wahren Werte einer Person, die Messfehler und Messfehlervarianzen macht und sich dadurch auch die Berechnung der Gesamtreliabilität eines Messinstruments jeweils verändert, ist es notwendig zu wissen, welches Modell dem vorliegenden Messinstrument zugrunde liegt. Erst auf Basis dieses Wissens, kann die genauste Reliabilität, sowohl auf Item, als auch auf Gesamttestebene berechnet werden.

Neben der Berechnung der Reliabilität eines Items oder Tests, ist die Anwendung verschiedener Testmodelle auch für die Berechnung der Validität eines oder meherer Items oder Tests wichtig.

Quellen: Eid, Gollwitzer und Schmitt (2013)