Springe direkt zu Inhalt

Fragensammlung

 

Das Konfidenzintervall (KI) muss berechnet werden und ist dabei abhängig vom Testwert X, der Irrtumswahrscheinlichkeit α und dem Standardmessfehler sE oder dem Standardschätzfehler sest. Es ist der Bereich, in dem die beobachteten Testwerte um den wahren Wert streuen. Je nach Fragestellung wird ein einseitiges oder ein zweiseitiges KI berechnet.

Die Sicherheitswahrscheinlichkeit (1-α) ist die Gegenwahrscheinlichkeit der Irrtumswahrscheinlichkeit α und kann selbst festgelegt werden. In den meisten Fällen wird die Sicherheitswahrscheinlichkeit auf den Wert α = 0.95 festgesetzt. Es wird deshalb auch von einem 95%-Konfidenzintervall gesprochen. Der für die Berechnung notwendige z-Wert kann in einer z-Werte-Tabelle (Standardnormalverteilungstabelle) nachgeschlagen werden. Für das 95%-KI ergibt sich z1-α = 1.645 (einseitiges Testen) und z1-α/2 = 1.96 (zweiseitiges Testen).

 

  • einseitig: Ist die untersuchte Person mindestens durchschnittlich intelligent?

KI = X ± z1-α ∙ sE          oder         KI = X‘ ± z1-α ∙ sest

 

z1-α = 1.645

Bei einseitigem Testen und im vorliegenden Fall (mindestens durchschnittlich intelligent) wird nur die untere Konfidenzintervallgrenze (uKG) berechnet mit X - z1-α ∙ sE bzw. X‘ - z1-α ∙ sest. Das Konfidenzintervall ist nach oben hin offen. Bei einer möglichen Frage, ob die untersuchte Person höchstens durchschnittlich neurotisch ist, wird nur die obere Konfidenzintervallgrenze (oKG) berechnet mit X + z1-α ∙ sE bzw. X‘ + z1-α ∙ sest.  Dieses Konfidenzintervall ist nach unten hin offen.

 

  • zweiseitig: Wie intelligent ist die untersuchte Person?

KI = X ± z1-α/2 ∙ sE          oder         KI = X‘ ± z1-α/2 ∙ sest

 

z1-α/2 = 1.96

Beim zweiseitigem Testen werden beide Konfidenzintervallgrenzen berechnet: die untere KI-Grenze (uKG) mit X - z1-α/2 ∙ sE und die obere KI-Grenze (oKG) mit X + z1-α/2 ∙ sE (bzw. X‘ - z1-α/2 ∙ sest und X‘ + z1-α/2 ∙ sest).

 

 

Hinweis: Die Ausdrücke z1-α und z1-α/2 sind die kritischen z-Werte für die Berechnung des KI und sind nicht zu verwechseln mit den z-Normwerten, in denen das Testergebnis angegeben werden kann.

 

Für die Unterscheidung von Standardmessfehler sE und Standardschätzfehler sest siehe hier.

 

Für die vollständige Berechnung und die Entscheidung, welche der jeweils zwei möglichen Formeln (mit Standardmessfehler sE oder Standardschätzfehler sest) zu benutzen ist, siehe hier.

 

 

Folgende Faustregeln können dabei helfen, mögliche Fehler zu erkennen:

  • Wenn das KI bei niedriger Reliabilität kleiner ist als bei hoher Reliabilität, stimmt was nicht.
  • Wenn das KI bei gleicher Reliabilität nicht gleich groß ist, stimmt was nicht.
  • Wenn der korrigierte Wert vom Mittelwert weiter entfernt ist als der beobachtete Wert, stimmt was nicht.

 

Messfehler Ei

auch: Fehlerwert/error score

Xi = Ti + Ei

Xi beobachteter Wert von Person i

Ti wahrer Wert von Person i (true score)


Standardmessfehler sE

sE = sX ∙ √ (1 - Rel)

sX Standardabweichung der Normwertskala

Rel Reliabilität

 

Streuung der Messfehler

Schätzung, wie stark die Messfehler bei sehr vielen Wiederholungen um den wahren Wert streuen würden.

Es ist nicht möglich, den Messfehler einer einzelnen Messung zu bestimmen.

 

Bei Normalverteilung der Testwerte liegen ~ 68 % der Testwerte im Bereich +/- 1 SD (Standardabweichung).

Bsp: SD = 10; Rel = .96 → sE = 2: beobachtete Werte weichen in in 68% der Fälle max. 2 Punkte vom wahren Wert ab.


Standardschätzfehler  sest

sest = sy ∙ √ (1 - rtc2)

sy Standardabweichung der Kriteriumswerte

rtc Validitätskoeffizient (Korrelation zwischen Test und Kriterium)

 

Streuung der Kriteriumswerte (Regression)

Messwerte, die in Regressionsgleichung eingehen, sind fehlerbehaftet, Kriteriumswerte streuen um Regressionsgerade.

Standardschätzfehler gibt an, wie die wahren Kriteriumswerte um die vorhergesagten streuen.

 

für KI (Konfidenzintervall) nach Regressionshypothese benötigt:

sest = sX ∙ √ (Rel ∙ (1 – Rel))

 

Die Höhe der Fehlerwerte sind abhängig von der Reliabilität und der verwendeten Normwertskala, da die Standardabweichung der Normwertskala sX in die Berechnung miteinfließt. Zwei Beispiele sollen den Einfluss der Normwertskala bei gleicher Reliabilität (Rel = 0.9) auf den Fehler verdeutlichen:

z-Werte (Standardabweichung = 1):   1 ∙ √ (0.9 ∙ (1-0.9)) = 0.3   

IQ-Werte (Standardabweichung = 15):   15 ∙ √ (0.9 ∙ (1-0.9)) = 4.5

 

 

Ein KI kann nach der Äquivalenzhypothese oder nach der Regressionshypothese berechnet werden. Unter der Äquivalenzhypothese nimmt man an, dass der beobachtete Wert ein guter Schätzer für den wahren Wert ist und das KI berechnet sich also mithilfe des Standardmessfehlers sX:

 

KI = X ± z1-α/2 ∙ sE

KI = X ± z1-α/2 ∙ sX ∙ √(1-Rel)

 

Unter der Regressionshypothese wird davon ausgegangen, dass extreme Werte unwahrscheinlicher sind als Werte in der Mitte der Verteilung. Deshalb werden beobachtete Werte zur Mitte hin korrigiert (Regression zur Mitte). Für die Berechnung des KIs wird dann außerdem der Standardschätzfehler sest genutzt:

 

X‘ = Rel ∙ X + M ∙ (1-Rel)

X‘ korrigierter Testwert

KI = X‘ ± z1-α/2 ∙ sest

KI = X‘ ± z1-α/2 ∙ sX ∙ √(Rel ∙ (1-Rel))

 

 

Die oben aufgeführten Formeln beziehen sich auf das zweiseitige Testen mit z1-α/2 = 1.96. Bei einseitigem Testen wird stattdessen mit z1-α = 1.645 gerechnet. Zur Unterscheidung siehe hier.

 

Die Normstichprobe sollte immer abhängig von der Fragestellung gewählt werden:

Bei eignungsdiagnostischen Fragestellungen ist die allgemeinste verfügbare Norm von Vorteil (Gesamt- oder bevölkerungsrepräsentative Stichprobe, die aber nicht dasselbe sind). Es geht schließlich darum herauszufinden, welche Person im Vergleich zu allen Personen (unabhängig von Alter und Geschlecht) die geeignetste ist. Alle Personen werden gleichbehandelt, alle werden an denselben Kriterien gemessen. (Eine Ausnahme wäre, wenn die Kriterien bspw. an Positionsinhaber*innen oder Personen mit Abitur orientiert sind.)

Bei anderen Fragen hängt es davon ab, ob alle Personen gleichbehandelt werden sollen: Z.B. sollten alle Personen ab einer bestimmten Ausprägung der Depressivität eine Therapie erhalten; da Frauen hier im Durchschnitt höhere Werte haben, wäre die Orientierung an geschlechtsspezifischen Normen unsinnig und auch ungerecht.

Bei Fragen bezüglich Intelligenz oder Persönlichkeit, die abhängig von Alter und/oder Geschlecht sind (also Konstrukte die subgruppenspezifisch definiert sind), ist die Benutzung von spezifischeren Normen sinnvoller. Beispiel Intelligenz: Sie ist immer im Vergleich zu Gleichaltrigen festgelegt und daher wird etwa Hoch- oder Minderbegabung im Vergleich zu Gleichaltrigen untersucht. Beispiel Demenz: Bei der Demenzdiagnostik wird zusätzlich das Geschlecht und die Bildungserfahrung berücksichtigt, weil es darum geht, herauszufinden, ob die aktuelle Leistung als pathologisch einzustufen ist (pathologisch bedeutet hier, deutlich schlechter als vor dem Hintergrund der typischen Entwicklung zu erwarten).

Werden Konstrukte durch mehrere Fragebögen gemessen, ist zudem darauf zu achten, dass möglichst ähnliche Normen für alle Testverfahren herangezogen werden.

 

Sofern vertretbar, sollten für alle psychologischen Fragen die gleichen Referenzgruppen gewählt werden.

Nicht vertretbar ist dies, wenn die gewählten Tests keine einheitlichen Referenzgruppen erlauben und/oder die adressierten Merkmale unterschiedliche Normdifferenzierungen erfordern (z.B. fluide Intelligenz als altersabhängiges Merkmal).

 

Wie bei der Frage, ob sich zwei Personen in einem Test unterscheiden, kann auch Selbst- und Fremdbeobachtung mithilfe der kritischen Differenz verglichen werden. Zwei Testergebnisse unterscheiden sich, wenn der Betrag der Differenz zweier Testwerte* gleich oder größer als die errechnete kritische Differenz Dkrit ist.

* Betrag der Differenz ist nichtnegativ; Bsp: | 3 - 7 | = 4

 

Dkrit = z1-a/2 ∙ seDiff

 

seDiff = sx ∙ √(2 - (Rel1 + Rel2))

         = sx ∙ √(2 ∙ (1-Rel))                    falls Rel1 = Rel2

 

sx Streuung der betrachteten Testwerte

Für die Einordnung von Testwerten wird in der Regel auf eins der beiden nachfolgenden Durchschnittsmodelle zurückgegriffen. Die Modelle unterschieden sich in der Anzahl der Kategorien (3 bzw. 5).

 

Modell mit 3 Kategorien: durchschnittliche Werte im Bereich des Mittelwerts +/- 1 SD
               
 zTIQSWCStaninePR
unterdurchschnittlich  < -1 < 40 < 85 < 90 < 30 < 30 < 16
durchschnittlich [ -1 - +1 ] [ 40 - 60 ] [ 85 - 115 ] [ 90 - 110 ] [ 3 - 7 ] [ 3 - 7 ] [ 16 - 84 ]
überdurchschnittlich  > +1 > 60 > 115 > 110 > 7 > 7 > 84
               
               
Modell mit 5 Kategorien / Marburger Modell: durchschnittliche Werte im Bereich des Mittelwerts +/- 0.5 SD
               
 zTIQSWCStaninePR
sehr niedrig < -1.5 < 35 < 77.5 < 85 < 2 < 2 < 6.7
niedrig [ -1.5 - -0.5 [ [ 35 - 45 [ [ 77.5 - 92.5 [ [ 85 - 95 [ [ 2 - 4 [ [ 2 - 4 [ [ 6.7 - 30.9 [
mittel/durchschnittlich [ -0.5 - +0.5 ] [ 45 - 55 ] [ 92.5 - 107.5 ] [ 95 - 105 ] [ 4 - 6 ] [ 4 - 6 ] [ 30.9 - 69.2 ]
hoch ] +0.5 - +1.5 ] ] 55 - 65 ] ] 107.5 - 122.5 ] ] 105 - 115 ] ] 6 - 8 ] ] 6 - 8 ] ] 69.2 - 93.3 ]
sehr hoch  > +1.5 > 65 > 122.5 > 115 > 8 > 8 > 93.3

 

Anmerkung. Bedeutung der Klammern. Der Ausdruck [ 35 - + 45 [ beschreibt die Kategorie niedrig im Marburger Modell auf Ebene der t-Werte. Das bedeutet, dass die Kategorie alle Werte zwischen 35 und 45 beinhaltet. Der Wert von 35 ist dabei Teil dieser Kategorie. Ein Wert von 45 gehört jedoch nicht mehr zu dieser Kategorie.

 

Beachte, dass der Bereich, der als durchschnittlich bezeichnet wird, in den Durchschnittsmodellen unterschiedlich breit ist. Mindestens durchschnittlich ist also eine strengere oder weniger strenge Forderung, je nach Wahl des Modells.

Beachte, dass mindestens hoch (im Marburger Modell) eine andere Schwelle darstellt als mindestens überdurchschnittlich (im Modell mit 3 Kategorien), und wähle das Durchschnittsmodell so, dass es der intendierten Höhe der Schwelle entspricht.

Die Wahl des Modells ins nicht abhängig von der gewünschten Bezeichnung der Kategorien, sondern von der Anzahl der Kategorien. Die Bezeichnungen sollen jedoch einheitlich verwendet werden und das in Frage stehende Merkmal sprachlich angemessen beschreiben. (Die Kategorien des Marburger Modells können beispielsweise auch wie folgt bezeichnet werden: stark unterdurchschnittlich, unterdurchschnittlich, durchschnittlich, überdurchschnittlich, stark überdurchschnittlich. Das gilt umgekehrt auch für das Modell mit 3 Kategorien, die auch als niedrig, mittel und hoch bezeichnet werden können.)

 

Es können aber auch andere Modell mit anderen Kategorien zugrunde gelegt werden, wenn sie zur Fragestellung passen (z.B. Testergebnis soll in der oberen Hälfte liegen). Daneben gibt es auch die Einordnung von Ergebnissen mithilfe eines Cut-offs (Kriterium erfüllt / Kriterium nicht erfüllt).

 

 

Es sollte geprüft werden, wie wichtig ein Merkmal für die zu beantwortende Frage ist. (Daumenregel: je wichtiger das Merkmal, desto höher die Schwelle - wenn eine hohe Ausprägung als besser angesehen wird.)

Auch die globale Fragestellung kann implizieren, dass Schwellen höher oder niedriger liegen. Fragen nach Zuständen oder Eignungen, die besonders selten sind bzw. schwer zu erreichen sind, können höhere Schwellen implizieren.

 

Der verwendete Reliabilitätskoeffizient richtet sich nach der Skala, die verwendet wurde. Ist der gesamte Test relevant für die Fragestellung, ist derjenige Koeffizient auszuwählen, der den gesamten Test repräsentiert. Werden Subskalen verwendet, so wird für jede dieser Skalen der entsprechende Koeffizient verwendet.

Für prognostische Fragen sind Retest-Reliabilitätsangaben zu präferieren.

Darüber hinaus prüfen Sie bitte, wie belastbar die Studie ist, aus der die Reliabilitätsangabe entstanden ist (Stichprobenumfang, Repräsentativität, etc.).

 

Die hier vorgestellten Bücher legen verschiedene Schwerpunkte. Je nach Art der Frage, ist das eine odere andere Buch zu bevorzugen. Die Liste ist natürlich nicht vollständig;  die meisten Fragen sollten sich aber mit Hilfe eines oder mehreren dieser Bücher beantworten lassen.

 

  • Schmidt-Atzert, L., Krumm, S. & Amelang, M. (2021). Psychologische Diagnostik (6. Aufl.). Berlin: Springer.
  • Eid, M. & Schmidt, K. (2014). Testtheorie und Testkonstruktion. Göttingen: Hogrefe.
  • Eid, M., Gollwitzer, M. & Schmitt, M. (2017). Statistik und Forschungsmethoden (5. Aufl.). Basel: Beltz.