Die Nebengütekriterien
Ob ein Test ein guter Test ist hängt nicht nur davon ab, ob er objektiv, reliabel und valide ist. Es gibt eine Reihe weiterer Kriterien, die bei der Konzeption von Tests zu beachten sind. Diese werden als Nebengütekriterien bezeichnet. Folgende Nebengütekriterien werden von vielen Autoren genannt:
Wenn die Testfairness verletzt ist, benachteiligt ein Test systematisch einzelne Gruppen, z. B. Personen eines bestimmten Geschlechts oder einer bestimmten ethnischen Herkunft. Zum Beispiel benachteiligt ein Lesetest zum Thema „Weihnachten“ möglicherweise Schüler*innen, die in ihrer Familie nicht Weihnachten feiern. Das heißt diese Schüler*innen schneiden in dem Test schlechter ab als es ihrer eigentlichen Lesekompetenz entspricht. Achtung: Im schulischen Kontext wird der Begriff „Fairness“ manchmal anders verwendet, zum Beispiel wird eine zu schwere Lernerfolgskontrolle als unfair bezeichnet. In der Pädagogischen Diagnostik ist aber die obenstehende Bedeutung entscheidend.
Die Durchführung eines Tests ist immer mit einem gewissen Aufwand verbunden: Testhefte müssen beschafft oder Aufgaben kopiert werden, die Durchführung, Auswertung und Interpretation kostet Zeit. Bei einem ökonomischen Verfahren hält sich dieser Aufwand in Grenzen und steht in vernünftigen Verhältnis zum Nutzen, den man aus dem Testergebnis ziehen kann (siehe hierzu auch den nächsten Punkt).
Dieses Gütekriterium erscheint fast schon trivial: Ein Test sollte nützlich sein, um eine bestimmte Fragestellung zu beantworten. Auch ein ansonsten perfekter Test ist unnütz, wenn keine diagnostische Fragestellung vorliegt oder keine Entscheidungen anstehen, für die das Testergebnis von Bedeutung ist. Die Nützlichkeit eines Testverfahrens ist auch dann nicht gegeben, wenn eine Fragestellung zwar besteht, das Testergebnis aber nicht hilft, die Frage zu beantworten. Für die Aufnahme am Gymnasium wäre zum Beispiel ein Test auf Farbfehlsichtigkeit unnütz.
Testergebnisse können in der Regel von der getesteten Person verfälscht werden. In einem Intelligenztest oder Leistungstest ist es zum Beispiel immer möglich, absichtlich falsch zu antworten, das Testergebnis kann also „nach unten“ verfälscht werden. Durch Blicke auf die Lösungen des Sitznachbarn ist auch eine Verfälschung „nach oben“ möglich. Um letzteres zu verhindern gibt es für Gruppentests normalerweise parallele Testversionen. Die Verfälschung durch absichtliche Falschantworten lässt sich aber nicht verhindern. „Unverfälschbarkeit“ ist also immer nur zu einem gewissen Ausmaß zu erreichen.
Ein Testverfahren muss den getesteten Personen zuzumuten sein, ein Test der sehr lange andauert, der mit starken körperlichen oder psychischen Belastungen einhergeht ist dies nicht. Ein mehrstündiger Mathetest für Grundschüler, bei dem keine Pausen gemacht werden dürfen, würde das Kriterium der Zumutbarkeit zum Beispiel nicht erfüllen.
Normierung ist ein Nebengütekriterium, das ausdrücklich nur für standardisierte Tests gilt, für die Normwerttabellen vorliegen. Das Gütekriterium ist erfüllt, wenn die Normstichproben repräsentativ sind und die Normen aktuell sind, d. h. noch nicht veraltet. In der Vorlesung „Standardisierte Tests“ (Block 3B) erhalten Sie hierzu weitere Informationen.