Gütefunktion eines Tests

Was ist die Gütefunktion?

Die Gütefunktion (auch Macht- oder Power-Funktion) eines Hypothesentests gibt für jeden möglichen Parameterwert $ p $ an, mit welcher Wahrscheinlichkeit die Nullhypothese $ H_0 $ abgelehnt wird:

$$G(p) = P(X \in K \mid p)$$

Hierbei ist $ K $ der kritische Bereich (Ablehnungsbereich). Die Gütefunktion misst also die „Ablehnungswahrscheinlichkeit“ in Abhängigkeit vom wahren Parameterwert. Sie liefert ein vollständiges Bild der Eigenschaften des Tests.

Zusammenhang mit Fehlerwahrscheinlichkeiten

Die Gütefunktion vereint die Fehlerwahrscheinlichkeiten $ \alpha $ und $ \beta $:

Für $ p $-Werte unter $ H_0 $: $ G(p) \leq \alpha $ (Fehler 1. Art)
Für $ p $-Werte unter $ H_1 $: $ G(p) = 1 – \beta(p) $, die Macht (Power) des Tests

Die Macht ist die Wahrscheinlichkeit, eine tatsächliche Abweichung korrekt zu erkennen. Eine hohe Macht bedeutet einen empfindlichen Test, der bereits kleine Abweichungen von $ H_0 $ zuverlässig aufdeckt.

Form der Gütefunktion

Für einen einseitigen rechtsseitigen Test ($ H_0: p \leq p_0 $, $ H_1: p > p_0 $) ist die Gütefunktion eine monoton steigende Kurve: Je größer der wahre Parameterwert, desto höher die Ablehnungswahrscheinlichkeit. Am Grenzwert $ p = p_0 $ erreicht $ G(p) $ gerade den Wert $ \alpha $. Für $ p \to 1 $ strebt $ G(p) $ gegen 1.

Bei zweiseitigen Tests ist die Gütefunktion U-förmig: Sie ist minimal bei $ p = p_0 $ (dort gleich $ \alpha $) und steigt in beide Richtungen auf 1 an.

Beispiel

$ H_0: p \leq 0{,}5 $, $ H_1: p > 0{,}5 $, $ n = 100 $, $ \alpha = 0{,}05 $, kritischer Bereich $ K = \{59, \ldots, 100\} $.

Berechnung der Gütefunktion an verschiedenen Stellen:

$ G(0{,}5) = P(X \geq 59 \mid p = 0{,}5) \approx 0{,}05 = \alpha $ (Grenzfall)
$ G(0{,}55) = P(X \geq 59 \mid p = 0{,}55) \approx 0{,}20 $
$ G(0{,}6) \approx 0{,}54 $
$ G(0{,}65) \approx 0{,}86 $
$ G(0{,}7) \approx 0{,}98 $

Bei $ p = 0{,}55 $ wird die Abweichung nur in 20 % der Fälle erkannt – der Test ist wenig empfindlich für kleine Abweichungen. Bei $ p = 0{,}7 $ wird sie praktisch immer erkannt.

Was beeinflusst die Macht?

Die Macht eines Tests hängt von mehreren Faktoren ab:

Stichprobengröße $ n $: Größeres $ n $ → höhere Macht bei gleichem $ \alpha $. Dies ist der wichtigste steuerbare Faktor.
Signifikanzniveau $ \alpha $: Größeres $ \alpha $ → höhere Macht, aber auch höheres Risiko eines Fehlers 1. Art.
Effektgröße: Je weiter der wahre Wert von $ p_0 $ entfernt ist, desto höher die Macht.
Testkonstruktion: Einseitige Tests haben höhere Macht in der vermuteten Richtung als zweiseitige.

Bestimmung des Stichprobenumfangs

In der Testplanung fragt man oft: Wie groß muss $ n $ sein, damit der Test bei einer bestimmten Abweichung (z. B. $ p = 0{,}6 $ statt $ p_0 = 0{,}5 $) mit einer Mindestmacht (z. B. 80 %) Abweichungen erkennt? Dies führt auf eine Gleichung für $ n $, die gewöhnlich numerisch oder über die Normalapproximation gelöst wird.

Zusammenfassung

Die Gütefunktion $ G(p) = P(\text{Ablehnung} \mid p) $ beschreibt die Ablehnungswahrscheinlichkeit eines Tests in Abhängigkeit vom wahren Parameterwert. Unter $ H_0 $ ist sie durch $ \alpha $ beschränkt, unter $ H_1 $ liefert sie die Macht $ 1 – \beta $. Eine hohe Macht bedeutet einen empfindlichen Test. Die Gütefunktion ist das zentrale Werkzeug zur Bewertung und Planung von Hypothesentests und zur Bestimmung des notwendigen Stichprobenumfangs.