Erwartungstreue Schätzung des Parameters p

Von der Stichprobe zum Parameter

In der Praxis kennt man den wahren Wert der Erfolgswahrscheinlichkeit $ p $ einer Binomialverteilung oft nicht. Man möchte ihn aus einer Stichprobe schätzen. Hat man $ n $ unabhängige Versuche durchgeführt und $ k $ Erfolge beobachtet, so ist der naheliegende Schätzer die relative Häufigkeit:

$$\hat{p} = \frac{k}{n} = \frac{X}{n}$$

Dieser Schätzer heißt $ \hat{p} $ (gelesen: „p-Dach“) und ist die bestmögliche Schätzung für den unbekannten Parameter $ p $ auf Basis der vorliegenden Daten.

Erwartungstreue

Ein Schätzer heißt erwartungstreu (unverzerrt, unbiased), wenn sein Erwartungswert gleich dem wahren Parameter ist:

$$E(\hat{p}) = E\left(\frac{X}{n}\right) = \frac{1}{n} \cdot E(X) = \frac{1}{n} \cdot np = p$$

Der Schätzer $ \hat{p} = \frac{X}{n} $ ist also erwartungstreu für $ p $. Das bedeutet: Im Durchschnitt über viele Stichproben trifft der Schätzer den wahren Wert genau. Einzelne Stichproben können natürlich abweichen, aber es gibt keine systematische Über- oder Unterschätzung.

Streuung des Schätzers

Die Varianz des Schätzers beträgt:

$$\text{Var}(\hat{p}) = \text{Var}\left(\frac{X}{n}\right) = \frac{1}{n^2} \cdot \text{Var}(X) = \frac{p(1-p)}{n}$$

Die Standardabweichung ist $ \sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}} $. Sie sinkt mit $ \frac{1}{\sqrt{n}} $ – vierfacher Stichprobenumfang halbiert die Streuung. Für $ p = 0{,}5 $ ist die Streuung maximal, für $ p $ nahe 0 oder 1 minimal.

Beispiel: Bei $ n = 400 $ Befragten gaben $ k = 160 $ an, Produkt X zu bevorzugen. Schätzung: $ \hat{p} = \frac{160}{400} = 0{,}4 $. Standardfehler: $ \sigma_{\hat{p}} = \sqrt{\frac{0{,}4 \cdot 0{,}6}{400}} = \sqrt{\frac{0{,}24}{400}} = \sqrt{0{,}0006} \approx 0{,}0245 $.

Konsistenz

Der Schätzer $ \hat{p} $ ist auch konsistent: Für $ n \to \infty $ konvergiert $ \hat{p} $ gegen den wahren Wert $ p $ (im stochastischen Sinne). Dies ist eine Konsequenz des Gesetzes der großen Zahlen. Je mehr Daten man sammelt, desto genauer wird die Schätzung.

Verteilung des Schätzers

Da $ X \sim B(n, p) $, ist $ \hat{p} = X/n $ eine skalierte Binomialvariable. Für großes $ n $ gilt nach dem Satz von Moivre-Laplace näherungsweise:

$$\hat{p} \approx N\left(p, \frac{p(1-p)}{n}\right)$$

Die standardisierte Version ist:

$$Z = \frac{\hat{p} – p}{\sqrt{\frac{p(1-p)}{n}}} \approx N(0, 1)$$

Diese Normalapproximation ist die Grundlage für die Konstruktion von Konfidenzintervallen und Hypothesentests.

Zusammenfassung

Die relative Häufigkeit $ \hat{p} = X/n $ ist ein erwartungstreuer und konsistenter Schätzer für den Binomialparameter $ p $. Seine Streuung sinkt mit $ 1/\sqrt{n} $. Für großes $ n $ ist $ \hat{p} $ näherungsweise normalverteilt, was die Konstruktion von Konfidenzintervallen und die Durchführung von Hypothesentests ermöglicht. Die Erwartungstreue garantiert die Abwesenheit systematischer Verzerrungen.