Erwartungswert und Standardabweichung der Binomialverteilung

Formeln

Für eine binomialverteilte Zufallsgröße $ X \sim B(n, p) $ gelten besonders einfache Formeln für die Kenngrößen:

$$E(X) = \mu = n \cdot p$$
$$\text{Var}(X) = \sigma^2 = n \cdot p \cdot (1-p) = n \cdot p \cdot q$$
$$\sigma = \sqrt{n \cdot p \cdot (1-p)}$$

Diese Formeln lassen sich aus der allgemeinen Definition von Erwartungswert und Varianz herleiten, indem man die Linearität des Erwartungswerts und die Unabhängigkeit der Einzelversuche nutzt. Jeder einzelne Bernoulli-Versuch trägt den Erwartungswert $ p $ und die Varianz $ p(1-p) $ bei; bei $ n $ unabhängigen Versuchen addieren sich diese.

Interpretation

Der Erwartungswert $ \mu = np $ gibt die durchschnittlich erwartete Trefferzahl an. Bei 100 Würfen mit einem fairen Würfel erwartet man $ 100 \cdot \frac{1}{6} \approx 16{,}7 $ Sechsen. Bei 200 Freiwürfen mit einer Quote von 80 % erwartet man $ 200 \cdot 0{,}8 = 160 $ Treffer.

Die Standardabweichung $ \sigma = \sqrt{npq} $ gibt an, wie stark die tatsächliche Trefferzahl typischerweise vom Erwartungswert abweicht. Im Würfelbeispiel: $ \sigma = \sqrt{100 \cdot \frac{1}{6} \cdot \frac{5}{6}} \approx 3{,}73 $. Man erwartet also etwa 16,7 Sechsen, wobei Abweichungen von 3–4 nach oben oder unten normal sind.

Einfluss der Parameter

Die Varianz $ npq $ ist maximal, wenn $ p = 0{,}5 $ (größte Unsicherheit), und wird klein, wenn $ p $ nahe 0 oder 1 liegt (fast sicherer Misserfolg bzw. Erfolg). Die Standardabweichung wächst mit $ \sqrt{n} $, also langsamer als der Erwartungswert, der mit $ n $ wächst. Der relative Fehler $ \frac{\sigma}{\mu} = \sqrt{\frac{q}{np}} $ nimmt daher mit wachsendem $ n $ ab – größere Stichproben liefern relativ genauere Ergebnisse.

Beispiel: Für $ n = 100, p = 0{,}5 $: $ \mu = 50, \sigma = 5 $, relativer Fehler 10 %. Für $ n = 10000, p = 0{,}5 $: $ \mu = 5000, \sigma = 50 $, relativer Fehler nur 1 %. Die Stichprobe ist 100-mal größer, die Genauigkeit aber nur 10-mal besser.

Sigma-Umgebungen der Binomialverteilung

Die Sigma-Regeln lassen sich auf die Binomialverteilung anwenden. Das Intervall $ [\mu – k\sigma, \mu + k\sigma] $ enthält mit bestimmter Wahrscheinlichkeit die Trefferzahl:

$ k = 1 $: $ P(\mu – \sigma \leq X \leq \mu + \sigma) \approx 68{,}3\% $
$ k = 1{,}96 $: $ \approx 95\% $
$ k = 2{,}58 $: $ \approx 99\% $

Diese Näherungen sind umso genauer, je größer $ n $ ist und je näher $ p $ bei 0,5 liegt (Faustregel: $ npq > 9 $).

Beispiel: Bei $ n = 400, p = 0{,}3 $: $ \mu = 120, \sigma = \sqrt{84} \approx 9{,}17 $. Das 95-%-Intervall ist $ [120 – 1{,}96 \cdot 9{,}17; \, 120 + 1{,}96 \cdot 9{,}17] \approx [102; 138] $. Mit 95 % Wahrscheinlichkeit liegen zwischen 102 und 138 Erfolge vor.

Anwendung: Prognoseintervalle

In der Praxis nutzt man die Sigma-Umgebungen als Prognoseintervalle: Kennt man $ n $ und $ p $, kann man vorhersagen, in welchem Bereich die Trefferzahl mit hoher Wahrscheinlichkeit liegen wird. Liegt das beobachtete Ergebnis deutlich außerhalb dieses Intervalls, gibt es Anlass, die Annahme über $ p $ zu hinterfragen – dies ist der Grundgedanke des Hypothesentests.

Zusammenfassung

Die Kenngrößen der Binomialverteilung – $ \mu = np $, $ \sigma = \sqrt{npq} $ – sind einfach zu berechnen und intuitiv zu interpretieren. Der Erwartungswert gibt die mittlere Trefferzahl an, die Standardabweichung die typische Schwankungsbreite. Die Sigma-Umgebungen liefern Wahrscheinlichkeitsintervalle, die als Prognose- und Entscheidungsgrundlage dienen. Der relative Fehler sinkt mit $ \sqrt{n} $, was den Nutzen größerer Stichproben quantifiziert.