Erwartungswert und Standardabweichung der Binomialverteilung

Erwartungswert und Standardabweichung der Binomialverteilung

Formeln

Für eine binomialverteilte Zufallsgröße \( X \sim B(n, p) \) gelten besonders einfache Formeln für die Kenngrößen:

$$E(X) = \mu = n \cdot p$$
$$\text{Var}(X) = \sigma^2 = n \cdot p \cdot (1-p) = n \cdot p \cdot q$$
$$\sigma = \sqrt{n \cdot p \cdot (1-p)}$$

Diese Formeln lassen sich aus der allgemeinen Definition von Erwartungswert und Varianz herleiten, indem man die Linearität des Erwartungswerts und die Unabhängigkeit der Einzelversuche nutzt. Jeder einzelne Bernoulli-Versuch trägt den Erwartungswert \( p \) und die Varianz \( p(1-p) \) bei; bei \( n \) unabhängigen Versuchen addieren sich diese.

Interpretation

Der Erwartungswert \( \mu = np \) gibt die durchschnittlich erwartete Trefferzahl an. Bei 100 Würfen mit einem fairen Würfel erwartet man \( 100 \cdot \frac{1}{6} \approx 16{,}7 \) Sechsen. Bei 200 Freiwürfen mit einer Quote von 80 % erwartet man \( 200 \cdot 0{,}8 = 160 \) Treffer.

Die Standardabweichung \( \sigma = \sqrt{npq} \) gibt an, wie stark die tatsächliche Trefferzahl typischerweise vom Erwartungswert abweicht. Im Würfelbeispiel: \( \sigma = \sqrt{100 \cdot \frac{1}{6} \cdot \frac{5}{6}} \approx 3{,}73 \). Man erwartet also etwa 16,7 Sechsen, wobei Abweichungen von 3–4 nach oben oder unten normal sind.

Einfluss der Parameter

Die Varianz \( npq \) ist maximal, wenn \( p = 0{,}5 \) (größte Unsicherheit), und wird klein, wenn \( p \) nahe 0 oder 1 liegt (fast sicherer Misserfolg bzw. Erfolg). Die Standardabweichung wächst mit \( \sqrt{n} \), also langsamer als der Erwartungswert, der mit \( n \) wächst. Der relative Fehler \( \frac{\sigma}{\mu} = \sqrt{\frac{q}{np}} \) nimmt daher mit wachsendem \( n \) ab – größere Stichproben liefern relativ genauere Ergebnisse.

Beispiel: Für \( n = 100, p = 0{,}5 \): \( \mu = 50, \sigma = 5 \), relativer Fehler 10 %. Für \( n = 10000, p = 0{,}5 \): \( \mu = 5000, \sigma = 50 \), relativer Fehler nur 1 %. Die Stichprobe ist 100-mal größer, die Genauigkeit aber nur 10-mal besser.

Sigma-Umgebungen der Binomialverteilung

Die Sigma-Regeln lassen sich auf die Binomialverteilung anwenden. Das Intervall \( [\mu – k\sigma, \mu + k\sigma] \) enthält mit bestimmter Wahrscheinlichkeit die Trefferzahl:

  • \( k = 1 \): \( P(\mu – \sigma \leq X \leq \mu + \sigma) \approx 68{,}3\% \)
  • \( k = 1{,}96 \): \( \approx 95\% \)
  • \( k = 2{,}58 \): \( \approx 99\% \)

Diese Näherungen sind umso genauer, je größer \( n \) ist und je näher \( p \) bei 0,5 liegt (Faustregel: \( npq > 9 \)).

Beispiel: Bei \( n = 400, p = 0{,}3 \): \( \mu = 120, \sigma = \sqrt{84} \approx 9{,}17 \). Das 95-%-Intervall ist \( [120 – 1{,}96 \cdot 9{,}17; \, 120 + 1{,}96 \cdot 9{,}17] \approx [102; 138] \). Mit 95 % Wahrscheinlichkeit liegen zwischen 102 und 138 Erfolge vor.

Anwendung: Prognoseintervalle

In der Praxis nutzt man die Sigma-Umgebungen als Prognoseintervalle: Kennt man \( n \) und \( p \), kann man vorhersagen, in welchem Bereich die Trefferzahl mit hoher Wahrscheinlichkeit liegen wird. Liegt das beobachtete Ergebnis deutlich außerhalb dieses Intervalls, gibt es Anlass, die Annahme über \( p \) zu hinterfragen – dies ist der Grundgedanke des Hypothesentests.

Zusammenfassung

Die Kenngrößen der Binomialverteilung – \( \mu = np \), \( \sigma = \sqrt{npq} \) – sind einfach zu berechnen und intuitiv zu interpretieren. Der Erwartungswert gibt die mittlere Trefferzahl an, die Standardabweichung die typische Schwankungsbreite. Die Sigma-Umgebungen liefern Wahrscheinlichkeitsintervalle, die als Prognose- und Entscheidungsgrundlage dienen. Der relative Fehler sinkt mit \( \sqrt{n} \), was den Nutzen größerer Stichproben quantifiziert.