Erwartungswert und Standardabweichung der Binomialverteilung
Formeln
Für eine binomialverteilte Zufallsgröße \( X \sim B(n, p) \) gelten besonders einfache Formeln für die Kenngrößen:
$$E(X) = \mu = n \cdot p$$
$$\text{Var}(X) = \sigma^2 = n \cdot p \cdot (1-p) = n \cdot p \cdot q$$
$$\sigma = \sqrt{n \cdot p \cdot (1-p)}$$
Diese Formeln lassen sich aus der allgemeinen Definition von Erwartungswert und Varianz herleiten, indem man die Linearität des Erwartungswerts und die Unabhängigkeit der Einzelversuche nutzt. Jeder einzelne Bernoulli-Versuch trägt den Erwartungswert \( p \) und die Varianz \( p(1-p) \) bei; bei \( n \) unabhängigen Versuchen addieren sich diese.
Interpretation
Der Erwartungswert \( \mu = np \) gibt die durchschnittlich erwartete Trefferzahl an. Bei 100 Würfen mit einem fairen Würfel erwartet man \( 100 \cdot \frac{1}{6} \approx 16{,}7 \) Sechsen. Bei 200 Freiwürfen mit einer Quote von 80 % erwartet man \( 200 \cdot 0{,}8 = 160 \) Treffer.
Die Standardabweichung \( \sigma = \sqrt{npq} \) gibt an, wie stark die tatsächliche Trefferzahl typischerweise vom Erwartungswert abweicht. Im Würfelbeispiel: \( \sigma = \sqrt{100 \cdot \frac{1}{6} \cdot \frac{5}{6}} \approx 3{,}73 \). Man erwartet also etwa 16,7 Sechsen, wobei Abweichungen von 3–4 nach oben oder unten normal sind.
Einfluss der Parameter
Die Varianz \( npq \) ist maximal, wenn \( p = 0{,}5 \) (größte Unsicherheit), und wird klein, wenn \( p \) nahe 0 oder 1 liegt (fast sicherer Misserfolg bzw. Erfolg). Die Standardabweichung wächst mit \( \sqrt{n} \), also langsamer als der Erwartungswert, der mit \( n \) wächst. Der relative Fehler \( \frac{\sigma}{\mu} = \sqrt{\frac{q}{np}} \) nimmt daher mit wachsendem \( n \) ab – größere Stichproben liefern relativ genauere Ergebnisse.
Beispiel: Für \( n = 100, p = 0{,}5 \): \( \mu = 50, \sigma = 5 \), relativer Fehler 10 %. Für \( n = 10000, p = 0{,}5 \): \( \mu = 5000, \sigma = 50 \), relativer Fehler nur 1 %. Die Stichprobe ist 100-mal größer, die Genauigkeit aber nur 10-mal besser.
Sigma-Umgebungen der Binomialverteilung
Die Sigma-Regeln lassen sich auf die Binomialverteilung anwenden. Das Intervall \( [\mu – k\sigma, \mu + k\sigma] \) enthält mit bestimmter Wahrscheinlichkeit die Trefferzahl:
- \( k = 1 \): \( P(\mu – \sigma \leq X \leq \mu + \sigma) \approx 68{,}3\% \)
- \( k = 1{,}96 \): \( \approx 95\% \)
- \( k = 2{,}58 \): \( \approx 99\% \)
Diese Näherungen sind umso genauer, je größer \( n \) ist und je näher \( p \) bei 0,5 liegt (Faustregel: \( npq > 9 \)).
Beispiel: Bei \( n = 400, p = 0{,}3 \): \( \mu = 120, \sigma = \sqrt{84} \approx 9{,}17 \). Das 95-%-Intervall ist \( [120 – 1{,}96 \cdot 9{,}17; \, 120 + 1{,}96 \cdot 9{,}17] \approx [102; 138] \). Mit 95 % Wahrscheinlichkeit liegen zwischen 102 und 138 Erfolge vor.
Anwendung: Prognoseintervalle
In der Praxis nutzt man die Sigma-Umgebungen als Prognoseintervalle: Kennt man \( n \) und \( p \), kann man vorhersagen, in welchem Bereich die Trefferzahl mit hoher Wahrscheinlichkeit liegen wird. Liegt das beobachtete Ergebnis deutlich außerhalb dieses Intervalls, gibt es Anlass, die Annahme über \( p \) zu hinterfragen – dies ist der Grundgedanke des Hypothesentests.
Zusammenfassung
Die Kenngrößen der Binomialverteilung – \( \mu = np \), \( \sigma = \sqrt{npq} \) – sind einfach zu berechnen und intuitiv zu interpretieren. Der Erwartungswert gibt die mittlere Trefferzahl an, die Standardabweichung die typische Schwankungsbreite. Die Sigma-Umgebungen liefern Wahrscheinlichkeitsintervalle, die als Prognose- und Entscheidungsgrundlage dienen. Der relative Fehler sinkt mit \( \sqrt{n} \), was den Nutzen größerer Stichproben quantifiziert.