Konfidenzintervall für den Anteilswert p
Motivation
Eine Punktschätzung \( \hat{p} = \frac{k}{n} \) liefert einen einzigen Zahlenwert für den unbekannten Parameter \( p \). Dieser Wert ist aber mit Unsicherheit behaftet – eine andere Stichprobe hätte einen anderen Wert ergeben. Ein Konfidenzintervall quantifiziert diese Unsicherheit, indem es einen Bereich angibt, der den wahren Parameter mit einer vorgegebenen Wahrscheinlichkeit (dem Konfidenzniveau) überdeckt.
Konstruktion des Konfidenzintervalls
Für großes \( n \) ist \( \hat{p} \) näherungsweise normalverteilt. Das symmetrische Konfidenzintervall zum Konfidenzniveau \( 1 – \alpha \) lautet:
$$\hat{p} – z_{1-\alpha/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq p \leq \hat{p} + z_{1-\alpha/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$$
Kompakter geschrieben:
$$p \in \left[\hat{p} \pm z_{1-\alpha/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right]$$
Dabei ist \( z_{1-\alpha/2} \) das entsprechende Quantil der Standardnormalverteilung. Für ein 95-%-Konfidenzintervall ist \( z_{0{,}975} = 1{,}96 \), für 99 % ist \( z_{0{,}995} = 2{,}576 \).
Beispiel
In einer Umfrage unter \( n = 500 \) Personen gaben \( k = 230 \) an, Partei A zu wählen. Also \( \hat{p} = 0{,}46 \). Das 95-%-Konfidenzintervall:
$$0{,}46 \pm 1{,}96 \cdot \sqrt{\frac{0{,}46 \cdot 0{,}54}{500}} = 0{,}46 \pm 1{,}96 \cdot 0{,}0223 = 0{,}46 \pm 0{,}0437$$
Das Konfidenzintervall ist \( [0{,}416;\, 0{,}504] \) oder \( [41{,}6\%;\, 50{,}4\%] \). Mit 95 % Sicherheit liegt der wahre Anteil in diesem Bereich.
Interpretation
Das Konfidenzintervall bedeutet nicht, dass \( p \) mit 95 % Wahrscheinlichkeit in dem berechneten Intervall liegt – \( p \) ist ein fester (aber unbekannter) Wert, keine Zufallsgröße. Die korrekte Interpretation: Wiederholt man das Stichprobenverfahren viele Male, so überdecken etwa 95 % der berechneten Intervalle den wahren Wert \( p \). Das konkrete Intervall überdeckt \( p \) – oder auch nicht.
Breite und Stichprobenumfang
Die Breite des Konfidenzintervalls ist \( 2 \cdot z_{1-\alpha/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \). Sie hängt ab von:
- Konfidenzniveau: Höheres Niveau → breiteres Intervall (mehr Sicherheit erfordert mehr Spielraum)
- Stichprobenumfang \( n \): Größeres \( n \) → schmaleres Intervall (mehr Daten → mehr Präzision)
- Geschätztes \( \hat{p} \): Maximale Breite bei \( \hat{p} = 0{,}5 \)
Möchte man ein Intervall mit vorgegebener maximaler Breite \( 2w \), so braucht man mindestens \( n \geq \left(\frac{z_{1-\alpha/2}}{2w}\right)^2 \) Beobachtungen (konservative Schätzung mit \( \hat{p} = 0{,}5 \)).
Zusammenfassung
Das Konfidenzintervall für \( p \) gibt einen Bereich an, der den wahren Anteilswert mit vorgegebener Wahrscheinlichkeit überdeckt. Es basiert auf der Normalapproximation des Schätzers \( \hat{p} \) und wird durch Konfidenzniveau, Stichprobenumfang und geschätzten Anteil bestimmt. Die korrekte Interpretation bezieht sich auf die Überdeckungswahrscheinlichkeit bei Wiederholung des Verfahrens. Konfidenzintervalle sind ein zentrales Werkzeug der schließenden Statistik.