Satz von Bayes

Satz von Bayes

Motivation: Ursachen aus Beobachtungen schließen

Oft kennt man die Wahrscheinlichkeit einer Beobachtung unter verschiedenen Bedingungen und möchte umgekehrt von der Beobachtung auf die wahrscheinlichste Bedingung schließen. Der Satz von Bayes ermöglicht genau diesen „Umkehrschluss“ und ist eines der mächtigsten Werkzeuge der Stochastik. Er beantwortet Fragen wie: „Wie wahrscheinlich bin ich krank, wenn der Test positiv ist?“ oder „Wie wahrscheinlich stammt das Produkt aus Maschine A, wenn es defekt ist?“

Formel

Für zwei Ereignisse \( A \) und \( B \) mit \( P(B) > 0 \) gilt der Satz von Bayes:

$$P(A \mid B) = \frac{P(B \mid A) \cdot P(A)}{P(B)}$$

Er berechnet die „umgekehrte“ bedingte Wahrscheinlichkeit \( P(A \mid B) \) aus der „direkten“ \( P(B \mid A) \), gewichtet mit der Vorab-Wahrscheinlichkeit \( P(A) \) und normiert durch \( P(B) \). Die Herleitung folgt direkt aus der Multiplikationsregel: \( P(A \cap B) = P(B \mid A) \cdot P(A) = P(A \mid B) \cdot P(B) \).

Erweiterte Form mit totaler Wahrscheinlichkeit

Häufig muss \( P(B) \) erst über den Satz der totalen Wahrscheinlichkeit berechnet werden. Bilden die Ereignisse \( A_1, A_2, \ldots, A_n \) eine vollständige Zerlegung von \( \Omega \) (disjunkt und zusammen \( \Omega \)), so gilt:

$$P(B) = \sum_{i=1}^n P(B \mid A_i) \cdot P(A_i)$$

Eingesetzt in die Bayes-Formel:

$$P(A_k \mid B) = \frac{P(B \mid A_k) \cdot P(A_k)}{\sum_{i=1}^n P(B \mid A_i) \cdot P(A_i)}$$

Ausführliches Beispiel: Medizinischer Test

Ein medizinischer Test hat folgende Eigenschaften: Sensitivität \( P(+ \mid K) = 0{,}99 \) (bei Kranken ist der Test zu 99 % positiv), Spezifität \( P(- \mid \bar{K}) = 0{,}98 \) (bei Gesunden ist der Test zu 98 % negativ, also \( P(+ \mid \bar{K}) = 0{,}02 \)). Die Krankheitsprävalenz beträgt \( P(K) = 0{,}005 \) (0,5 % der Bevölkerung sind krank).

Frage: Wie wahrscheinlich ist man krank bei positivem Test?

$$P(K \mid +) = \frac{P(+ \mid K) \cdot P(K)}{P(+ \mid K) \cdot P(K) + P(+ \mid \bar{K}) \cdot P(\bar{K})}$$

$$= \frac{0{,}99 \cdot 0{,}005}{0{,}99 \cdot 0{,}005 + 0{,}02 \cdot 0{,}995} = \frac{0{,}00495}{0{,}00495 + 0{,}0199} = \frac{0{,}00495}{0{,}02485} \approx 0{,}199$$

Trotz des hervorragenden Tests beträgt die Wahrscheinlichkeit, bei positivem Ergebnis tatsächlich krank zu sein, nur etwa 20 %! Das liegt an der geringen Prävalenz: Die wenigen „echten“ Positiven werden von den vielen „falschen“ Positiven unter den Gesunden überlagert. Dieses kontraintuitive Ergebnis zeigt die Wichtigkeit des Satzes von Bayes.

Bayes-Terminologie

In der Bayes-Statistik spricht man von: \( P(A) \) als Prior (Vorab-Wahrscheinlichkeit, vor der Beobachtung), \( P(B \mid A) \) als Likelihood (Plausibilität der Beobachtung bei gegebener Ursache), \( P(A \mid B) \) als Posterior (aktualisierte Wahrscheinlichkeit nach der Beobachtung). Der Satz von Bayes beschreibt, wie die Beobachtung den Prior zum Posterior aktualisiert.

Weitere Anwendungen

Der Satz von Bayes wird in vielen Bereichen eingesetzt: in der medizinischen Diagnostik zur Bewertung von Testergebnissen, in der Qualitätskontrolle zur Identifikation fehlerhafter Produktionslinien, in Spam-Filtern zur Klassifikation von E-Mails, in der forensischen Statistik zur Bewertung von DNA-Beweisen und in der künstlichen Intelligenz als Grundlage Bayesscher Netze.

Zusammenfassung

Der Satz von Bayes \( P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} \) ermöglicht den Umkehrschluss von Beobachtungen auf Ursachen. In Kombination mit dem Satz der totalen Wahrscheinlichkeit lässt sich \( P(B) \) berechnen. Das medizinische Testbeispiel zeigt eindrucksvoll, wie eine geringe Prävalenz den positiven Vorhersagewert drastisch reduzieren kann. Der Satz von Bayes ist ein fundamentales Werkzeug der angewandten Stochastik und der Entscheidungstheorie.