Das simpsonsche Paradoxon gehört zu den einfach verständlichen und zugleich verblüffenden Phänomenen der Statistik. Es tritt immer dann auf, wenn Gruppen von Daten einen bestimmten Trend anzeigen, dieser Trend sich jedoch umkehrt, wenn die Gruppen miteinander kombiniert werden. Anhand eines einfachen Beispiels lässt sich das Paradoxon sofort nachvollziehen.
Wir betrachten die beiden disjunkten Mengen \(\#1\) und \(\#2\) sowie \(G = \#1 \cup \#2\) und testen innerhalb dieser Mengen die Erfolgsrate von \(A\) und \(B\):
\(A\) | \(B\) | \(win\) | |
\(\#1\) | \(\frac{1}{1}=100\%\) | \(\frac{3}{4}=75\%\) | \(A\) |
\(\#2\) | \(\frac{2}{5}=40\%\) | \(\frac{1}{3}=33\%\) | \(A\) |
\(\#1 \cup \#2\) | \(\frac{3}{6}=50\%\) | \(\frac{4}{7}=57\%\) | \(B\) |
Dabei stellt sich heraus, dass \(A\) sowohl in \(\#1\) als auch in \(\#2\) erfolgreicher ist als \(B\), jedoch in \(G\) erstaunlicherweise \(B\) erfolgreicher als \(A\) ist. Dieses Beispiel zählt zugleich zu denjenigen mit der kleinsten Menge \(G\) mit \(|G|=13\). Es gibt kein \(G\) mit \(|G|<13\) (Beweis durch Brute-Force).
Wir unterteilen nun die Menge \(G\) statt in \(2\) in \(3\) disjunkte Teilmengen \(\#1, \, \#2, \, \#3\) mit \(\#1 \cup \#2 \cup \#3 = G\). Dann konstruieren wir den spannenden Fall, dass für jedes Element \(e_k \neq \emptyset\) der Potenzmenge \(P(G)\) von \(G\) gilt: $$\forall e_1, e_2 \in P(G): |e_1| \neq |e_2| \Rightarrow win(e_1) \neq win(e_2) \land |e_1| = |e_2| \Rightarrow win(e_1) = win(e_2)$$
Nach einigen Stunden Brute-Force auf einem handelsüblichen Core i7 lässt sich folgendes Beispiel finden:
\(A\) | \(B\) | \(C\) | \(win\) | |
\(\#1\) | \(\frac{6}{7}=85,71\%\) | \(\frac{12}{15}=80,00\%\) | \(\frac{22}{37}=59,46\%\) | \(A\) |
\(\#2\) | \(\frac{95}{167}=56,89\%\) | \(\frac{48}{88}=54,55\%\) | \(\frac{38}{67}=56,72\%\) | \(A\) |
\(\#3\) | \(\frac{48}{144}=33,33\%\) | \(\frac{16}{50}=32,00\%\) | \(\frac{2}{20}=10,00\%\) | \(A\) |
\(\#1 \cup \#2\) | \(\frac{101}{174}=58,05\%\) | \(\frac{60}{103}=58,25\%\) | \(\frac{60}{104}=57,69\%\) | \(B\) |
\(\#1 \cup \#3\) | \(\frac{54}{151}=35,76\%\) | \(\frac{28}{65}=43,08\%\) | \(\frac{24}{57}=42,11\%\) | \(B\) |
\(\#2 \cup \#3\) | \(\frac{143}{311}=45,98\%\) | \(\frac{64}{138}=46,38\%\) | \(\frac{40}{87}=45,98\%\) | \(B\) |
\(\#1 \cup \#2\cup \#3\) | \(\frac{149}{318}=46,86\%\) | \(\frac{76}{153}=49,67\%\) | \(\frac{62}{124}=50,00\%\) | \(C\) |
Dabei lassen sich (beliebig lange Rechenzeit vorausgesetzt) auch Beispiele für \(n\) disjunkte Teilmengen mit demselben Verhalten finden. Treten derartige Fälle in der Realität auf, sind jedwede Schlussfolgerungen auf eine Empfehlung des Erfolgs einer Gruppe zugleich sinnvoll wie sinnlos.
An dieser Stelle empfiehlt sich auch die spannende Lektüre Causality: Models, Reasoning and Inference von Judea Pearl.