De Simpson-paradox

De paradox van de Simpson is een van de gemakkelijk te begrijpen en tegelijkertijd verbazingwekkende fenomenen in de statistiek. Het treedt op wanneer groepen gegevens een bepaalde trend laten zien, maar die trend wordt omgekeerd wanneer de groepen worden gecombineerd. Met behulp van een eenvoudig voorbeeld kan de paradox onmiddellijk worden begrepen.


We beschouwen de twee disjuncte sets \(\#1\) en \(\#2\) evenals \(G = \#1 \cup \#2\) en testen het slagingspercentage van \(A\) en binnen deze sets \(B\):

\(A\)\(B\)\(win\)
\(\#1\)\(\frac{1}{1}=100\%\)\(\frac{3}{4}=75\%\)\(A\)
\(\#2\)\(\frac{2}{5}=40\%\)\(\frac{1}{3}=33\%\)\(A\)
\(\#1 \cup \#2\)\(\frac{3}{6}=50\%\)\(\frac{4}{7}=57\%\)\(B\)

Het blijkt dat \(A\) succesvoller is dan \(B\) in \(\#1\) en \(\#2\) \(B\) , maar verrassend genoeg in \(G\) \(B\) succesvoller dan \(A\) . Dit voorbeeld is er ook een met de kleinste set \(G\) met \(|G|=13\) . Er is geen \(G\) met \(|G|<13\) (bewijs door brute kracht).

We verdelen nu de set \(G\) plaats van \(2\) in \(3\) disjuncte subsets \(\#1, \, \#2, \, \#3\) met \(\#1 \cup \#2 \cup \#3 = G\) . Vervolgens construeren we het spannende geval dat voor elk element \(e_k \neq \emptyset\) de machtsverzameling \(P(G)\) van \(G\) volgende geldt: $$\forall e_1, e_2 \in P(G): |e_1| \neq |e_2| \Rightarrow win(e_1) \neq win(e_2) \land |e_1| = |e_2| \Rightarrow win(e_1) = win(e_2)$$ $$\forall e_1, e_2 \in P(G): |e_1| \neq |e_2| \Rightarrow win(e_1) \neq win(e_2) \land |e_1| = |e_2| \Rightarrow win(e_1) = win(e_2)$$

Na een paar uur brute kracht op een standaard Core i7 is het volgende voorbeeld te vinden:

\(A\)\(B\)\(C\)\(win\)
\(\#1\)\(\frac{6}{7}=85,71\%\)\(\frac{12}{15}=80,00\%\) \(\frac{22}{37}=59,46\%\) \(A\)
\(\#2\)\(\frac{95}{167}=56,89\%\) \(\frac{48}{88}=54,55\%\) \(\frac{38}{67}=56,72\%\) \(A\)
\(\#3\)\(\frac{48}{144}=33,33\%\) \(\frac{16}{50}=32,00\%\) \(\frac{2}{20}=10,00\%\) \(A\)
\(\#1 \cup \#2\)\(\frac{101}{174}=58,05\%\) \(\frac{60}{103}=58,25\%\) \(\frac{60}{104}=57,69\%\) \(B\)
\(\#1 \cup \#3\)\(\frac{54}{151}=35,76\%\) \(\frac{28}{65}=43,08\%\) \(\frac{24}{57}=42,11\%\) \(B\)
\(\#2 \cup \#3\)\(\frac{143}{311}=45,98\%\) \(\frac{64}{138}=46,38\%\) \(\frac{40}{87}=45,98\%\) \(B\)
\(\#1 \cup \#2\cup \#3\)\(\frac{149}{318}=46,86\%\) \(\frac{76}{153}=49,67\%\) \(\frac{62}{124}=50,00\%\) \(C\)

Daardoor (uitgaande van een willekeurig lange rekentijd) kunnen voorbeelden van \(n\) disjuncte subsets met hetzelfde gedrag worden gevonden. Wanneer dergelijke gevallen zich in werkelijkheid voordoen, zijn alle conclusies die zijn gebaseerd op een aanbeveling voor het succes van een groep zowel zinvol als zinloos.

Op dit punt bevelen we de opwindende lezing Causality: Models, Reasoning and Inference van Judea Pearl aan .

Terug