Simpson-paradokset

Simpsons paradoks er et af de let forståelige og samtidig forbløffende fænomener i statistikken. Det forekommer, når datagrupper viser en bestemt tendens, men denne tendens vendes, når grupperne kombineres. Ved hjælp af et simpelt eksempel kan paradokset forstås med det samme.


Vi betragter de to usammenhængende sæt \(\#1\) og \(\#2\) samt \(G = \#1 \cup \#2\) og tester succesraten på \(A\) og inden for disse sæt \(B\):

\(A\)\(B\)\(win\)
\(\#1\)\(\frac{1}{1}=100\%\)\(\frac{3}{4}=75\%\)\(A\)
\(\#2\)\(\frac{2}{5}=40\%\)\(\frac{1}{3}=33\%\)\(A\)
\(\#1 \cup \#2\)\(\frac{3}{6}=50\%\)\(\frac{4}{7}=57\%\)\(B\)

Det viser sig, at \(A\) er mere succesrig end \(B\) i \(\#1\) samt \(\#2\) \(B\) , men overraskende i \(G\) \(B\) mere vellykket end \(A\) . Dette eksempel er også et af dem med det mindste sæt \(G\) med \(|G|=13\) . Der er ingen \(G\) med \(|G|<13\) (bevis med brutal kraft).

Vi opdeler nu sættet \(G\) stedet for \(2\) i \(3\) usammenhængende undergrupper \(\#1, \, \#2, \, \#3\) med \(\#1 \cup \#2 \cup \#3 = G\) . Derefter konstruerer vi det spændende tilfælde, at for hvert element \(e_k \neq \emptyset\) \(P(G)\) af \(G\) følgende: $$\forall e_1, e_2 \in P(G): |e_1| \neq |e_2| \Rightarrow win(e_1) \neq win(e_2) \land |e_1| = |e_2| \Rightarrow win(e_1) = win(e_2)$$ $$\forall e_1, e_2 \in P(G): |e_1| \neq |e_2| \Rightarrow win(e_1) \neq win(e_2) \land |e_1| = |e_2| \Rightarrow win(e_1) = win(e_2)$$

Efter et par timers brute force på en standard Core i7 kan følgende eksempel findes:

\(A\)\(B\)\(C\)\(win\)
\(\#1\)\(\frac{6}{7}=85,71\%\)\(\frac{12}{15}=80,00\%\) \(\frac{22}{37}=59,46\%\) \(A\)
\(\#2\)\(\frac{95}{167}=56,89\%\) \(\frac{48}{88}=54,55\%\) \(\frac{38}{67}=56,72\%\) \(A\)
\(\#3\)\(\frac{48}{144}=33,33\%\) \(\frac{16}{50}=32,00\%\) \(\frac{2}{20}=10,00\%\) \(A\)
\(\#1 \cup \#2\)\(\frac{101}{174}=58,05\%\) \(\frac{60}{103}=58,25\%\) \(\frac{60}{104}=57,69\%\) \(B\)
\(\#1 \cup \#3\)\(\frac{54}{151}=35,76\%\) \(\frac{28}{65}=43,08\%\) \(\frac{24}{57}=42,11\%\) \(B\)
\(\#2 \cup \#3\)\(\frac{143}{311}=45,98\%\) \(\frac{64}{138}=46,38\%\) \(\frac{40}{87}=45,98\%\) \(B\)
\(\#1 \cup \#2\cup \#3\)\(\frac{149}{318}=46,86\%\) \(\frac{76}{153}=49,67\%\) \(\frac{62}{124}=50,00\%\) \(C\)

Derved (forudsat vilkårligt lang beregningstid) kan der findes eksempler på \(n\) usammenhængende undergrupper med samme adfærd. Hvis sådanne tilfælde forekommer i virkeligheden, er konklusioner baseret på en anbefaling om gruppens succes både fornuftige og meningsløse.

På dette tidspunkt anbefales den spændende læsning Causality: Models, Reasoning and Inference af Judea Pearl .

Tilbage