Il paradosso di Simpson è uno dei fenomeni facilmente comprensibili e allo stesso tempo sorprendenti della statistica. Si verifica ogni volta che gruppi di dati mostrano una particolare tendenza, ma tale tendenza viene invertita quando i gruppi vengono combinati. Con l'aiuto di un semplice esempio, il paradosso può essere compreso immediatamente.
Consideriamo i due insiemi disgiunti \(\#1\) e \(\#2\) così come \(G = \#1 \cup \#2\) e testiamo la percentuale di successo di \(A\) e all'interno di questi insiemi \(B\):
\(A\) | \(B\) | \(win\) | |
\(\#1\) | \(\frac{1}{1}=100\%\) | \(\frac{3}{4}=75\%\) | \(A\) |
\(\#2\) | \(\frac{2}{5}=40\%\) | \(\frac{1}{3}=33\%\) | \(A\) |
\(\#1 \cup \#2\) | \(\frac{3}{6}=50\%\) | \(\frac{4}{7}=57\%\) | \(B\) |
Si scopre che \(A\) più successo di \(B\) in \(\#1\) e in \(\#2\) \(B\) , ma sorprendentemente in \(G\) \(B\) più successo di \(A\) . Questo esempio è anche uno di quelli con il set più piccolo \(G\) con \(|G|=13\) . Non c'è \(G\) con \(|G|<13\) (prova con forza bruta).
Ora suddividiamo l'insieme \(G\) invece di \(2\) in \(3\) sottoinsiemi disgiunti \(\#1, \, \#2, \, \#3\) con \(\#1 \cup \#2 \cup \#3 = G\) . Quindi costruiamo il caso eccitante che per ogni elemento \(e_k \neq \emptyset\) power set \(P(G)\) di \(G\) applica quanto segue: $$\forall e_1, e_2 \in P(G): |e_1| \neq |e_2| \Rightarrow win(e_1) \neq win(e_2) \land |e_1| = |e_2| \Rightarrow win(e_1) = win(e_2)$$ $$\forall e_1, e_2 \in P(G): |e_1| \neq |e_2| \Rightarrow win(e_1) \neq win(e_2) \land |e_1| = |e_2| \Rightarrow win(e_1) = win(e_2)$$
Dopo alcune ore di forza bruta su un Core i7 standard, è possibile trovare il seguente esempio:
\(A\) | \(B\) | \(C\) | \(win\) | |
\(\#1\) | \(\frac{6}{7}=85,71\%\) | \(\frac{12}{15}=80,00\%\) | \(\frac{22}{37}=59,46\%\) | \(A\) |
\(\#2\) | \(\frac{95}{167}=56,89\%\) | \(\frac{48}{88}=54,55\%\) | \(\frac{38}{67}=56,72\%\) | \(A\) |
\(\#3\) | \(\frac{48}{144}=33,33\%\) | \(\frac{16}{50}=32,00\%\) | \(\frac{2}{20}=10,00\%\) | \(A\) |
\(\#1 \cup \#2\) | \(\frac{101}{174}=58,05\%\) | \(\frac{60}{103}=58,25\%\) | \(\frac{60}{104}=57,69\%\) | \(B\) |
\(\#1 \cup \#3\) | \(\frac{54}{151}=35,76\%\) | \(\frac{28}{65}=43,08\%\) | \(\frac{24}{57}=42,11\%\) | \(B\) |
\(\#2 \cup \#3\) | \(\frac{143}{311}=45,98\%\) | \(\frac{64}{138}=46,38\%\) | \(\frac{40}{87}=45,98\%\) | \(B\) |
\(\#1 \cup \#2\cup \#3\) | \(\frac{149}{318}=46,86\%\) | \(\frac{76}{153}=49,67\%\) | \(\frac{62}{124}=50,00\%\) | \(C\) |
In tal modo (assumendo un tempo di elaborazione arbitrariamente lungo) si possono trovare esempi di \(n\) sottoinsiemi disgiunti con lo stesso comportamento. Quando tali casi si verificano nella realtà, qualsiasi conclusione basata su una raccomandazione del successo del gruppo è sia sensata che inutile.
A questo punto consigliamo l'entusiasmante lettura Causality: Models, Reasoning and Inference di Judea Pearl .