Le paradoxe de Simpson est l'un des phénomènes à la fois facilement compréhensibles et étonnants de la statistique. Cela se produit chaque fois que des groupes de données montrent une tendance particulière, mais cette tendance s'inverse lorsque les groupes sont combinés. À l'aide d'un exemple simple, le paradoxe peut être compris immédiatement.
Nous considérons les deux ensembles disjoints \(\#1\) et \(\#2\) ainsi que \(G = \#1 \cup \#2\) et testons le taux de réussite de \(A\) et dans ces ensembles \(B\):
\(A\) | \(B\) | \(win\) | |
\(\#1\) | \(\frac{1}{1}=100\%\) | \(\frac{3}{4}=75\%\) | \(A\) |
\(\#2\) | \(\frac{2}{5}=40\%\) | \(\frac{1}{3}=33\%\) | \(A\) |
\(\#1 \cup \#2\) | \(\frac{3}{6}=50\%\) | \(\frac{4}{7}=57\%\) | \(B\) |
Il s'avère que \(A\) réussit mieux que \(B\) dans \(\#1\) ainsi que \(\#2\) \(B\) , mais étonnamment dans \(G\) \(B\) réussit mieux que \(A\) . Cet exemple est également l'un de ceux avec le plus petit ensemble \(G\) avec \(|G|=13\) . Il n'y a pas de \(G\) avec \(|G|<13\) (preuve par force brute).
Nous subdivisons maintenant l'ensemble \(G\) au lieu de \(2\) en \(3\) sous-ensembles disjoints \(\#1, \, \#2, \, \#3\) avec \(\#1 \cup \#2 \cup \#3 = G\) . Ensuite, nous construisons le cas passionnant que pour chaque élément \(e_k \neq \emptyset\) l'ensemble de puissance \(P(G)\) de \(G\) suit s'applique: $$\forall e_1, e_2 \in P(G): |e_1| \neq |e_2| \Rightarrow win(e_1) \neq win(e_2) \land |e_1| = |e_2| \Rightarrow win(e_1) = win(e_2)$$ $$\forall e_1, e_2 \in P(G): |e_1| \neq |e_2| \Rightarrow win(e_1) \neq win(e_2) \land |e_1| = |e_2| \Rightarrow win(e_1) = win(e_2)$$
Après quelques heures de force brute sur un Core i7 standard, l'exemple suivant peut être trouvé:
\(A\) | \(B\) | \(C\) | \(win\) | |
\(\#1\) | \(\frac{6}{7}=85,71\%\) | \(\frac{12}{15}=80,00\%\) | \(\frac{22}{37}=59,46\%\) | \(A\) |
\(\#2\) | \(\frac{95}{167}=56,89\%\) | \(\frac{48}{88}=54,55\%\) | \(\frac{38}{67}=56,72\%\) | \(A\) |
\(\#3\) | \(\frac{48}{144}=33,33\%\) | \(\frac{16}{50}=32,00\%\) | \(\frac{2}{20}=10,00\%\) | \(A\) |
\(\#1 \cup \#2\) | \(\frac{101}{174}=58,05\%\) | \(\frac{60}{103}=58,25\%\) | \(\frac{60}{104}=57,69\%\) | \(B\) |
\(\#1 \cup \#3\) | \(\frac{54}{151}=35,76\%\) | \(\frac{28}{65}=43,08\%\) | \(\frac{24}{57}=42,11\%\) | \(B\) |
\(\#2 \cup \#3\) | \(\frac{143}{311}=45,98\%\) | \(\frac{64}{138}=46,38\%\) | \(\frac{40}{87}=45,98\%\) | \(B\) |
\(\#1 \cup \#2\cup \#3\) | \(\frac{149}{318}=46,86\%\) | \(\frac{76}{153}=49,67\%\) | \(\frac{62}{124}=50,00\%\) | \(C\) |
Ainsi (en supposant un temps de calcul arbitrairement long) des exemples de \(n\) sous-ensembles disjoints avec le même comportement peuvent être trouvés. Lorsque de tels cas se produisent dans la réalité, toute conclusion basée sur une recommandation de succès d'un groupe est à la fois sensée et inutile.
À ce stade, nous vous recommandons la lecture passionnante Causality: Models, Reasoning and Inference de Judea Pearl .