シンプソンのパラドックスは、簡単に理解できると同時に、統計における驚くべき現象の1つです。 データのグループが特定の傾向を示すたびに発生しますが、グループを組み合わせるとその傾向は逆転します。 簡単な例の助けを借りて、パラドックスはすぐに理解することができます。
2つのばらばらのセット\(\#1\)と\(\#2\) 、および\(G = \#1 \cup \#2\)を検討し、 \(A\)とこれらのセット内の成功率をテストします。 \(B\):
\(A\) | \(B\) | \(win\) | |
\(\#1\) | \(\frac{1}{1}=100\%\) | \(\frac{3}{4}=75\%\) | \(A\) |
\(\#2\) | \(\frac{2}{5}=40\%\) | \(\frac{1}{3}=33\%\) | \(A\) |
\(\#1 \cup \#2\) | \(\frac{3}{6}=50\%\) | \(\frac{4}{7}=57\%\) | \(B\) |
\(\#1\)および\(\#2\) \(B\)では\(A\)よりも\(B\)方が成功していることがわかりますが、驚くべきことに\(G\) \(B\) \(A\)よりも成功します。 この例も、 \(|G|=13\)最小のセット\(G\)持つものの1つです。 \(|G|<13\) (ブルートフォースによる証明\(|G|<13\)は\(G\)はありません。
現在、集合分割\(G\)の代わりに\(2\)に\(3\)互いに素な部分集合\(\#1, \, \#2, \, \#3\)と\(\#1 \cup \#2 \cup \#3 = G\) 。 次に、 \(G\)パワーセット\(P(G)\)のすべての要素\(e_k \neq \emptyset\) \(G\)以下が適用されるというエキサイティングなケースを構築します。 $$\forall e_1, e_2 \in P(G): |e_1| \neq |e_2| \Rightarrow win(e_1) \neq win(e_2) \land |e_1| = |e_2| \Rightarrow win(e_1) = win(e_2)$$ $$\forall e_1, e_2 \in P(G): |e_1| \neq |e_2| \Rightarrow win(e_1) \neq win(e_2) \land |e_1| = |e_2| \Rightarrow win(e_1) = win(e_2)$$
標準のCorei7に数時間ブルートフォースをかけた後、次の例を見つけることができます。:
\(A\) | \(B\) | \(C\) | \(win\) | |
\(\#1\) | \(\frac{6}{7}=85,71\%\) | \(\frac{12}{15}=80,00\%\) | \(\frac{22}{37}=59,46\%\) | \(A\) |
\(\#2\) | \(\frac{95}{167}=56,89\%\) | \(\frac{48}{88}=54,55\%\) | \(\frac{38}{67}=56,72\%\) | \(A\) |
\(\#3\) | \(\frac{48}{144}=33,33\%\) | \(\frac{16}{50}=32,00\%\) | \(\frac{2}{20}=10,00\%\) | \(A\) |
\(\#1 \cup \#2\) | \(\frac{101}{174}=58,05\%\) | \(\frac{60}{103}=58,25\%\) | \(\frac{60}{104}=57,69\%\) | \(B\) |
\(\#1 \cup \#3\) | \(\frac{54}{151}=35,76\%\) | \(\frac{28}{65}=43,08\%\) | \(\frac{24}{57}=42,11\%\) | \(B\) |
\(\#2 \cup \#3\) | \(\frac{143}{311}=45,98\%\) | \(\frac{64}{138}=46,38\%\) | \(\frac{40}{87}=45,98\%\) | \(B\) |
\(\#1 \cup \#2\cup \#3\) | \(\frac{149}{318}=46,86\%\) | \(\frac{76}{153}=49,67\%\) | \(\frac{62}{124}=50,00\%\) | \(C\) |
これにより、(任意に長い計算時間を想定して\(n\)同じ動作を持つ\(n\)ばらばらのサブセットの例を見つけることができます。 そのようなケースが実際に発生した場合、グループの成功のための推奨に基づく結論は、理にかなっていて無意味です。
この時点で、 Judea Pearlによるエキサイティングな読書因果関係:モデル、推論、推論をお勧めします。