Paradoks Simpson adalah salah satu fenomena yang mudah dimengerti dan sekaligus menakjubkan dalam statistik. Itu terjadi setiap kali kelompok data menunjukkan tren tertentu, tetapi tren itu dibalik ketika kelompok digabungkan. Dengan bantuan contoh sederhana, paradoks dapat segera dipahami.
Kami mempertimbangkan dua set terpisah \(\#1\) dan \(\#2\) serta \(G = \#1 \cup \#2\) dan menguji tingkat keberhasilan \(A\) dan dalam set ini \(B\):
\(A\) | \(B\) | \(win\) | |
\(\#1\) | \(\frac{1}{1}=100\%\) | \(\frac{3}{4}=75\%\) | \(A\) |
\(\#2\) | \(\frac{2}{5}=40\%\) | \(\frac{1}{3}=33\%\) | \(A\) |
\(\#1 \cup \#2\) | \(\frac{3}{6}=50\%\) | \(\frac{4}{7}=57\%\) | \(B\) |
Ternyata \(A\) lebih berhasil daripada \(B\) di \(\#1\) serta \(\#2\) \(B\) , tetapi yang mengejutkan di \(G\) \(B\) lebih berhasil daripada \(A\) . Contoh ini juga salah satu contoh dengan himpunan terkecil \(G\) dengan \(|G|=13\) . Tidak ada \(G\) dengan \(|G|<13\) (dibuktikan dengan kekerasan).
Kita sekarang membagi himpunan \(G\) daripada \(2\) menjadi \(3\) subset yang terpisah \(\#1, \, \#2, \, \#3\) dengan \(\#1 \cup \#2 \cup \#3 = G\) . Kemudian kita membangun kasus yang menarik untuk setiap elemen \(e_k \neq \emptyset\) set daya \(P(G)\) dari \(G\) berikut ini berlaku: $$\forall e_1, e_2 \in P(G): |e_1| \neq |e_2| \Rightarrow win(e_1) \neq win(e_2) \land |e_1| = |e_2| \Rightarrow win(e_1) = win(e_2)$$ $$\forall e_1, e_2 \in P(G): |e_1| \neq |e_2| \Rightarrow win(e_1) \neq win(e_2) \land |e_1| = |e_2| \Rightarrow win(e_1) = win(e_2)$$
Setelah beberapa jam melakukan kekerasan pada Core i7 standar, contoh berikut dapat ditemukan:
\(A\) | \(B\) | \(C\) | \(win\) | |
\(\#1\) | \(\frac{6}{7}=85,71\%\) | \(\frac{12}{15}=80,00\%\) | \(\frac{22}{37}=59,46\%\) | \(A\) |
\(\#2\) | \(\frac{95}{167}=56,89\%\) | \(\frac{48}{88}=54,55\%\) | \(\frac{38}{67}=56,72\%\) | \(A\) |
\(\#3\) | \(\frac{48}{144}=33,33\%\) | \(\frac{16}{50}=32,00\%\) | \(\frac{2}{20}=10,00\%\) | \(A\) |
\(\#1 \cup \#2\) | \(\frac{101}{174}=58,05\%\) | \(\frac{60}{103}=58,25\%\) | \(\frac{60}{104}=57,69\%\) | \(B\) |
\(\#1 \cup \#3\) | \(\frac{54}{151}=35,76\%\) | \(\frac{28}{65}=43,08\%\) | \(\frac{24}{57}=42,11\%\) | \(B\) |
\(\#2 \cup \#3\) | \(\frac{143}{311}=45,98\%\) | \(\frac{64}{138}=46,38\%\) | \(\frac{40}{87}=45,98\%\) | \(B\) |
\(\#1 \cup \#2\cup \#3\) | \(\frac{149}{318}=46,86\%\) | \(\frac{76}{153}=49,67\%\) | \(\frac{62}{124}=50,00\%\) | \(C\) |
Dengan demikian (dengan asumsi waktu komputasi lama yang sewenang-wenang) contoh \(n\) subset yang terputus-putus dengan perilaku yang sama dapat ditemukan. Ketika kasus seperti itu terjadi dalam kenyataan, kesimpulan apa pun yang didasarkan pada rekomendasi untuk keberhasilan suatu kelompok adalah masuk akal dan tidak ada gunanya.
Pada titik ini, kami merekomendasikan bacaan yang menarik Kausalitas: Model, Penalaran dan Inferensi oleh Mutiara Judea .