Парадокс Сімпсона07
19

Парадокс Сімпсона - одне з легко зрозумілих і водночас дивовижних явищ у статистиці. Це відбувається, коли групи даних демонструють певну тенденцію, але ця тенденція змінюється, коли групи об'єднуються. За допомогою простого прикладу парадокс можна зрозуміти відразу.

Ми розглядаємо два непересічні набори $\#1$ та $\#2$ , а також $G = \#1 \cup \#2$ і перевіряємо рівень успіху $A$ і в межах цих наборів $B$:

	$A$	$B$	$win$
$\#1$	$\frac{1}{1}=100\%$	$\frac{3}{4}=75\%$	$A$
$\#2$	$\frac{2}{5}=40\%$	$\frac{1}{3}=33\%$	$A$
$\#1 \cup \#2$	$\frac{3}{6}=50\%$	$\frac{4}{7}=57\%$	$B$

Виявляється, $A$ успішніше, ніж $B$ в $\#1$ , а також $\#2$ $B$ , але дивно в $G$ $B$ успішнішим за $A$ . Цей приклад також є одним із найменших наборів $G$ з $|G|=13$ . Немає $G$ з $|G|<13$ (доведення грубою силою).

Тепер ми розділяємо набір $G$ замість $2$ на $3$ неперервні підмножини $\#1, \, \#2, \, \#3$ з $\#1 \cup \#2 \cup \#3 = G$ . Потім побудуємо захоплюючий випадок, що для кожного елемента $e_k \neq \emptyset$ набору потужностей $P(G)$ з $G$ застосовується наступне: $$\forall e_1, e_2 \in P(G): |e_1| \neq |e_2| \Rightarrow win(e_1) \neq win(e_2) \land |e_1| = |e_2| \Rightarrow win(e_1) = win(e_2)$$ $$\forall e_1, e_2 \in P(G): |e_1| \neq |e_2| \Rightarrow win(e_1) \neq win(e_2) \land |e_1| = |e_2| \Rightarrow win(e_1) = win(e_2)$$

Після кількох годин грубої сили на стандартному Core i7 можна знайти наступний приклад:

	$A$	$B$	$C$	$win$
$\#1$	$\frac{6}{7}=85,71\%$	$\frac{12}{15}=80,00\%$	$\frac{22}{37}=59,46\%$	$A$
$\#2$	$\frac{95}{167}=56,89\%$	$\frac{48}{88}=54,55\%$	$\frac{38}{67}=56,72\%$	$A$
$\#3$	$\frac{48}{144}=33,33\%$	$\frac{16}{50}=32,00\%$	$\frac{2}{20}=10,00\%$	$A$
$\#1 \cup \#2$	$\frac{101}{174}=58,05\%$	$\frac{60}{103}=58,25\%$	$\frac{60}{104}=57,69\%$	$B$
$\#1 \cup \#3$	$\frac{54}{151}=35,76\%$	$\frac{28}{65}=43,08\%$	$\frac{24}{57}=42,11\%$	$B$
$\#2 \cup \#3$	$\frac{143}{311}=45,98\%$	$\frac{64}{138}=46,38\%$	$\frac{40}{87}=45,98\%$	$B$
$\#1 \cup \#2\cup \#3$	$\frac{149}{318}=46,86\%$	$\frac{76}{153}=49,67\%$	$\frac{62}{124}=50,00\%$	$C$

Таким чином (припускаючи довільно тривалий обчислювальний час) можна знайти приклади неперервних підмножин $n$ з однаковою поведінкою. Коли такі випадки трапляються насправді, будь-які висновки, що ґрунтуються на рекомендаціях щодо успіху групи, є і розумними, і безглуздими.

На цьому етапі ми рекомендуємо захоплююче читання « Причинність: моделі, міркування та умовивід» Юдеї Перл .

	\(A\)	\(B\)	\(win\)
\(\#1\)	\(\frac{1}{1}=100\%\)	\(\frac{3}{4}=75\%\)	\(A\)
\(\#2\)	\(\frac{2}{5}=40\%\)	\(\frac{1}{3}=33\%\)	\(A\)
\(\#1 \cup \#2\)	\(\frac{3}{6}=50\%\)	\(\frac{4}{7}=57\%\)	\(B\)

	\(A\)	\(B\)	\(C\)	\(win\)
\(\#1\)	\(\frac{6}{7}=85,71\%\)	\(\frac{12}{15}=80,00\%\)	\(\frac{22}{37}=59,46\%\)	\(A\)
\(\#2\)	\(\frac{95}{167}=56,89\%\)	\(\frac{48}{88}=54,55\%\)	\(\frac{38}{67}=56,72\%\)	\(A\)
\(\#3\)	\(\frac{48}{144}=33,33\%\)	\(\frac{16}{50}=32,00\%\)	\(\frac{2}{20}=10,00\%\)	\(A\)
\(\#1 \cup \#2\)	\(\frac{101}{174}=58,05\%\)	\(\frac{60}{103}=58,25\%\)	\(\frac{60}{104}=57,69\%\)	\(B\)
\(\#1 \cup \#3\)	\(\frac{54}{151}=35,76\%\)	\(\frac{28}{65}=43,08\%\)	\(\frac{24}{57}=42,11\%\)	\(B\)
\(\#2 \cup \#3\)	\(\frac{143}{311}=45,98\%\)	\(\frac{64}{138}=46,38\%\)	\(\frac{40}{87}=45,98\%\)	\(B\)
\(\#1 \cup \#2\cup \#3\)	\(\frac{149}{318}=46,86\%\)	\(\frac{76}{153}=49,67\%\)	\(\frac{62}{124}=50,00\%\)	\(C\)

VielhuberДевід

Парадокс Сімпсона0719

Парадокс Сімпсона07
19