پارادوکس سیمپسون

پارادوکس سیمپسون یکی از پدیده های قابل درک و در عین حال حیرت انگیز در آمار است. هر زمان که گروه های داده روند خاصی را نشان دهند ، رخ می دهد ، اما با ترکیب گروه ها ، این روند معکوس می شود. تناقض را می توان بلافاصله با استفاده از یک مثال ساده درک کرد.


ما دو مجموعه جدا شده \(\#1\) و \(\#2\) و همچنین \(G = \#1 \cup \#2\) در نظر می گیریم و میزان موفقیت \(A\) در این مجموعه ها آزمایش می کنیم \(B\):

\(A\)\(B\)\(win\)
\(\#1\)\(\frac{1}{1}=100\%\)\(\frac{3}{4}=75\%\)\(A\)
\(\#2\)\(\frac{2}{5}=40\%\)\(\frac{1}{3}=33\%\)\(A\)
\(\#1 \cup \#2\)\(\frac{3}{6}=50\%\)\(\frac{4}{7}=57\%\)\(B\)

به نظر می رسد که \(A\) در \(\#1\) و همچنین \(\#2\) \(B\) موفق تر از \(B\) ، اما به طور شگفت انگیزی در \(G\) \(B\) موفق تر از \(A\) . این مثال همچنین یکی از کمترین مجموعه های \(G\) با \(|G|=13\) . \(G\) با \(|G|<13\) (اثبات با زور و وحشی).

اکنون ما مجموعه \(G\) به جای \(2\) به \(3\) زیرمجموعه جداگانه \(\#1, \, \#2, \, \#3\) با \(\#1 \cup \#2 \cup \#3 = G\) . سپس یک مورد جالب ایجاد می کنیم که برای هر عنصر \(e_k \neq \emptyset\) مجموعه قدرت \(P(G)\) از \(G\) موارد زیر اعمال می شود: $$\forall e_1, e_2 \in P(G): |e_1| \neq |e_2| \Rightarrow win(e_1) \neq win(e_2) \land |e_1| = |e_2| \Rightarrow win(e_1) = win(e_2)$$ $$\forall e_1, e_2 \in P(G): |e_1| \neq |e_2| \Rightarrow win(e_1) \neq win(e_2) \land |e_1| = |e_2| \Rightarrow win(e_1) = win(e_2)$$

پس از چند ساعت نیروی بی رحم با Core i7 استاندارد ، مثال زیر را می توان یافت:

\(A\)\(B\)\(C\)\(win\)
\(\#1\)\(\frac{6}{7}=85,71\%\)\(\frac{12}{15}=80,00\%\) \(\frac{22}{37}=59,46\%\) \(A\)
\(\#2\)\(\frac{95}{167}=56,89\%\) \(\frac{48}{88}=54,55\%\) \(\frac{38}{67}=56,72\%\) \(A\)
\(\#3\)\(\frac{48}{144}=33,33\%\) \(\frac{16}{50}=32,00\%\) \(\frac{2}{20}=10,00\%\) \(A\)
\(\#1 \cup \#2\)\(\frac{101}{174}=58,05\%\) \(\frac{60}{103}=58,25\%\) \(\frac{60}{104}=57,69\%\) \(B\)
\(\#1 \cup \#3\)\(\frac{54}{151}=35,76\%\) \(\frac{28}{65}=43,08\%\) \(\frac{24}{57}=42,11\%\) \(B\)
\(\#2 \cup \#3\)\(\frac{143}{311}=45,98\%\) \(\frac{64}{138}=46,38\%\) \(\frac{40}{87}=45,98\%\) \(B\)
\(\#1 \cup \#2\cup \#3\)\(\frac{149}{318}=46,86\%\) \(\frac{76}{153}=49,67\%\) \(\frac{62}{124}=50,00\%\) \(C\)

در اینجا ، اجازه دهید (به طور خودسرانه زمان محاسبه طولانی را در نظر بگیریم) همچنین نمونه هایی از \(n\) زیرمجموعه جدا از هم با همان رفتار یافت شده. وقتی چنین مواردی در واقعیت اتفاق می افتد ، نتیجه گیری براساس توصیه برای موفقیت یک گروه ، معقول و بیهوده است.

در این مرحله ، خواندن هیجان انگیز علیت: مدل ها ، استدلال و استنباط توسط Judea Pearl را توصیه می کنیم .

بازگشت