Το παράδοξο Simpson

Το παράδοξο Simpson είναι ένα από τα εύκολα κατανοητά και ταυτόχρονα εκπληκτικά φαινόμενα στα στατιστικά. Εμφανίζεται κάθε φορά που ομάδες δεδομένων δείχνουν μια συγκεκριμένη τάση, αλλά αυτή η τάση αντιστρέφεται όταν συνδυάζονται οι ομάδες. Με τη βοήθεια ενός απλού παραδείγματος, το παράδοξο μπορεί να γίνει κατανοητό αμέσως.


Θεωρούμε τα δύο σύνολα διαχωρισμού \(\#1\) και \(\#2\) καθώς και \(G = \#1 \cup \#2\) και δοκιμάζουμε το ποσοστό επιτυχίας του \(A\) και εντός αυτών των συνόλων \(B\):

\(A\)\(B\)\(win\)
\(\#1\)\(\frac{1}{1}=100\%\)\(\frac{3}{4}=75\%\)\(A\)
\(\#2\)\(\frac{2}{5}=40\%\)\(\frac{1}{3}=33\%\)\(A\)
\(\#1 \cup \#2\)\(\frac{3}{6}=50\%\)\(\frac{4}{7}=57\%\)\(B\)

Αποδεικνύεται ότι το \(A\) είναι πιο επιτυχημένο από το \(B\) στο \(\#1\) καθώς και το \(\#2\) \(B\) , αλλά εκπληκτικά στο \(G\) \(B\) πιο επιτυχημένο από το \(A\) . Αυτό το παράδειγμα είναι επίσης ένα από αυτά με το μικρότερο σετ \(G\) με \(|G|=13\) . Δεν υπάρχει \(G\) με \(|G|<13\) (απόδειξη με ωμή δύναμη).

Υποδιαιρούμε τώρα το σετ \(G\) αντί για \(2\) σε \(3\) αποσυνδέοντας υποσύνολα \(\#1, \, \#2, \, \#3\) με \(\#1 \cup \#2 \cup \#3 = G\) . Στη συνέχεια, κατασκευάζουμε τη συναρπαστική περίπτωση που για κάθε στοιχείο \(e_k \neq \emptyset\) συνόλου ισχύος \(P(G)\) του \(G\) εξής: $$\forall e_1, e_2 \in P(G): |e_1| \neq |e_2| \Rightarrow win(e_1) \neq win(e_2) \land |e_1| = |e_2| \Rightarrow win(e_1) = win(e_2)$$ $$\forall e_1, e_2 \in P(G): |e_1| \neq |e_2| \Rightarrow win(e_1) \neq win(e_2) \land |e_1| = |e_2| \Rightarrow win(e_1) = win(e_2)$$

Μετά από μερικές ώρες ωμής βίας σε ένα βασικό Core i7, μπορείτε να βρείτε το ακόλουθο παράδειγμα:

\(A\)\(B\)\(C\)\(win\)
\(\#1\)\(\frac{6}{7}=85,71\%\)\(\frac{12}{15}=80,00\%\) \(\frac{22}{37}=59,46\%\) \(A\)
\(\#2\)\(\frac{95}{167}=56,89\%\) \(\frac{48}{88}=54,55\%\) \(\frac{38}{67}=56,72\%\) \(A\)
\(\#3\)\(\frac{48}{144}=33,33\%\) \(\frac{16}{50}=32,00\%\) \(\frac{2}{20}=10,00\%\) \(A\)
\(\#1 \cup \#2\)\(\frac{101}{174}=58,05\%\) \(\frac{60}{103}=58,25\%\) \(\frac{60}{104}=57,69\%\) \(B\)
\(\#1 \cup \#3\)\(\frac{54}{151}=35,76\%\) \(\frac{28}{65}=43,08\%\) \(\frac{24}{57}=42,11\%\) \(B\)
\(\#2 \cup \#3\)\(\frac{143}{311}=45,98\%\) \(\frac{64}{138}=46,38\%\) \(\frac{40}{87}=45,98\%\) \(B\)
\(\#1 \cup \#2\cup \#3\)\(\frac{149}{318}=46,86\%\) \(\frac{76}{153}=49,67\%\) \(\frac{62}{124}=50,00\%\) \(C\)

Με αυτόν τον τρόπο (υποθέτοντας αυθαίρετα μεγάλο χρόνο υπολογισμού) παρατίθενται παραδείγματα \(n\) διαχωριστικών υποομάδων με την ίδια συμπεριφορά Όταν τέτοιες περιπτώσεις συμβαίνουν στην πραγματικότητα, τυχόν συμπεράσματα που βασίζονται σε σύσταση για την επιτυχία μιας ομάδας είναι λογικά και άσκοπα.

Σε αυτό το σημείο, προτείνουμε τη συναρπαστική ανάγνωση Αιτιότητα: Μοντέλα, Συλλογιστική και Συμπεράσματα από την Judea Pearl .

Πίσω