Paradoks Stein

Pada tahun 1961 James dan Stein menerbitkan makalah Estimasi dengan Quadratic Loss . Ambil data yang terdistribusi normal dengan mean yang tidak diketahui \(\mu\) dan varians \(1\) . Jika sekarang Anda memilih nilai acak \(x\) dari data ini dan harus memperkirakan rata-rata \(\mu\) berdasarkan ini, secara intuitif \(x\) adalah perkiraan yang masuk akal untuk \(\mu\) (karena ada distribusi normal, \(x\) yang dipilih secara acak mungkin mendekati \(\mu\) ).


Sekarang percobaan diulangi - kali ini dengan tiga set data independen, lagi terdistribusi normal masing-masing dengan varians \(1\) dan nilai rata-rata \(\mu_1\) , \(\mu_2\) , \(\mu_3\) . Setelah mendapatkan tiga nilai acak \(x_1\) , \(x_2\) dan \(x_3\) , satu estimasi (menggunakan prosedur yang sama) \(\mu_1=x_1\) , \(\mu_2=x_2\) dan \(\mu_3=x_3\) .

Hasil mengejutkan dari James dan Stein adalah bahwa ada perkiraan yang lebih baik untuk \( \left( \mu_1, \mu_2, \mu_3 \right) \) (yaitu kombinasi dari tiga set data independen) daripada \( \left( x_1, x_2, x_3 \right) \) . "Penaksir James Stein" kemudian:

$$ \begin{pmatrix}\mu_1\\\mu_2\\\mu_3\end{pmatrix} = \left( 1-\frac{1}{x_1^2+x_2^2+x_3^2} \right) \begin{pmatrix}x_1\\x_2\\x_3\end{pmatrix} \neq \begin{pmatrix}x_1\\x_2\\x_3\end{pmatrix} $$

Simpangan kuadrat rata-rata penaksir ini kemudian selalu lebih kecil dari simpangan kuadrat rata-rata \( E \left[ \left|| X - \mu \right||^2 \right] \) dari penaksir biasa.

Mengejutkan dan mungkin paradoks bahwa penaksir James-Stein menggeser penaksir biasa (dengan faktor penyusutan) ke asal dan dengan demikian memberikan hasil yang lebih baik di sebagian besar kasus. Ini berlaku untuk dimensi \( \geq 3 \) , tetapi tidak dalam kasus dua dimensi.

Penjelasan geometris yang bagus tentang mengapa ini berhasil disediakan oleh Brown & Zao . Perhatikan bahwa ini tidak berarti bahwa Anda memiliki perkiraan yang lebih baik untuk setiap kumpulan data - Anda hanya memiliki perkiraan yang lebih baik dengan risiko gabungan yang lebih kecil.

Kembali