Парадокс Штейна

У 1961 році Джеймс і Стайн опублікували статтю « Оцінка з квадратичними втратами ». Візьміть нормально розподілені дані з невідомим середнім \(\mu\) і дисперсією \(1\) . Якщо тепер ви вибираєте випадкове значення \(x\) із цих даних і повинні оцінити середнє значення \(\mu\) на основі цього, інтуїтивно зрозуміло, що \(x\) є розумною оцінкою для \(\mu\) (оскільки присутній нормальний розподіл, навмання вибране \(x\) , ймовірно, близько \(\mu\) ).


Тепер експеримент повторюється - цього разу з трьома незалежними, знову ж таки нормально розподіленими наборами даних, кожен з дисперсією \(1\) і середніми значеннями \(\mu_1\) , \(\mu_2\) , \(\mu_3\) . Після отримання трьох випадкових значень \(x_1\) , \(x_2\) і \(x_3\) оцінюють (за тією ж процедурою) \(\mu_1=x_1\) , \(\mu_2=x_2\) і \(\mu_3=x_3\) .

Несподіваний результат Джеймса та Стайна полягає в тому, що існує краща оцінка для \( \left( \mu_1, \mu_2, \mu_3 \right) \) (тобто комбінації трьох незалежних наборів даних), ніж \( \left( x_1, x_2, x_3 \right) \) . Тоді «оцінювач Джеймса Стайна».:

$$ \begin{pmatrix}\mu_1\\\mu_2\\\mu_3\end{pmatrix} = \left( 1-\frac{1}{x_1^2+x_2^2+x_3^2} \right) \begin{pmatrix}x_1\\x_2\\x_3\end{pmatrix} \neq \begin{pmatrix}x_1\\x_2\\x_3\end{pmatrix} $$

Тоді середнє квадратичне відхилення цієї оцінки завжди менше, ніж середнє квадратичне відхилення \( E \left[ \left|| X - \mu \right||^2 \right] \) звичайної оцінки.

Дивно і, мабуть, парадоксально, що оцінка Джеймса-Штейна зміщує звичайну оцінку (на коефіцієнт скорочення) до початку координат і таким чином дає кращий результат у більшості випадків. Це стосується розмірів \( \geq 3 \) , але не в двовимірному випадку.

Гарне геометричне пояснення того, чому це працює, надає Brown & Zao . Зауважте, що це не означає, що ви маєте кращу оцінку для кожного окремого набору даних – у вас є лише краща оцінка з меншим сукупним ризиком.

Назад