В 1961 году Джеймс и Штейн опубликовали статью « Оценка с квадратичными потерями ». Возьмите нормально распределенные данные с неизвестным средним значением \(\mu\) и дисперсией \(1\) . Если теперь вы выбираете случайное значение \(x\) из этих данных и должны оценить среднее значение \(\mu\) на основе этого, интуитивно \(x\) является разумной оценкой для \(\mu\) (поскольку присутствует нормальное распределение, случайно выбранное \(x\) , вероятно, близко к \(\mu\) ).
Теперь эксперимент повторяется - на этот раз с тремя независимыми, снова нормально распределенными наборами данных, каждый с дисперсией \(1\) и средними значениями \(\mu_1\) , \(\mu_2\) , \(\mu_3\) . После получения трех случайных значений \(x_1\) , \(x_2\) и \(x_3\) оценивается (используя ту же процедуру) \(\mu_1=x_1\) , \(\mu_2=x_2\) и \(\mu_3=x_3\) .
Неожиданный результат Джеймса и Штейна заключается в том, что существует лучшая оценка для \( \left( \mu_1, \mu_2, \mu_3 \right) \) (т.е. комбинация трех независимых наборов данных), чем \( \left( x_1, x_2, x_3 \right) \) . Тогда «оценщик Джеймса Стейна»:
$$ \begin{pmatrix}\mu_1\\\mu_2\\\mu_3\end{pmatrix} = \left( 1-\frac{1}{x_1^2+x_2^2+x_3^2} \right) \begin{pmatrix}x_1\\x_2\\x_3\end{pmatrix} \neq \begin{pmatrix}x_1\\x_2\\x_3\end{pmatrix} $$
Среднеквадратичное отклонение этой оценки тогда всегда меньше, чем среднеквадратичное отклонение \( E \left[ \left|| X - \mu \right||^2 \right] \) обычной оценки.
Удивительно и, возможно, парадоксально, что оценка Джеймса-Стейна смещает обычную оценку (на уменьшающий коэффициент) в сторону начала координат и, таким образом, в большинстве случаев дает лучший результат. Это относится к измерениям \( \geq 3 \) , но не к двумерному случаю.
Хорошее геометрическое объяснение того, почему это работает, предоставлено Brown & Zao . Обратите внимание, что это не означает, что у вас есть лучшая оценка для каждого отдельного набора данных — у вас просто есть лучшая оценка с меньшим комбинированным риском.