W 1961 roku James i Stein opublikowali artykuł Estimation with Quadratic Loss . Weźmy dane o rozkładzie normalnym z nieznaną średnią \(\mu\) i wariancją \(1\) . Jeśli teraz wybierzesz losową wartość \(x\) z tych danych i na tej podstawie musisz oszacować średnią \(\mu\) , intuicyjnie \(x\) jest rozsądnym oszacowaniem dla \(\mu\) (ponieważ występuje rozkład normalny, losowo wybrany \(x\) jest prawdopodobnie bliski \(\mu\) ).
Teraz eksperyment się powtarza - tym razem z trzema niezależnymi, ponownie normalnie rozłożonymi zestawami danych, każdy z wariancją \(1\) i wartościami średnimi \(\mu_1\) , \(\mu_2\) , \(\mu_3\) . Po uzyskaniu trzech losowych wartości \(x_1\) , \(x_2\) i \(x_3\) szacuje się (używając tej samej procedury) \(\mu_1=x_1\) , \(\mu_2=x_2\) i \(\mu_3=x_3\) .
Zaskakującym wynikiem Jamesa i Steina jest to, że istnieje lepsze oszacowanie dla \( \left( \mu_1, \mu_2, \mu_3 \right) \) (tj. kombinacji trzech niezależnych zestawów danych) niż \( \left( x_1, x_2, x_3 \right) \) . Wtedy jest „estymator Jamesa Steina”.:
$$ \begin{pmatrix}\mu_1\\\mu_2\\\mu_3\end{pmatrix} = \left( 1-\frac{1}{x_1^2+x_2^2+x_3^2} \right) \begin{pmatrix}x_1\\x_2\\x_3\end{pmatrix} \neq \begin{pmatrix}x_1\\x_2\\x_3\end{pmatrix} $$
Średnie odchylenie kwadratowe tego estymatora jest wtedy zawsze mniejsze niż średnie odchylenie kwadratowe \( E \left[ \left|| X - \mu \right||^2 \right] \) zwykłego estymatora.
Zaskakujące, a być może paradoksalne, jest to, że estymator Jamesa-Steina przesuwa zwykły estymator (o czynnik zmniejszający) w kierunku pochodzenia, a tym samym daje lepszy wynik w większości przypadków. Dotyczy to wymiarów \( \geq 3 \) , ale nie w przypadku dwuwymiarowym.
Ładne geometryczne wyjaśnienie, dlaczego to działa, zostało dostarczone przez Brown & Zao . Pamiętaj, że nie oznacza to, że masz lepsze oszacowanie dla każdego zestawu danych — po prostu masz lepsze oszacowanie przy mniejszym łącznym ryzyku.