Nel 1961 James e Stein pubblicarono l'articolo Estimation with Quadratic Loss . Prendi dati normalmente distribuiti con una media sconosciuta \(\mu\) e varianza \(1\) . Se ora scegli un valore casuale \(x\) da questi dati e devi stimare la media \(\mu\) sulla base di questo, intuitivamente \(x\) è una stima ragionevole per \(\mu\) (poiché è presente una distribuzione normale, la \(x\) scelta casualmente è probabilmente vicina a \(\mu\) ).
Ora l'esperimento viene ripetuto, questa volta con tre set di dati indipendenti, di nuovo distribuiti normalmente, ciascuno con varianza \(1\) e valori medi \(\mu_1\) , \(\mu_2\) , \(\mu_3\) . Dopo aver ottenuto tre valori casuali \(x_1\) , \(x_2\) e \(x_3\) , si stima (utilizzando la stessa procedura) \(\mu_1=x_1\) , \(\mu_2=x_2\) e \(\mu_3=x_3\) .
Il risultato sorprendente di James e Stein è che esiste una stima migliore per \( \left( \mu_1, \mu_2, \mu_3 \right) \) (ovvero la combinazione dei tre insiemi di dati indipendenti) rispetto a \( \left( x_1, x_2, x_3 \right) \) . Lo "stimatore di James Stein" è allora:
$$ \begin{pmatrix}\mu_1\\\mu_2\\\mu_3\end{pmatrix} = \left( 1-\frac{1}{x_1^2+x_2^2+x_3^2} \right) \begin{pmatrix}x_1\\x_2\\x_3\end{pmatrix} \neq \begin{pmatrix}x_1\\x_2\\x_3\end{pmatrix} $$
Lo scarto quadratico medio di questo stimatore è quindi sempre minore dello scarto quadratico medio \( E \left[ \left|| X - \mu \right||^2 \right] \) dello stimatore abituale.
È sorprendente e forse paradossale che lo stimatore di James-Stein sposti lo stimatore abituale (di un fattore di restringimento) verso l'origine e fornisca quindi un risultato migliore nella maggior parte dei casi. Questo vale per le dimensioni \( \geq 3 \) , ma non nel caso bidimensionale.
Una bella spiegazione geometrica del perché questo funziona è fornita da Brown & Zao . Tieni presente che questo non significa che hai una stima migliore per ogni singolo set di dati: hai solo una stima migliore con un rischio combinato inferiore.