Stein paradoxona

1961-ben James és Stein kiadta az Estimation with Quadratic Loss című cikket. Vegyünk normális eloszlású adatokat ismeretlen középértékkel \(\mu\) és \(1\) szórással. Ha most kiválaszt egy véletlenszerű értéket \(x\) ezekből az adatokból, és ez alapján meg kell becsülnie a \(\mu\) átlagot, akkor intuitív módon \(x\) egy ésszerű becslés \(\mu\) (mivel normális eloszlás van jelen, a véletlenszerűen kiválasztott \(x\) valószínűleg a \(\mu\) közelében van).


Most a kísérlet megismétlődik - ezúttal három független, ismét normál eloszlású adatkészlettel, amelyek mindegyike \(1\) variancia és \(\mu_1\) , \(\mu_2\) , \(\mu_3\) . Három véletlenszerű érték \(x_1\) , \(x_2\) és \(x_3\) megszerzése után (ugyanazzal az eljárással) becsüljük meg a \(\mu_1=x_1\) , \(\mu_2=x_2\) és \(\mu_3=x_3\) .

James és Stein meglepő eredménye, hogy jobb becslés van a \( \left( \mu_1, \mu_2, \mu_3 \right) \) -ra (vagyis a három független adatkészlet kombinációjára ), mint a \( \left( x_1, x_2, x_3 \right) \) . A "James Stein-becslő" akkor:

$$ \begin{pmatrix}\mu_1\\\mu_2\\\mu_3\end{pmatrix} = \left( 1-\frac{1}{x_1^2+x_2^2+x_3^2} \right) \begin{pmatrix}x_1\\x_2\\x_3\end{pmatrix} \neq \begin{pmatrix}x_1\\x_2\\x_3\end{pmatrix} $$

Ennek a becslőnek a négyzetes eltérése mindig kisebb, mint a szokásos becslő átlagos négyzetes eltérése \( E \left[ \left|| X - \mu \right||^2 \right] \) .

Meglepő és talán paradox, hogy a James-Stein becslő a szokásos becslőt (zsugorító tényezővel) az origó felé tolja el, és így az esetek többségében jobb eredményt ad. Ez vonatkozik a \( \geq 3 \) méretekre, de nem a kétdimenziós esetre.

A Brown & Zao egy szép geometriai magyarázatot ad arra, hogy ez miért működik. Ne feledje, hogy ez nem azt jelenti, hogy minden egyes adatkészletre jobb becslése van – csak jobb becslése van kisebb kombinált kockázat mellett.

Vissza