スタインのパラドックス

1961 年に James と Steinは 2 次損失による推定という論文を発表しました。 未知の平均\(\mu\)と分散\(1\)をもつ正規分布データを取ります。 このデータからランダムな値\(x\)を選択し、これに基づいて平均\(\mu\)を推定する必要がある場合、直観的に\(x\)\(\mu\)の妥当な推定値です。 (正規分布が存在するため、ランダムに選択された\(x\)はおそらく\(\mu\)の近くにあります)。


ここで、実験が繰り返されます - 今回は、分散\(1\)と平均値\(\mu_1\)\(\mu_2\)\(\mu_3\)を持つ 3 つの独立した正規分布データ セットを使用します。 \(\mu_3\)\(x_1\)\(x_2\)\(x_3\)の 3 つのランダムな値を取得した後、(同じ手順を使用して) \(\mu_1=x_1\)\(\mu_2=x_2\)を推定します。および\(\mu_3=x_3\)

James と Stein の驚くべき結果は、 \( \left( \mu_1, \mu_2, \mu_3 \right) \) (つまり、3 つの独立したデータ セットの組み合わせ) の推定値が\( \left( x_1, x_2, x_3 \right) \) . 次に、「ジェームズ・スタイン推定量」は:

$$ \begin{pmatrix}\mu_1\\\mu_2\\\mu_3\end{pmatrix} = \left( 1-\frac{1}{x_1^2+x_2^2+x_3^2} \right) \begin{pmatrix}x_1\\x_2\\x_3\end{pmatrix} \neq \begin{pmatrix}x_1\\x_2\\x_3\end{pmatrix} $$

この推定量の平均二乗偏差は、通常の推定量の平均二乗偏差\( E \left[ \left|| X - \mu \right||^2 \right] \)よりも常に小さくなります。

James-Stein 推定量が通常の推定量を原点に向かって (縮小係数によって) シフ​​トし、その結果、ほとんどの場合により良い結果が得られることは、驚くべきことであり、おそらく逆説的です。 これは次元\( \geq 3 \)に適用されますが、2 次元の場合には適用されません。

なぜこれが機能するのかについて、 Brown & Zaoが幾何学的にうまく説明しています。 これは、個々のデータセットごとに、より良い推定値が得られるという意味ではないことに注意してください。組み合わせたリスクが小さいほど、より良い推定値が得られるだけです。

バック