斯坦因悖论

1961 年 James 和 Stein 发表了论文Estimation with Quadratic Loss 。 采用均值\(\mu\)和方差\(1\)未知的正态分布数据。 如果您现在从该数据中选择一个随机值\(x\)并且必须在此基础上估计平均值\(\mu\) ,直觉上\(x\)\(\mu\)的合理估计(由于存在正态分布,随机选择的\(x\)可能接近\(\mu\) )。


现在重复实验 - 这次使用三个独立的、再次呈正态分布的数据集,每个数据集具有方差\(1\)和平均值\(\mu_1\) , \(\mu_2\) , \(\mu_3\) 。 获得三个随机值后\(x_1\) , \(x_2\)\(x_3\) ,一个估计(使用相同的过程) \(\mu_1=x_1\) , \(\mu_2=x_2\)\(\mu_3=x_3\)

James 和 Stein 令人惊讶的结果是\( \left( \mu_1, \mu_2, \mu_3 \right) \) (即三个独立数据集的组合)比\( \left( x_1, x_2, x_3 \right) \) 。 “James Stein 估计器”就是:

$$ \begin{pmatrix}\mu_1\\\mu_2\\\mu_3\end{pmatrix} = \left( 1-\frac{1}{x_1^2+x_2^2+x_3^2} \right) \begin{pmatrix}x_1\\x_2\\x_3\end{pmatrix} \neq \begin{pmatrix}x_1\\x_2\\x_3\end{pmatrix} $$

这个估计量的均方差总是小于通常估计量的均方差\( E \left[ \left|| X - \mu \right||^2 \right] \)

令人惊讶且也许自相矛盾的是,James-Stein 估计器将通常的估计器(通过收缩因子)移向原点,从而在大多数情况下给出更好的结果。 这适用于尺寸\( \geq 3 \) ,但不适用于二维情况。

Brown & Zao提供了一个很好的几何解释来解释为什么这有效。 请注意,这并不意味着您对每个数据集都有更好的估计 - 您只是有一个更好的估计和更小的综合风险。

背部