stein的这个结论让人们发现,(在高维问题中,即维数大于等于3)简单地将估计朝原点做shrinkage就能提升预测精度。后面蓬勃发展的统计学习中有一大类方法,其思想根源就是这里,这种方法叫(高维问题中的)正则化。甚至可以说,统计学习本质思想之一的bias-variance tradeoff即发端于此。
事实上,人们后来提出的ridge regression就基于这种方法(甚至可以叫等价)。而在90年代末、20世纪初的十几年时间里涌现的大量正则化方法,如lasso, elastic net等等,虽形不同,但神似之。而如此蓬勃发展的方法的起点,居然是早在1956年。每念及此,都只能由衷赞叹。