频率分布直方图方差 画频率直方图的五个步骤
让我们先来理解一下什么是残差图。看下面的“四合一”图,这就是我们要探讨的残差图。
这里说的残差并非意味着残缺,残差图中的四个部分是缺一不可的。大家是否对此有所疑问呢?
残差是利用x估计的回归方程预测y时产生的误差。
有的同学听到这个解释后,可能会有这样的反应...
好,我们先简单解释一下什么是残差。
在红色方框里,我们看到的是当温度x取各种值时实际的y产量,这与我们的模型无关;
而在绿色方框里,则是根据y=60+5x这个模型计算出来的理论产量,这是模型的预测值,与实际产量无关;
方框里则是实际值减去理论值得到的残差。以第一行为例,当温度x=2时,实际产量为58,理论产量为70,那么残差就是58减去70,等于-12。
由此可见,残差就是实际值与模型构建的理论值的差值。
现在大家看看是否理解了呢?
接下来,我们进一步探讨残差的几个基本假设:(重要内容请特别注意)
①残差的均值为0;
②残差的方差相等;
③残差值相互独立,互不影响;
④残差服从正态分布。
我们能够使用T检验和F检验来确定X和Y之间的关系是否显著,并得出置信区间估计和预测区间估计,其理论依据正是基于上述关于残差的几个基本假设。如果残差的假设不够可靠,那么回归关系的显著性假设检验和区间估计的结果也将不可靠。
简单来说,我们做残差分析就是为了验证这四项假设是否成立。
如果残差图中的散点随机地、无规律地围绕在以0为中心的水平带中间,那就说明所有的假设都得到了满足。如果有任何不符合的情况,那就意味着出现了问题,我们需要逐一进行分析。
我们先看左上角的图,这个图是为了验证④残差服从正态分布的假设。
我们可以通过两个方法来检查:
一是看图形,观察各个点是否紧紧围绕在直线附近,是否有弯曲;
二是看P值是否大于0.05。如果P0.455>0.05,那么就可以认为残差是正态的。
再看左下角这个图,我们可以从横坐标是否为0,以及0两边的数据频数和取值范围来粗略判断①残差的均值是否为0。这也是一个直方图,虽然参考意义大于实际意义,但也可以帮助我们初步判断残差是否服从正态分布。
最常见的用于评判残差图是否异常的是右上角和右下角的两张图。
右上角这个图展示了拟合值(也就是模型计算出的理论值)与残差值的关系。根据③残差值相互独立、互不影响的假设,残差值不会因为拟合值的增加而发生有规律的变化。如果发现了有规律的变化,那就说明残差不独立,可能受到了某种未知因素的影响。
对于这种情况,我们首先需要考虑对Y进行变换。
最后看右下角这个图,它展示了残差与顺序值的关系。同样根据③残差值相互独立、互不影响的假设,残差值不会因为顺序而发生有规律的变化。如果出现这种情况,我们需要检查数据或模型是否有问题。
除了这四个基本的残差图外,还有与自变量X比较的残差图。这需要确保残差与自变量X也是独立的。
如果残差与X的图出现了弯曲,那么可能需要增加X的高次项来进行再次回归。
当我们在实际工作中遇到问题时,需要根据残差图的具体情况来决定是对Y进行变换还是增加X的高次项。
记住这一点非常重要!