![回归分析(修订本)(社会学教材教参方法系列)](https://wfqqreader-1252317822.image.myqcloud.com/cover/854/23667854/b_23667854.jpg)
3.6 对特定X下Y单一值的预测
在3.5节中,我们根据样本中的X,对回归直线上相应的Y值进行估计,得到的估计结果实际上是Y的条件均值或条件期望。如果我们希望基于一个新的X值预测对应的Y的值,不难想象在这种情况下Y的取值将会有更大的置信区间。由于随机项ε的存在,特定xi(仍记为x∗)下的y∗不落在回归直线 b1x∗上,而是服从于以回归直线
为均值、以
为方差的分布。估计量和相应的估计标准误见表3-3。
表3-3 对Y值预测的统计量和标准误
![](https://epubservercos.yuewen.com/2BA06E/12421581403624006/epubprivate/OEBPS/Images/figure_0078_0008.jpg?sign=1739552856-lbOuRgsoUzSSRMtQ4WGPj1xrptJCnyIp-0-a2ef31a39efda52240146174ee653d35)
根据表3-3,在95%的置信水平下,预测某x∗下y∗的置信区间为:
![](https://epubservercos.yuewen.com/2BA06E/12421581403624006/epubprivate/OEBPS/Images/figure_0078_0009.jpg?sign=1739552856-3KfTUQL6wQdXQgythN6YgcyKJgXgnaEn-0-a564de6fa3f2a08573b97490fe5bba9b)
同样地,由于总体误差的标准差σε是未知的,用误差标准差的样本估计Se作为σε的估计,则可以得到在95%置信水平下,对特定X下Y单一值的区间估计为:
![](https://epubservercos.yuewen.com/2BA06E/12421581403624006/epubprivate/OEBPS/Images/figure_0079_0001.jpg?sign=1739552856-X44ewo874cJGEm3b2lbspZoHjrQfqubm-0-a358c45698bde5e9eea749496270ec9e)
[例题3-1] 假设我们试图对某一社区中个人的受教育程度(X=edu)对年平均收入(Y=earn)的影响进行研究。我们从该社区中随机地收集到11名个体的受教育年限(单位:年)和年平均收入(单位:千元)数据(见表3-4)。
利用该数据:
(1)判断最佳拟合直线方程;
(2)计算直线的拟合优度;
(3)检验数据是否支持年平均收入受到个人受教育程度的影响(显著度α=0.05)这一假设;
(4)在95%置信水平下,估计受教育年限为12年者的年平均收入;
(5)预测当edu=20时,某个人的年平均收入。
表3-4 某小区11个个体的年平均收入与受教育年限
![](https://epubservercos.yuewen.com/2BA06E/12421581403624006/epubprivate/OEBPS/Images/figure_0079_0002.jpg?sign=1739552856-ca8yvUMJTm9OeHGhCWeWapeCOt565WnL-0-00e31cd255874f0108ddb6bf88d407c5)
(1)通过上表计算出:
![](https://epubservercos.yuewen.com/2BA06E/12421581403624006/epubprivate/OEBPS/Images/figure_0079_0003.jpg?sign=1739552856-pKHJCLbloCnmNAITMiPUI1Q7oPpwfEr8-0-9190059ad87f8f957a3e98fc139d3176)
![](https://epubservercos.yuewen.com/2BA06E/12421581403624006/epubprivate/OEBPS/Images/figure_0080_0001.jpg?sign=1739552856-jMC3U5JfQcZ3hVo591sSx7ok3LwScurM-0-70bb81fa0e3c0ddff1510019adb094c3)
因此,回归直线为:
(2)拟合优度的判定系数R2的计算。可以先计算受教育年限与年平均收入之间的相关系数,然后利用简单回归情况下这一关系式得到相关系数:
![](https://epubservercos.yuewen.com/2BA06E/12421581403624006/epubprivate/OEBPS/Images/figure_0080_0004.jpg?sign=1739552856-L5izAZHMoolmaodzj3xef2yAJe2cC4nM-0-c1690edc8d5414637ab166351875bb21)
所以,上述回归直线拟合优度的判定系数R2=0.51。也就是说,回归方程能够解释年平均收入总方差中的51%。
(3)检验受教育年限对年平均收入的影响是否显著,实际上就是检验β1是否等于零。
零假设H0: β1=0
备择假设H1: β1≠0
计算检验统计量:
![](https://epubservercos.yuewen.com/2BA06E/12421581403624006/epubprivate/OEBPS/Images/figure_0080_0005.jpg?sign=1739552856-t6vSipYvwSbSRyHSFPMwAnqsmr1jccqF-0-7a3762988c687318f1a113bb95aeaa4a)
由于
![](https://epubservercos.yuewen.com/2BA06E/12421581403624006/epubprivate/OEBPS/Images/figure_0080_0006.jpg?sign=1739552856-40hKSCAWUOgKF5OxVf8cOYBa6oh1CaBl-0-412d58295b54b820e0f120d4aba930d3)
则,所以
。
因为在α=0.05处,t0.025(9)=2.26<3.10,所以,拒绝零假设β1=0。这表明受教育年限对年平均收入有显著影响。
(4)当edu=12时,估计的期望年平均收入为:
![](https://epubservercos.yuewen.com/2BA06E/12421581403624006/epubprivate/OEBPS/Images/figure_0080_0009.jpg?sign=1739552856-QQsfUDKXoZGntuJhPt6LDgMw6qqPtbG9-0-24b24382b1490980c6b7152e9f9ec569)
并且估计标准误,另根据第(3)问求解中的计算结果S=2.03,所以,S. E. =0.687。由公式(3-23)可知,t0.025(9)=2.26,则受过12年教育的个体年平均收入(earn)的95%置信区间为:
(9.28 -2.26 × 0.687,9.28 +2.26 × 0.687)=(7.73,10.83)
(5)由于edu=20已经超出样本中自变量的取值范围 [5,16],因此利用回归拟合直线预测edu=20时个体年平均收入的取值是很危险的。
当预测值的范围超出了样本中 x 的取值范围时,利用回归直线预测要千万小心。这时,不仅因为预测值的置信区间变得过大而不可靠,更重要的是,自变量与因变量之间的关系可能在超出样本取值范围的某个 x处突然转变, (如图3-7所示)。但是,我们无法从已有的样本数据中得知这种趋势是否存在。
![](https://epubservercos.yuewen.com/2BA06E/12421581403624006/epubprivate/OEBPS/Images/figure_0081_0001.jpg?sign=1739552856-wJo2A45EASJPR79RrdbSIZ4eF27cpwf6-0-4519aa52049785c228e0483a732da191)
图3-7 预测值与真实值之间可能出现的关系
在图3-7的例子中我们可以看到,超出数据范围 edu =16以后,受教育年限与年平均收入之间可能呈曲线关系,而不再是简单的线性关系。如果这时仍然按照原有的拟合直线对 edu =20进行估计,就会使预测结果出现很大的偏误。