您的位置  > 互联网

(每日一题)简单线性和多元线性回归理论基础

请回顾一下简单线性和多元线性回归的理论基础:

无论是单变量还是多变量,线性回归的步骤都是相同的。 步骤如下:

实例分析

王某等人承包了某地某快递公司的快递业务。 一段时间后,他们发现:有时工作量大,快递任务无法完成; 有时工作量不够,员工在等待。 为了制定最佳的工作安排,王先生希望估算一下快递员每天的工作时间(工资是计件工资,不能偷懒),从而确定每天要接受的快递数量。 王分析,快递员每天的工作时间与送货距离和送货数量有关。 为此,他收集了由10个配送任务组成的简单随机样本数据,并根据这些数据建立了二元线性回归方程。 数据如下表:

项目分析

研究目的是预测快递员递送任务所需的时间,因此将时间设置为因变量; 距离和次数是自变量。 本题直接用Excel计算结果。

解决方法: 1. 相关时间; 由于是二元回归分析,所以不做散点图,直接用回归系数来确定因变量(时间)与自变量总数(距离和次数)之间的相关性。 Excel计算结果:

复相关系数R为0.9383,表明因变量时间整体上与所有自变量(距离和时间)高度线性相关。

2.回归系数和回归方程

通过Excel计算结果,可以得到回归系数和回归方程:

含义:回归系数0.042表示在配送次数固定的情况下,配送距离每增加1公里,行驶时间平均增加0.042小时; 同样,回归系数0.573意味着在配送距离固定的情况下,配送次数每增加1次,配送时间平均增加0.573小时。 在本例中,截距-0.01没有实际意义,仅用于调整值。

3、回归方程检验

检验回归方程的方法有三种(回归方程显着性检验、回归系数显着性检验和相关系数显着性检验)。 效果是一样的。 只需选择其中一项测试即可。 Excel给出回归方程的显着性检验结果:

F=0。 表示统计量 F=25.77422 的概率值。 通过与显着性水平(设置为0.05)比较,说明F值落入拒绝区,因此结论同上,即线性回归方程显着。

4. 区间估计

从上表可以看出,在95%置信水平条件下,回归系数b1的置信区间为(0.025,0.059),b2的置信区间为(0.069,1.077)。

5. 预测

快递员某天的任务是投递3件货物。 最优配送路线总长120公里。 预测交货时间并获得95%的时间间隔。

通过回归方程,预测配送时间为 6.749 小时:

在 95% 置信水平下,交货时间的置信区间为:

Excei计算结果包含Se的值,但不包含t统计量:

t统计值使用公式:=T.INV.2T(0.05,7)得到2.365,所以本题的投放时间间隔为:

(6.749-2.365*0.639, 6.749+2.365*0.639)

(5.24,8.26)

因此,该条件下的交货时间范围为5.24小时至8.26小时。