线性回归的目标是调整斜率和截距的值,以找到能最好地根据X预测Y的直线。更准确地说,回归的目标是将各点到直线的垂直距离平方和最小化。为什么要把距离平方和最小化?为什么不直接将实际距离的总和最小化呢?
如果随机散布服从高斯分布,出现两个中等偏差(例如各5个单位)的可能性,远大于出现一个小偏差(1个单位)和一个大偏差(9个单位)的可能性。 如果采用最小化距离绝对值和的方法,那么一条距离两个点各5单位的直线与另一条距离一个点1单位、另一个点9单位的直线相比,并无优劣之分。因为这两种情况下,距离之和(更准确地说,是距离绝对值之和)都是10单位。 而一种旨在最小化距离平方和的算法,则更倾向于选择与两个点各相距5单位(平方和=50),而非与一个点相距1单位、与另一个点相距9单位(平方和=82)。如果数据分布呈高斯分布(或近似高斯分布),那么通过最小化平方和确定的直线最有可能正确。
这些计算方法在每本统计学教材中都有介绍,且完全符合标准。
“回归”一词,与许多统计术语一样,在统计学中的用法与其他语境大不相同。该方法最初用于考察父亲与儿子身高之间的关系。两者当然存在关联,但斜率小于1.0。高个子的父亲往往生出比自己矮的儿子;矮个子的父亲往往生出比自己高的儿子。儿子的身高向均值回归。 如今,“回归”一词被广泛用于各类曲线拟合。
关于线性回归的细节已在众多教科书中有所阐述,因此在此不再赘述。Prism软件的所有操作均符合标准规范。以下是一个关于基础知识(包括置信区间和预测区间)的优质参考来源。