非线性回归的目标是调整模型参数的值,以找到能最好地根据X预测Y的曲线。更准确地说,回归的目标是将各点到曲线的垂直距离平方和最小化。
为何要最小化距离平方和?为何不直接最小化实际距离之和?
如果随机散布服从高斯分布,出现两个中等偏差(例如各5个单位)的可能性,远大于出现一个小偏差(1个单位)和一个大偏差(9个单位)的可能性。 如果采用最小化距离绝对值和的方法,那么对于一条距离两个点各5单位的曲线,与另一条距离一个点1单位、另一个点9单位的曲线相比,前者并无优势。因为这两种情况下的距离和(更准确地说,是距离绝对值之和)都是10单位。 若采用使距离平方和最小的方法,则更倾向于使曲线与两个点各偏离5个单位(平方和=50),而非与一个点偏离1个单位、与另一个点偏离9个单位(平方和=82)。如果数据分布呈高斯分布(或近似高斯分布),那么通过最小化平方和确定的曲线最有可能正确。