非线性回归的目标是调整模型的参数值,以找到能从 X 预测 Y 的最佳曲线。
为什么要最小化距离的平方和呢?为什么不干脆最小化实际距离之和呢?
如果随机散点服从高斯分布,那么出现两个中等大小偏差(比如各 5 个单位)的可能性要远远大于出现一个小偏差(1 个单位)和一个大偏差(9 个单位)的可能性。如果采用最小化距离绝对值之和的程序,就不会优先选择距离两点 5 个单位的曲线和距离一点 1 个单位、另一点 9 个单位的曲线。在每种情况下,距离之和(更准确地说,是距离的绝对值之和)都是 10 个单位。最小化距离平方和的程序更倾向于距离两点 5 个单位(平方和 = 50),而不是距离一点 1 个单位,距离另一点 9 个单位(平方和 = 82)。如果散点是高斯分布(或接近高斯分布),那么通过最小化平方和确定的曲线最有可能是正确的。