从线性回归到深度学习

从线性回归到深度学习：揭开机器学习的“Hello World”

引言：机器学习的“Hello World”

在线性代数的矩阵运算与概率统计的正态分布假设中，线性回归如同一座桥梁，连接着经典统计学与现代深度学习。作为机器学习领域最基础的算法，它不仅是预测连续值（如房价、销售额）的核心工具，更是理解神经网络的起点。本文将从数学原理、优化方法到神经网络视角，带你深入剖析线性回归的本质。

一、线性回归的核心思想：寻找最优拟合

线性回归的本质是通过特征的线性组合来预测目标值。假设我们有一个包含 $d$ 个特征的样本 $x=(x_1,x_2,…,x_d)$，线性模型的预测函数可表示为：
$f(x)=w^Tx+b$
其中：

$w=(w_1,w_2,…,w_d)$ 是权重向量，决定每个特征对预测结果的影响程度；
$b$ 是偏置项（截距），表示所有特征为0时的基准预测值。

以房价预测为例：若房屋面积（$x_1$）和房龄（$x_2$）是特征，则模型可能学习到 $w_1=4.03$（面积每增加1平米，房价上涨4.03万）、$w_2=-1.5$（房龄每增加1年，房价下降1.5万），而 $b=-12.35$ 则是基础价格。

二、如何找到最优参数？最小二乘法与梯度下降

要确定模型参数 $w$ 和 $b$，需最小化预测值与真实值的误差。最常用的损失函数是均方误差（MSE）：
$J(w,b)=\frac{1}{2m}\sum_{i=1}^m(f(x_i)-y_i)^2$
其中 $m$ 是样本数，$y_i$ 是真实标签。最小化 MSE 有两种经典方法：

解析解（正规方程）：当特征矩阵 $X$ 列满秩时，可通过矩阵运算直接求解：
$w^*=(X^TX)^{-1}X^Ty$
这种方法无需迭代，但计算复杂度高，仅适用于小规模数据。
数值解（梯度下降）：通过迭代更新参数：
$w:=w-\eta\frac{\partial J}{\partial w}$
其中 $\eta$ 是学习率。随机梯度下降（SGD）通过每次抽取小批量样本计算梯度，显著提升了大规模数据的训练效率。

三、概率视角：为什么用均方误差？

均方误差的合理性源于对噪声的统计假设。线性回归假设观测噪声服从均值为0的正态分布：
$y=w^Tx+b+\epsilon,\quad\epsilon\sim\mathcal{N}(0,\sigma^2)$
根据最大似然估计，最大化数据似然等价于最小化均方误差。这一发现揭示了：最小二乘法不仅是几何上的距离最小化，更是概率意义上的最优参数估计。