从线性回归到深度学习:揭开机器学习的“Hello World”

引言:机器学习的“Hello World”

在线性代数的矩阵运算与概率统计的正态分布假设中,线性回归如同一座桥梁,连接着经典统计学与现代深度学习。作为机器学习领域最基础的算法,它不仅是预测连续值(如房价、销售额)的核心工具,更是理解神经网络的起点。本文将从数学原理、优化方法到神经网络视角,带你深入剖析线性回归的本质。

一、线性回归的核心思想:寻找最优拟合

线性回归的本质是通过特征的线性组合来预测目标值。假设我们有一个包含 $d$ 个特征的样本 $x=(x_1,x_2,…,x_d)$,线性模型的预测函数可表示为:
$f(x)=w^Tx+b$
其中:

  • $w=(w_1,w_2,…,w_d)$ 是权重向量,决定每个特征对预测结果的影响程度;
  • $b$ 是偏置项(截距),表示所有特征为0时的基准预测值。

以房价预测为例:若房屋面积($x_1$)和房龄($x_2$)是特征,则模型可能学习到 $w_1=4.03$(面积每增加1平米,房价上涨4.03万)、$w_2=-1.5$(房龄每增加1年,房价下降1.5万),而 $b=-12.35$ 则是基础价格。

二、如何找到最优参数?最小二乘法与梯度下降

要确定模型参数 $w$ 和 $b$,需最小化预测值与真实值的误差。最常用的损失函数是均方误差(MSE):
$J(w,b)=\frac{1}{2m}\sum_{i=1}^m(f(x_i)-y_i)^2$
其中 $m$ 是样本数,$y_i$ 是真实标签。最小化 MSE 有两种经典方法:

  1. 解析解(正规方程):当特征矩阵 $X$ 列满秩时,可通过矩阵运算直接求解:
    $w^*=(X^TX)^{-1}X^Ty$
    这种方法无需迭代,但计算复杂度高,仅适用于小规模数据。
  2. 数值解(梯度下降):通过迭代更新参数:
    $w:=w-\eta\frac{\partial J}{\partial w}$
    其中 $\eta$ 是学习率。随机梯度下降(SGD)通过每次抽取小批量样本计算梯度,显著提升了大规模数据的训练效率。

三、概率视角:为什么用均方误差?

均方误差的合理性源于对噪声的统计假设。线性回归假设观测噪声服从均值为0的正态分布:
$y=w^Tx+b+\epsilon,\quad\epsilon\sim\mathcal{N}(0,\sigma^2)$
根据最大似然估计,最大化数据似然等价于最小化均方误差。这一发现揭示了:最小二乘法不仅是几何上的距离最小化,更是概率意义上的最优参数估计

四、从线性模型到神经网络

线性回归可以被视为最简单的神经网络:

  • 单层神经网络:输入层包含 $d$ 个节点(对应特征),输出层仅1个节点(预测值),且输入层与输出层全连接。
  • 激活函数:线性回归的激活函数是恒等函数 $f(x)=x$,而深度神经网络通过非线性激活函数(如ReLU)堆叠多层,从而拟合复杂非线性关系。

这种视角的统一性,使得线性回归成为理解反向传播、损失函数设计等深度学习核心概念的基石。

五、实战技巧与常见问题

  1. 特征工程:对非线性关系(如指数增长),可通过多项式特征扩展(如 $x^2$)转化为线性模型。
  2. 正则化:为防止过拟合,可引入 L1(Lasso)或 L2(Ridge)正则化:
    $J(w)=MSE+\alpha\sum_{j=1}^n|w_j|$
  3. 评估指标:除 MSE 外,决定系数 $R^2$ 可解释模型对数据方差的拟合程度。

总结

从高斯的天文学研究到现代深度学习,线性回归始终是数据分析的核心工具。它教会我们三个机器学习的基本原则:

  • 模型假设:明确特征与目标的线性关系;
  • 损失度量:通过均方误差量化预测误差;
  • 优化方法:用梯度下降寻找最优参数。

理解线性回归,不仅是掌握一个算法,更是打开机器学习世界大门的钥匙。正如神经科学家麦库洛奇所言:“所有复杂的神经网络,都始于简单的线性组合。”

本文部分内容参考动手学深度学习,遵循 Apache 2.0 协议。