一篇读懂前向传播与反向传播

你是否好奇，为什么现在的AI能认出猫狗、写出诗歌，甚至通过图灵测试？这背后其实藏着一套精妙的数学机制，让机器能够像人类一样“从错误中学习”。

今天，我们就抛开复杂的公式堆砌，用通俗易懂的语言，带你拆解神经网络训练的两大核心引擎：前向传播和反向传播。

🎯 核心场景：一个带“纠错机制”的学习者

想象一下，你正在教一个学生（神经网络）做数学题。

这个过程在深度学习框架中，就是自动微分的真相。

前向传播就是数据从输入层流向输出层的旅程。在这个过程中，网络会按顺序执行一系列计算，并把中间结果存起来，以备后用。

以一个简单的单隐藏层网络为例，旅程是这样的：

输入转化：原始数据 $\mathbf{x}$ 乘以第一层权重 $\mathbf{W}^{(1)}$，变成中间变量 $\mathbf{z}$。
激活变身：$\mathbf{z}$ 经过激活函数 $\phi$（比如ReLU或Sigmoid），变成更有表现力的隐藏层信号 $\mathbf{h}$。

这就好比学生把原始题目转化成了自己理解的中间步骤。
输出预测：$\mathbf{h}$ 再乘以第二层权重 $\mathbf{W}^{(2)}$，得到最终预测值 $\mathbf{o}$。
算总账：
- 计算损失 $L$：预测值 $\mathbf{o}$ 和真实标签 $y$ 差多少？
- 计算惩罚 $s$：权重是不是太大了？（$L_2$正则化项）
- 目标函数 $J = L + s$：这就是我们要最小化的最终代价。

💡 关键点：前向传播不仅是为了得到结果，更是为了保存沿途的风景（中间变量 $\mathbf{z}, \mathbf{h}, \mathbf{o}$）。没有这些存档，后面的“反思”就无法进行。

如果前向传播是“做题”，那反向传播就是“复盘”。它的核心武器是微积分中的链式法则。

既然我们知道了最终错在哪（$J$的大小），现在要问：每一个参数（权重）对最终的错误贡献了多少？

反向传播的顺序与前向传播完全相反：

从终点出发：先算出目标函数 $J$ 对输出 $\mathbf{o}$ 的梯度（敏感度）。
层层回溯：
- 输出层权重 $\mathbf{W}^{(2)}$：结合输出的梯度和之前存好的隐藏层信号 $\mathbf{h}$，算出这一层该怎么改。别忘了加上正则化的惩罚项！
- 传回隐藏层：把梯度通过权重矩阵 ${\mathbf{W}^{(2)}}^\top$ 传回给隐藏层 $\mathbf{h}$。
- 穿过激活函数：这里有个小技巧，梯度要乘以激活函数的导数 $\phi’(\mathbf{z})$（逐元素相乘）。这决定了信号能传回去多少。
- 输入层权重 $\mathbf{W}^{(1)}$：最后，结合传回来的梯度和原始输入 $\mathbf{x}$，算出第一层权重的调整方向。

🧠 为什么叫“反向”？
因为梯度的计算依赖关系是反过来的：要算第一层的梯度，必须先知道第二层的梯度。就像多米诺骨牌，必须从最后一块倒推回来，才知道第一块该往哪推。

神经网络的训练，就是前向和反向的不断交替：

注意：前向传播依赖当前的参数，反向传播依赖前向产生的中间值。两者缺一不可，紧密耦合。

你可能发现，训练大模型时显存很容易爆，但只用它来聊天（预测）却挺流畅。这是为什么？

预测时：只需要做前向传播，算完一层就可以扔掉中间结果，内存占用很小。
训练时：必须做反向传播！这意味着前向传播产生的所有中间变量（$\mathbf{z}, \mathbf{h}, \mathbf{o}$等）都必须保存在显存里，直到反向传播全部完成才能释放。

结论：网络越深、批量大小（Batch Size）越大，需要存储的中间值就越多，显存压力呈线性增长。这也是为什么训练深层网络需要昂贵GPU的原因。

理解了这两个过程，你就掌握了深度学习框架（如PyTorch, TensorFlow）自动微分背后的灵魂。下次看到模型 Loss 下降时，你就能想象出无数梯度在计算图中逆向飞奔的壮观景象了！