为什么你的神经网络“学不动”？可能是开局没开好！

——通俗解读深度学习中的数值稳定性与参数初始化

今天我们来聊一个深度学习中非常基础、却又至关重要的话题：模型参数的初始化。

你有没有遇到过这样的情况：搭建了一个看起来很完美的神经网络，数据也准备得妥妥当当，可一训练，损失函数（Loss）要么一动不动，要么直接爆表变成 NaN？这时候，问题往往不出在网络结构或数据上，而是出在**“开局”**——也就是权重的初始化上。

这就好比一场足球赛，如果开场哨响时，所有球员都挤在球门线上，或者大家都站在原地不动，那这场比赛注定没法踢。神经网络也一样，如果初始权重设置得不合理，后续的“训练比赛”根本无法进行。

一、两大“杀手”：梯度消失与梯度爆炸

在深入讲解初始化之前，我们先要认识两个让深度学习从业者头疼的“杀手”：梯度消失和梯度爆炸。

想象一下，你在玩一个“传话游戏”。第一个人说了一句话，传给第二个人，再传给第三个……传到第十个人时，这句话已经变得面目全非，甚至完全听不见了。

在深层神经网络中，反向传播算法负责将误差信号（梯度）从输出层一层层传回输入层，以更新每一层的权重。如果网络很深，而这个传递过程中每一步的“缩放系数”都小于1（比如0.5），那么经过十几层连乘后，最终的梯度就会变成 $0.5^{15} \approx 0.00003$，几乎为零。

后果：靠近输入层的参数几乎收不到任何更新信号，模型“学不动”了。
典型 culprit（罪魁祸首）：Sigmoid 激活函数。它的导数最大值只有0.25，当输入值较大或较小时，导数趋近于0。多层叠加，梯度瞬间消失。

反过来，如果每一步的“缩放系数”都大于1（比如2.0），那么经过十几层连乘后，梯度会变成 $2^{15} = 32768$，甚至更大。

既然梯度有问题，那我们干脆把权重都设为0，或者都设为同一个常数，这样总稳定了吧？

答案是：绝对不行！

如果同一层的所有神经元权重都相同（例如全为0）：

这极大地浪费了网络的容量，使其无法学习复杂的特征。我们需要打破对称性，让每个神经元从不同的起点开始学习。因此，随机初始化是必须的。

既然不能全0，也不能随意随机（比如直接用标准正态分布），那该怎么随机呢？

2010年，学者 Xavier Glorot 提出了一种科学的初始化方法，被称为 Xavier 初始化（也叫 Glorot 初始化）。

Xavier 的目标很简单：让信号在正向传播（激活值）和反向传播（梯度）过程中，每一层的方差都保持一致。

假设某一层有 $n_{in}$ 个输入神经元，$n_{out}$ 个输出神经元。Xavier 建议权重 $W$ 的方差应设置为：

$$ \text{Var}(W) = \frac{2}{n_{in} + n_{out}} $$

具体实现有两种常见方式：

高斯分布：从均值0、方差为 $\frac{2}{n_{in} + n_{out}}$ 的正态分布中采样。
均匀分布：从区间 $[-\sqrt{\frac{6}{n_{in} + n_{out}}}, \sqrt{\frac{6}{n_{in} + n_{out}}}]$ 中均匀采样。

这种方法在 Tanh 和 Sigmoid 激活函数上表现极佳，因为它假设激活函数是线性的或对称的。

随着 ReLU 激活函数的流行（它在正区间是线性的，负区间为0），人们发现 Xavier 初始化在深层 ReLU 网络中效果不够完美。因为 ReLU 会“杀死”一半的神经元（输出为0），导致实际方差变小。

2015年，何恺明等人提出了 He 初始化（Kaiming Initialization），专门针对 ReLU 及其变种进行了优化：

$$ \text{Var}(W) = \frac{2}{n_{in}} $$

注意分母只有 $n_{in}$，而不是 $n_{in} + n_{out}$。这是因为 ReLU 的非线性特性使得反向传播的方差推导发生了变化。在现代深度学习框架（如 PyTorch, TensorFlow）中，当你使用 ReLU 时，默认的初始化方法通常就是 He 初始化。

问题	原因	解决方案
梯度消失	连乘导致梯度趋近于0	使用 ReLU 激活函数 + He/Xavier 初始化
梯度爆炸	连乘导致梯度无限大	梯度裁剪 + 合理的初始化方差
对称性失效	权重初始化为相同值	必须使用随机初始化
收敛慢/不收敛	初始化方差不匹配激活函数	Tanh/Sigmoid $\rightarrow$ Xavier; ReLU $\rightarrow$ He

不要手动设初始值：除非你有特殊需求，否则直接使用深度学习框架（PyTorch/TensorFlow）提供的默认初始化。它们通常已经根据激活函数做了最优配置。
激活函数决定初始化：
- 用 Tanh / Sigmoid $\rightarrow$ 选 Xavier。
- 用 ReLU / LeakyReLU $\rightarrow$ 选 He (Kaiming)。
遇到训练不稳定先查初始化：如果 Loss 突然变大或不变，检查一下是否错误地混合了激活函数和初始化方法。

结语：
深度学习的成功往往藏在细节里。一个好的初始化，就像是给赛车加满了高品质的燃油并调校好了引擎，虽然它不能保证你直接夺冠，但它能让你在比赛开始时就不输在起跑线上。

希望这篇博客能帮你理解为什么“开局”如此重要！如果你觉得有用，欢迎分享给更多正在“调参”路上奋斗的朋友。

本文基于《数值稳定性与初始化》相关技术文档整理，旨在通俗易懂地解释核心概念。