YOLOv1 原理详解

文档目标：深入解析 YOLOv1（You Only Look Once, 2016）的核心思想、网络架构、损失函数设计、推理流程及其局限性，阐明其如何将目标检测重构为单次回归问题。

1. 引言：为什么需要 YOLO？

传统两阶段检测器（如 R-CNN 系列）虽精度高，但存在速度慢、流程复杂、非真正端到端等问题。
YOLOv1 的核心突破在于：

将整个目标检测任务视为一个单一的回归问题，直接从图像像素预测边界框和类别概率，仅需一次前向传播即可完成检测。

这种“统一检测”（Unified Detection）范式实现了：

实时性：45 FPS（Fast YOLO 达 155 FPS）；
全局上下文感知：整图输入，避免区域碎片化；
真正端到端训练：无候选区域生成、无后处理模块依赖。

2. 核心思想：网格划分与责任分配

2.1 网格划分（Grid Cells）

将输入图像划分为 S × S 的网格（YOLOv1 中 S = 7）；
每个网格负责预测中心点落在其内部的物体。

📌 注意：一个网格可能包含多个物体，但 YOLOv1 假设每个网格最多只含一个物体中心——这是其重要局限之一。

2.2 预测内容

每个网格预测：

B 个边界框（YOLOv1 中 B = 2）；
每个边界框包含 5 个值：
$(x, y, w, h, \text{confidence})$
其中：
- $x, y$：框中心相对于当前网格左上角的偏移（归一化到 [0,1]）；
- $w, h$：框宽高相对于整图的比例（可 >1）；
- confidence：置信度，定义为
  $$
  \text{confidence} = \Pr(\text{Object}) \times \text{IoU}_{\text{pred}}^{\text{truth}}
  $$
  - 若网格无物体，$\Pr(\text{Object}) = 0$ → confidence = 0；
  - 若有物体，confidence = 预测框与真实框的 IoU。
C 个类别概率（共享于该网格所有 B 个框）：
$\Pr(\text{Class}_i | \text{Object})$，共 C 类（PASCAL VOC 中 C = 20）。

✅ 关键理解：类别概率是“以该网格存在物体为条件”的后验概率，与具体哪个框无关。

3. 输出张量结构

最终输出为一个 S × S × (B×5 + C) 的张量。

以 PASCAL VOC 数据集为例（S=7, B=2, C=20）：

每个网格输出：$2 \times 5 + 20 = 30$ 个值；
总输出维度：7 × 7 × 30。

位置	内容
第 0~3 位	第 1 个框：(x₁, y₁, w₁, h₁)
第 4 位	第 1 个框置信度
第 5~8 位	第 2 个框：(x₂, y₂, w₂, h₂)
第 9 位	第 2 个框置信度
第 10~29 位	20 个类别概率（共享）

💡 推理时，每个框的最终类别得分 = 置信度 × 对应类别概率。

4. 网络架构

YOLOv1 基于改进的 GoogLeNet（称为 Darknet-24）：

24 个卷积层 + 2 个全连接层；
输入尺寸：448 × 448 × 3；
输出尺寸：7 × 7 × 30。

训练策略

预训练：在 ImageNet 上训练前 20 层卷积 + 平均池化 + FC，用于分类（224×224 输入）；
微调：增加 4 个卷积层 + 2 个全连接层，输入调整为 448×448，在检测数据集上端到端训练。

5. 损失函数设计

YOLOv1 使用多任务损失函数，统一优化定位、置信度和分类：

$$
\mathcal{L} = \lambda_{\text{coord}} \sum_{i=0}^{S^2} \sum_{j=0}^{B} \mathbb{1}_{ij}^{\text{obj}} \left[ (x_i - \hat{x}_i)^2 + (y_i - \hat{y}_i)^2 \right] \

\lambda_{\text{coord}} \sum_{i=0}^{S^2} \sum_{j=0}^{B} \mathbb{1}_{ij}^{\text{obj}} \left[ (\sqrt{w_i} - \sqrt{\hat{w}_i})^2 + (\sqrt{h_i} - \sqrt{\hat{h}_i})^2 \right] \
\sum_{i=0}^{S^2} \sum_{j=0}^{B} \mathbb{1}_{ij}^{\text{obj}} (C_i - \hat{C}_i)^2 \
\lambda_{\text{noobj}} \sum_{i=0}^{S^2} \sum_{j=0}^{B} \mathbb{1}_{ij}^{\text{noobj}} (C_i - \hat{C}_i)^2 \
\sum_{i=0}^{S^2} \mathbb{1}{i}^{\text{obj}} \sum{c \in \text{classes}} (p_i© - \hat{p}_i©)^2
$$

关键设计说明：

项	作用	权重
坐标损失	优化框中心 (x,y) 和尺寸 (w,h)	$\lambda_{\text{coord}} = 5$（强调定位）
√w, √h	缓解小框误差被大框主导的问题	—
含物体置信度损失	让 confidence 趋近真实 IoU	1
无物体置信度损失	抑制背景区域的高置信度预测	$\lambda_{\text{noobj}} = 0.5$（降低负样本权重）
分类损失	优化类别概率（仅对含物体网格计算）	1

📌 注意：只有真实物体中心所在网格参与坐标和分类损失计算；所有网格都参与置信度损失。

6. 推理流程

输入图像 → 经过 YOLO 网络 → 输出 7×7×30 张量；
对每个网格的 B 个框：
- 计算最终类别得分：$\text{score}_c = \text{confidence} \times \Pr(\text{Class}_c)$；
对每个类别：
- 收集所有网格中该类别的所有框及其得分；
- 执行 NMS（Non-Maximum Suppression）去除冗余框；
输出保留的高分框（通常设定置信度阈值，如 >0.3）。

⚠️ YOLOv1 在推理时不区分“哪个框负责哪个物体”，而是靠 NMS 后处理筛选。

7. 优势与局限性

✅ 优势

速度快：单次前向传播，实现实时检测（45 FPS）；
全局推理：整图输入，减少背景误检（相比滑动窗口）；
端到端训练：无需复杂流水线；
泛化能力强：在艺术画、夜间图像等非自然场景表现优于 R-CNN。

❌ 局限性

空间约束强：每个网格最多预测一个物体 → 密集小物体检测效果差；
定位精度较低：损失函数对大/小框未充分加权，且无 anchor 机制；
泛化到新尺度/比例困难：训练数据若缺乏某类形状，模型难以适应；
召回率偏低：因网格限制，可能漏检部分物体。

🔜 这些问题在后续 YOLOv2（引入 Anchor、Batch Norm）、YOLOv3（FPN、多尺度预测）中逐步改进。

附录：关键参数速查（PASCAL VOC）

参数	值	说明
S	7	网格数量
B	2	每网格预测框数
C	20	类别数
输入尺寸	448×448	固定分辨率
输出张量	7×7×30	每网格 30 维
λ_coord	5	定位损失权重
λ_noobj	0.5	无物体置信度损失权重