From Zero to Hero

发表于2026-02-23|深度学习基础

深度学习中的批次大小(Batch Size)完全指南在深度学习训练中，批次大小(Batch Size)是一个至关重要的超参数，它不仅影响训练速度，更直接决定了模型的最终性能。本文将深入探讨批次大小的选择策略和最佳实践。什么是 Batch Size？ Batch Size 指的是每次前向传播和反向传播时处理的样本数量。它是连接单样本训练（随机梯度下降 SGD）和全批量训练（Batch Gradient Descent）的桥梁。训练方式 Batch Size 特点描述 SGD 1 优点：梯度方向随机性强，易于跳出局部最优。缺点：训练不稳定，收敛速度慢。 Mini-batch 2-几百优点：在训练稳定性和计算效率之间取得了良好平衡。缺点：需要进行参数调优。 Batch GD 全部样本优点：梯度计算最准确，收敛路径稳定。缺点：内存消耗巨大，容易过拟合，且可能收敛到尖锐的极小值。 Batch Size 的核心影响因素 1....

理解Softmax回归与交叉熵

发表于2026-02-23|深度学习基础

从预测到压缩：理解 Softmax 回归与交叉熵背后的直觉 “分类不是问‘多少’，而是问‘哪一个’。” 在机器学习的世界里，线性回归教会我们如何预测连续值——房价、温度、胜场数。但现实中的许多问题本质上是离散选择：这封邮件是垃圾邮件吗？这张图是猫还是狗？用户会点击这个广告吗？这就是分类任务的舞台，而 Softmax 回归，正是处理多类别分类问题最基础、也最优雅的工具之一。然而，Softmax 不只是一个数学技巧；它的背后，深植于信息论与概率建模的坚实土壤。本文将带你从直觉出发，一步步揭开 Softmax 与交叉熵损失的神秘面纱。一、为什么不能直接用线性输出做分类？假设我们有一个图像分类任务，类别为 {猫, 鸡, 狗}。我们可以构建一个线性模型，对每个类别输出一个“得分”（logit）： $$ \begin{aligned} o_1 &= \mathbf{w}_1^\top \mathbf{x} + b_1 \quad (\text{猫}) \ o_2 &= \mathbf{w}_2^\top \mathbf{x} + b_2 \quad...

用 PyTorch 手动实现线性回归

发表于2026-02-23|深度学习基础

在深度学习的世界里，线性回归常被视为“Hello World”级别的入门算法。虽然它看起来很简单，但它包含了深度学习的核心思想：参数化模型、损失函数、优化算法。今天，我将带领大家使用 PyTorch，不依赖高级 API，从零开始手动实现线性回归。 1. 生成人造数据为了验证我们的代码是否正确，我们需要一个已知答案的数据集。我们将根据公式 $y = Xw + b + \text{noise}$ 生成数据。我们设定真实的参数为：权重 (w): [2, -3.4] 偏置 (b): 4.2 1234567891011121314import randomimport torchfrom d2l import torch as d2ldef synthetic_data(w, b, num_examples): """生成 y = Xw + b + 噪声""" X = torch.normal(0, 1, (num_examples, len(w))) y = torch.matmul(X, w)...

初识深度学习：从机器学习到AI的简明导览

发表于2026-02-23|人工智能基础

...

线性代数速览

发表于2026-02-23|数学基础

📚 线性代数速览：从标量到张量，为深度学习打基础 “没有线性代数，就没有现代深度学习。” 本文用最直观的方式，带你快速掌握深度学习中必备的线性代数核心概念。 🔢 1. 基本数学对象：标量 → 向量 → 矩阵 → 张量类型数学表示形状（shape）例子标量 $x \in \mathbb{R}$ 0 维 3.0, -2 向量 $\mathbf{x} \in \mathbb{R}^n$ 1 维（长度 = $n$） [1, 2, 3, 4] 矩阵 $\mathbf{A} \in \mathbb{R}^{m \times n}$ 2 维（$m$ 行 × $n$ 列） [[1,2],[3,4]] 张量 $\mathsf{X}$ ≥3 维（如图像：H×W×C） (2,3,4) 的三维数组 ✅ 关键点：标量是“单个数字”；向量是“一串数字”，默认是列向量；矩阵是“表格”，行×列；张量是高维推广——深度学习中图像、批量数据都用它表示 🧮 2. 常见运算（附代码） ✅...

从0到1构建技术博主的「自媒体生态闭环」：我的全平台分发战略

发表于2026-02-23|自媒体运营

从0到1构建技术博主的「自媒体生态闭环」：我的全平台分发战略摘要：作为一个刚起步的技术博主，只有15个粉丝怎么办？单打独斗写博客早已过时。本文我将公开我如何整合 Obsidian、博客、CSDN、公众号等8+平台，构建一个“内容生产→公域引流→私域沉淀”的自动化流量飞轮。这不仅是一套运营方案，更是一套高效的学习与知识管理体系。一、为什么你需要一个“生态闭环”？很多技术新手（包括刚开始的我）常犯的一个错误是：把鸡蛋放在一个篮子里。只写博客？没人看，SEO收录慢。只发公众号？没有公域流量，冷启动难如登天。只混CSDN？流量虽大但无法沉淀粉丝，终究是平台的打工者。真正的破局之道，是构建一个「自媒体生态闭环」。在这个闭环中，每个平台都有明确的分工：有的负责高效生产，有的负责公域捞鱼，有的负责私域养鱼。它们互相联通，让流量像水一样在各个池子间循环流动，最终汇聚成你的个人品牌资产。以下是我为你设计的全景生态矩阵： 123456789101112131415161718192021222324252627282930graph TD subgraph...

微信公众号实现盈利

发表于2026-02-23|自媒体运营

一、公众号日常维护策略（核心：持续输出高价值内容） ✅ 1. 内容定位清晰垂直领域：深度学习（可细分到CV/NLP/LLM/部署优化等）目标人群：高校学生、算法工程师、转行者（建议主攻“入门+实战”）内容风格：专业但不晦涩，重代码、重可视化、重可复现 ✅ 2. 内容形式建议（每周2~3篇为佳）类型频率示例实战教程每周1篇《用PyTorch从零实现ViT，附Colab链接》论文精读每2周1篇《ICLR 2026最佳论文解读：MoE如何突破显存瓶颈？》避坑指南不定期《训练Loss不下降？这5个调试技巧你必须知道》学习路线季度更新《2026深度学习工程师成长地图（含资源清单）》 📌 所有文章务必：标注“原创” 提供GitHub/Colab链接文末引导留言/点“在看” ✅ 3. 建立内容资产库将系列文章整理成 PDF电子书（如《深度学习炼丹手册V1.0》）创建 GitHub组织页，集中管理所有代码项目这些将成为后续引流和变现的核心资源二、用户增长策略（让对的人关注你） 🔍 1....

如何获得最佳YOLOv5训练结果

发表于2026-02-09|深度学习

如何获得最佳 YOLOv5 训练结果 YOLOv5 是目前最流行的目标检测框架之一，因其易用性、高性能和灵活的部署能力广受开发者欢迎。然而，想要在自己的数据集上获得最佳 mAP（mean Average Precision）与泛化性能，光靠“开箱即用”往往不够。本文将结合官方建议与深度学习训练的最佳实践，为你提供一套系统化的 YOLOv5 优化策略。 💡 核心原则：先用默认设置建立基线，再逐步优化。不要一开始就修改模型或超参数！一、高质量数据是成功的关键 🔑 无论模型多强大，垃圾数据只会产出垃圾结果。以下是构建高质量 YOLOv5 数据集的核心准则： ✅ 数据规模建议每类 ≥1500 张图像每类 ≥10,000 个标注实例（即边界框）小类别容易欠拟合，务必保证足够样本 ✅ 图像多样性你的数据必须真实反映部署环境：不同时间（白天/夜晚）、季节、天气（晴/雨/雾）多种光照条件、拍摄角度、设备来源（手机、监控、无人机等）背景复杂度应与实际场景一致 ✅...

看懂YOLOv5架构：目标检测是怎么“看”世界的？

发表于2026-02-09|深度学习

看懂 YOLOv5 架构：目标检测是怎么“看”世界的？你有没有想过，手机里的拍照识物、自动驾驶汽车识别行人、监控摄像头发现异常——这些神奇的功能背后，其实都离不开一种叫 YOLO 的技术？不用数学公式，不堆专业术语，只用生活化的比喻，带你轻松看懂它的内部结构！ 🧠 YOLOv5 是什么？ YOLO 全名叫 You Only Look Once（你只看一次），意思是它能在一张图片里一次性找出所有物体，又快又准。而 YOLOv5 是由 Ultralytics 团队开发的一个开源版本，因其简单、高效、易用，成了工业界和学术界的“香饽饽”。 🏗️ 整体结构：三大部分，像一个人你可以把 YOLOv5 想象成一个“会看图的人”，它有三个关键部分：部分功能比喻 Backbone（主干）看图，提取特征 👀 眼睛 + 初级大脑 Neck（颈部）融合不同层次的信息 🧠 高级大脑，整合细节与整体 Head（头部/检测头）说出结果：“这里有只猫！” 💬 嘴巴，负责输出答案下面我们就一层层拆开看看。 👀 第一步：Backbone ——...

YOLOv1原理详解

发表于2026-02-08|深度学习

YOLOv1 原理详解文档目标：深入解析 YOLOv1（You Only Look Once, 2016）的核心思想、网络架构、损失函数设计、推理流程及其局限性，阐明其如何将目标检测重构为单次回归问题。 1. 引言：为什么需要 YOLO？传统两阶段检测器（如 R-CNN 系列）虽精度高，但存在速度慢、流程复杂、非真正端到端等问题。 YOLOv1 的核心突破在于：将整个目标检测任务视为一个单一的回归问题，直接从图像像素预测边界框和类别概率，仅需一次前向传播即可完成检测。这种“统一检测”（Unified Detection）范式实现了：实时性：45 FPS（Fast YOLO 达 155 FPS）；全局上下文感知：整图输入，避免区域碎片化；真正端到端训练：无候选区域生成、无后处理模块依赖。 2. 核心思想：网格划分与责任分配 2.1 网格划分（Grid Cells）将输入图像划分为 S × S 的网格（YOLOv1 中 S = 7）；每个网格负责预测中心点落在其内部的物体。 📌 注意：一个网格可能包含多个物体，但 YOLOv1...