残差网络(ResNet)

[!Tip]
随着我们设计越来越深的网络,深刻理解“新添加的层如何提升神经网络的性能”变得至关重要。

定义

函数类

$f^*_\mathcal{F} := \mathop{\mathrm{argmin}}_f L(\mathbf{X}, \mathbf{y}, f) \text{ subject to } f \in \mathcal{F}.$

  • $\mathcal{F}$ 是某种神经网络架构(包含超参数和学习率等),我们许要找的一个 $f^_\mathcal{F}$ 函数最接近目标函数 $f^$
  • 如果要升级网络结构到 $\mathcal{F}’$,且 $\mathcal{F} \not\subseteq \mathcal{F}’$ 就会出现问题
    • 因此,只有当较复杂的函数类包含较小的函数类时,我们才能确保提高它们的性能。
    • 所以设计了残差网络,附加层要能包含原始网络
      https://s2.loli.net/2025/03/03/E4Jiajgvpw2Z7mG.png

残差块(residual block)

https://s2.loli.net/2025/03/03/MlCN7kufqTc8yL2.png

$f(\mathbf{x}) = \mathbf{x} + g(\mathbf{x}).$