两种神经网络参数初始化方法

2025/5/16 19:32:45 来源：https://blog.csdn.net/transformer_WSZ/article/details/139846192 浏览: 次关键词：两种神经网络参数初始化方法

重点介绍一下Xavier和Kaiming初始化：

为了使得网络中信息更好的流动，每一层输出的方差应该尽量相等。

$\mathcal{N}\left(0, \frac{2}{n_{\text {in }}+n_{\text {out }}}\right)$

$\mathcal{U}\left(-\sqrt{\frac{6}{n_{\text {in }}+n_{\text {out }}}}, \sqrt{\frac{6}{n_{\text {in }}+n_{\text {out }}}}\right)$

Xavier初始化的问题在于，它只适用于线性激活函数，但实际上，对于深层神经网络来说，线性激活函数是没有价值，神经网络需要非线性激活函数(例如ReLU)来构建复杂网络。

前向传播时每层的方差都是1

反向传播时梯度的方差都是1

$\mathcal{N}\left(0, \frac{2}{n_{\text {in }}}\right)$

$\mathcal{U}\left(-\sqrt{\frac{6}{n_{\text {in }}}}, \sqrt{\frac{6}{n_{\text {in }}}}\right)$

$n_{in}$ 表示每层输入的神经元数量

相关资讯