从反向传播过程看激活函数与权重初始化的选择对深度神经网络稳定性的影响

2025/7/8 22:33:57 来源：https://blog.csdn.net/weixin_41878387/article/details/139567194 浏览: 次关键词：从反向传播过程看激活函数与权重初始化的选择对深度神经网络稳定性的影响

之前使用深度学习时一直对各种激活函数和权重初始化策略信手拈用，然而不能只知其表不知其里。若想深入理解为何选择某种激活函数和权重初始化方法卓有成效还是得回归本源，本文就从反向传播的计算过程来按图索骥。

为了更好地演示深度学习中的前向传播和反向传播，有必要图文结合，先按下面这个计算图造些数据。

在这里插入图片描述

这是一个输入只有单个样本、包含两个特征，两个隐藏层、分别带有2个神经元，以及一个输出的三层全连接神经网络。

输入和权重

输入 $I n p u t$ (每行表示一个样本，每列表示一个特征)

$X=[x_1,x_2]=[1,-1]$

标签 $y = [1]$

权重 $W$ (每列对应一个神经元，行数等于样本特征数)

$\begin{align} W_1 & = \begin{bmatrix} w_1 & w_3 \\ w_2 & w_4 \\ \end{bmatrix} \hspace{100cm} \\ & = \begin{bmatrix} 1 & -1 \\ -2 & 1 \\ \end{bmatrix} \end{align}$

$\begin{align} W_2 & = \begin{bmatrix} w_5 & w_7 \\ w_6 & w_8 \\ \end{bmatrix} \hspace{100cm} \\ & = \begin{bmatrix} 2 & -2 \\ -1 & -1 \\ \end{bmatrix} \end{align}$

$\begin{align} W_3 & = \begin{bmatrix} w_9 & w_{11} \\ w_{10} & w_{12} \\ \end{bmatrix} \hspace{100cm} \\ & = \begin{bmatrix} 3 & -1 \\ -1 & 4 \\ \end{bmatrix} \end{align}$