欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 科技 > 能源 > 激活层为softmax时,CrossEntropy损失函数对激活层输入Z的梯度

激活层为softmax时,CrossEntropy损失函数对激活层输入Z的梯度

2025/6/21 20:38:11 来源:https://blog.csdn.net/qq_37613112/article/details/148710092  浏览:    关键词:激活层为softmax时,CrossEntropy损失函数对激活层输入Z的梯度

∂ L ∂ Z = y ^ − y \frac{\partial L}{\partial Z}=\hat{y}-y ZL=y^y
其中 y y y为真实值,采用one-hot编码, y ^ \hat{y} y^为softmax输出的预测值

证明: \textbf{证明:} 证明:

根据softmax公式:
y ^ i = e z i ∑ j = 1 n e z j \hat{y}_i=\frac{e^{z_i}}{\sum_{j=1}^ne^{z_j}} y^i=j=1nezjezi

根据CrossEntropy公式:

L = − ∑ i = 1 n y i l o g y ^ i = − ∑ i = 1 n y i l o g e z i ∑ j = 1 n e z j = − y l l o g e z l ∑ j = 1 n e z j − ∑ i = 1 , i ≠ l n y i l o g e z i ∑ j = 1 n e z j \begin{align*} L&=-\sum_{i=1}^ny_ilog\hat{y}_i \\ &=-\sum_{i=1}^ny_ilog\frac{e^{z_i}}{\sum_{j=1}^ne^{z_j}} \\ &=-y_llog\frac{e^{z_l}}{\sum_{j=1}^ne^{z_j}}-\sum_{i=1,i \neq l}^ny_ilog\frac{e^{z_i}}{\sum_{j=1}^ne^{z_j}} \end{align*} L=i=1nyilogy^i=i=1nyilogj=1nezjezi=yllogj=1nezjezli=1,i=lnyilogj=1nezjezi

所以
∂ L ∂ z l = − ∑ i = 1 , i ≠ l n y i ∑ j = 1 n e z j e z i − e z i e z l ( ∑ j = 1 n e z j ) 2 − y l ∑ j = 1 n e z j e z l e z l ∑ j = 1 n e z j − e z l e z l ( ∑ j = 1 n e z j ) 2 = − ∑ i = 1 , i ≠ l n y i ( − e z l ∑ j = 1 n e z j ) − y l ∑ j = 1 n e z j − e z l ∑ j = 1 n e z j = − ∑ i = 1 , i ≠ l n y i ( − e z l ∑ j = 1 n e z j ) − y l + y l e z l ∑ j = 1 n e z j = − y l + ∑ i = 1 n y i e z l ∑ j = 1 n e z j = − y l + e z l ∑ j = 1 n e z j ∑ i = 1 n y i \begin{align*} \frac{\partial L}{\partial z_l} &=-\sum_{i=1,i\neq l}^ny_i\frac{\sum_{j=1}^ne^{z_j}} {e^{z_i}}\frac{-e^{z_i}e^{z_l}}{(\sum_{j=1}^ne^{z_j})^2}-y_l\frac{\sum_{j=1}^ne^{z_j}}{e^{z_l}}\frac{e^{z_l}\sum_{j=1}^ne^{z_j}-e^{z_l}e^{z_l}}{(\sum_{j=1}^ne^{z_j})^2} \\ &=-\sum_{i=1,i\neq l}^ny_i(\frac{-e^{z_l}}{\sum_{j=1}^ne^{z_j}})-y_l\frac{\sum_{j=1}^ne^{z_j}-e^{z_l}}{\sum_{j=1}^ne^{z_j}} \\ &=-\sum_{i=1,i\neq l}^ny_i(\frac{-e^{z_l}}{\sum_{j=1}^ne^{z_j}})-y_l+y_l\frac{e^{z_l}}{\sum_{j=1}^ne^{z_j}} \\ &=-y_l+\sum_{i=1}^ny_i\frac{e^{z_l}}{\sum_{j=1}^ne^{z_j}} \\ &=-y_l+\frac{e^{z_l}}{\sum_{j=1}^ne^{z_j}}\sum_{i=1}^ny_i \end{align*} zlL=i=1,i=lnyiezij=1nezj(j=1nezj)2eziezlylezlj=1nezj(j=1nezj)2ezlj=1nezjezlezl=i=1,i=lnyi(j=1nezjezl)ylj=1nezjj=1nezjezl=i=1,i=lnyi(j=1nezjezl)yl+ylj=1nezjezl=yl+i=1nyij=1nezjezl=yl+j=1nezjezli=1nyi
因为 y y y采用one-hot编码,所以
∑ i = 1 n y i = 1 \begin{align*} \sum_{i=1}^ny_i=1 \end{align*} i=1nyi=1

所以
∂ L ∂ z l = − y l + e z l ∑ j = 1 n e z j = y ^ l − y l \frac{\partial L}{\partial z_l}=-y_l+\frac{e^{z_l}}{\sum_{j=1}^ne^{z_j}}=\hat{y}_l-y_l zlL=yl+j=1nezjezl=y^lyl

所以
∂ L ∂ Z = y ^ − y \frac{\partial L}{\partial Z}=\hat{y}-y ZL=y^y

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词