CS224N WINTER 2022（二）反向传播、神经网络、依存分析（附Assignment2答案）

时间：2023-12-04 10:37:02 撕裂传感器限位开关zwn

CS224N WINTER 2022(1)词向量(附)Assignment1答案）
CS224N WINTER 2022（二）反向传播、神经网络、依存分析（附Assignment2答案）
CS224N WINTER 2022（三）RNN、语言模型、梯度消失和梯度爆炸Assignment3答案）
CS224N WINTER 2022（四）机器翻译、注意力机制、subword模型（附Assignment4答案）
CS224N WINTER 2022（五）Transformers详解（附Assignment5答案）

序言

CS224N WINTER 2022课件可从https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1224/下载，也可从以下网盘获取:
```
https://pan.baidu.com/s/1LDD1H3X3RS5wYuhpIeJOkA 提取码: hpu3 
```
本系列博客的开头还将提供下载链接，总结相应的课件。
课件、作业答案、学习笔记（Updating）：GitHub@cs224n-winter-2022
本系列博客内容说明：
- 作者根据自己的情况记录更有用的知识点，并提出少量的意见或扩展延伸，而不是slide内容完整笔注；
- CS224N WINTER 2022年共五次作业，作者提供自己完成的参考答案，不保证其正确性；
- 由于CSDN限制博客字数，作者不能在博客中发表完整内容，只能分篇发布，可以从我身上发布GitHub Repository获得完整的笔记，本系列其他博客发布（Updating）：
  
  CS224N WINTER 2022(1)词向量(附)Assignment1答案）
  
  CS224N WINTER 2022(2)反向传播、神经网络、依存分析(附件)Assignment2答案）
  
  CS224N WINTER 2022（三）RNN、语言模型、梯度消失和梯度爆炸Assignment3答案）
  
  CS224N WINTER 2022年(4)机器翻译注意力机制subword模型（附Assignment4答案）
  
  CS224N WINTER 2022（五）Transformers详解（附Assignment5答案）

文章目录

序言
- lecture 3 反向传播和神经网络
- - slides
  - notes
  - suggested readings
  - additional readings
  - assignment2 参考答案
  - - 1. written
    - 2. coding
- lecture 4 依存分析
- - slides
  - notes
  - suggested readings
  - pytorch tutorial session

lecture 3 反向传播和神经网络

本节属于机器学习和深度学习的基础知识。

slides

[slides]

矩阵(向量)链式求导中的计算技巧：slides p.39

假设神经网络的操作步骤如下：
$x(\text{input})\rightarrow z=Wx b\rightarrow h=f(z)\rightarrow s=u^\top h\tag{3.1}$
则计算网络参数 $W$ 与 $b$ 的参数时：
$\frac{\partial s}{\partial W}=\frac{\partial s}{\partial h}\frac{\partial h}{\partial z}\frac{\partial z}{\partial W}\quad\frac{\partial s}{\partial b}=\frac{\partial s}{\partial h}\frac{\partial h}{\partial z}\frac{\partial z}{\partial b}\tag{3.2}$
可以定义局部误差信号（local error signal）：
$\delta=\frac{\partial s}{\partial h}\frac{\partial h}{\partial z}=u^\top\circ f'(z)\tag{3.3}$
则可以使得计算 $(3.2)$ 式的更加简单，事实上进一步计算可以发现：
$\begin{aligned} \frac{\partial s}{\partial W}&=\frac{\partial s}{\partial h}\frac{\partial h}{\partial z}\frac{\partial z}{\partial W}=\delta\frac{\partial z}{\partial W}=\delta^\top x^\top\\ \frac{\partial s}{\partial b}&=\frac{\partial s}{\partial h}\frac{\partial h}{\partial z}\frac{\partial z}{\partial b}=\delta\frac{\partial z}{\partial b}=\delta \end{aligned}\tag{3.4}$
此时我们称 $x$ 是局部输入信号（local input signal）。

这就是反向传播高效的原因，事实上只需要在神经网络的每条传播路径上存储两端节点变量的偏导值（如神经网络中节点 $z$ 指向节点 $h$ ，则存储 $\partial h/\partial z$ ），即可快速计算任意两个节点变量之间的偏导值。
广义计算图中的反向传播（General Computation Graph）：slides p.77
$\frac{\partial z}{\partial x}=\sum_{i=1}^n\frac{\partial z}{\partial y_i}\frac{\partial y_i}{\partial x}\tag{3.5}$
其中 ${y_1,y_2,...,y_n\}$ 是 $x$ 指向的所有节点。

notes

[notes]

神经网络中的常用技巧：notes p.8-18
- 参数初始化：这个其实还是有讲究的，参数初始值的确对模型优化可能产生显著影响，有兴趣可以扒扒PyTorch中的参数初始化源码，是有很多不同的初始化方式的。如果我记得没错的话，PyTorch中绝大多数层的参数初始化用的都是本节中提到的这种方式：
  $W\sim\text{Uniform}\left(-\sqrt{\frac{6}{n^{(l)}+n^{(l+1)}}},\sqrt{\frac{6}{n^{(l)}+n^{(l+1)}}}\right)\tag{3.7}$
  锐单商城拥有海量元器件数据手册、IC替代型号，打造电子元器件IC百科大全！

CS224N WINTER 2022（二）反向传播、神经网络、依存分析（附Assignment2答案）

文章目录

相关文章