Examples from: “The Mathematics of Statistical Machine Translation: Parameter Estimation", Brown et al, 1993. http://www.aclweb.org/anthology/J93-2003

对齐是翻译句子中特定词语之间的对应关系
- 注意：有些词没有对应词

1.10 对齐是复杂的

有些词很丰富
对齐可以是多对多(短语级)
我们学习很多因素的组合，包括
- 特定单词对齐的概率(也取决于发送位置)
- 特定单词具有特定多词对应的概率(对应单词的数量)

1.11 SMT的学习对齐

问题：如何计算argmax

我们可以列举所有可能的 $y$ 并计算概率？→ 计算成本太高

回答：使用启发式搜索算法搜索最佳翻译，丢弃概率过低的假设
- 这个过程称为解码

1.12 SMT解码

Source: ”Statistical Machine Translation", Chapter 6, Koehn, 2009. https://www.cambridge.org/core/books/statistical-machine-translation/94EADF9F680558E13BE759997553CDE5

1.14 1990s-2010s：统计机器翻译

SMT是一个巨大的研究领域
最好的系统非常复杂
- 数以百计的重要细节我们还没有提到
- 系统有许多独立设计子组件工程
- 大量特征工程
  - 很多功能需要设计特性来获取特定的语言现象
- 需要编译和维护额外的资源
  - 比如双语短语对应表
- 需要大量的人力来维护
  - 对于每一对语言都需要重复操作

2.神经网络机器翻译

2.1 Neural Machine Translation

2.3 神经机器翻译(NMT)

神经机器翻译(NMT)是利用单个神经网络进行机器翻译的一种方法
神经网络架构称为 sequence-to-sequence (又名seq2seq)，它包含两个RNNs

2.4 神经机器翻译(NMT)

编码器RNN生成源语句的编码
源语句的编码为解码器RNN提供初始隐藏状态
解码器RNN是一种以编码为条件生成目标句的语言模型
注意：此图显示了测试时行为 → 解码器输出作为下一步的输入

2.5 Sequence-to-sequence是多功能的！

序列到序列不仅仅对机器翻译有用
许多NLP任务可以按照顺序进行表达
- 摘要(长文本 → 短文本)
- 对话(前一句话 → 下一句话)
- 解析(输入文本 → 输出解析为序列)
- 代码生成(自然语言 → Python代码)

2.6 神经机器翻译(NMT)

sequence-to-sequence 模型是条件语言模型的一个例子
- 语言模型(Language Model)，因为解码器正在预测目标句的下一个单词 $y$
- 条件约束的(Conditional)，因为预测也取决于源句 $x$
NMT直接计算 $\mid x)$

$x)=P\left(y_{1} | x\right) P\left(y_{2} | y_{1}, x\right) P\left(y_{3} | y_{1}, y_{2}, x\right) \ldots P\left(y_{T} | y_{1}, \ldots, y_{T-1}, x\right)$

上式中最后一项为，给定到目前为止的目标词和源句 $x$ ，下一个目标词的概率
问题：如何训练NMT系统？
回答：找一个大的平行语料库

3.机器翻译解码

3.1 贪婪解码

我们了解了如何生成(或“解码”)目标句，通过对解码器的每个步骤使用 argmax
这是贪婪解码(每一步都取最可能的单词)
这种方法有问题吗？

3.3 穷举搜索解码

理想情况下，我们想要找到一个(长度为 $T$ )的翻译 $y$ 使其最大化
我们可以尝试计算所有可能的序列 $y$
- 这意味着在解码器的每一步 $t$ ，我们跟踪 $V^t$ 个可能的部分翻译，其中 $V$ 是 vocab 大小
- 这种 $O(V^T)$ 的复杂性太昂贵了！

3.4 集束搜索解码

核心思想：在解码器的每一步，跟踪 $k$ 个最可能的部分翻译(我们称之为假设[hypotheses ] )
- $k$ 是Beam的大小(实际中大约是5到10)
假设 $y_1, \ldots,y_t$ 有一个分数，即它的对数概率

$\operatorname{score}\left(y_{1}, \ldots, y_{t}\right)=\log P_{\mathrm{LM}}\left(y_{1}, \ldots, y_{t} | x\right)=\sum_{i=1}^{t} \log P_{\operatorname{LM}}\left(y_{i} | y_{1}, \ldots, y_{i-1}, x\right)$

分数都是负数，分数越高越好
我们寻找得分较高的假设，跟踪每一步的 top k 个部分翻译
波束搜索 不一定能 找到最优解
但比穷举搜索效率高得多

3.5 集束搜索解码：示例

Beam size = k = 2
蓝色的数字是

$\operatorname{score}\left(y_{1}, \ldots, y_{t}\right)=\sum_{i=1}^{t} \log P_{\operatorname{LM}}\left(y_{i} | y_{1}, \ldots, y_{i-1}, x\right)$

计算下一个单词的概率分布
取前 $k$ 个单词并计算分数
- 对于每一次的 $k$ 个假设，找出最前面的 $k$ 个单词并计算分数
- 在 $k^2$ 的假设中，保留 $k$ 个最高的分值
  - $t = 2$ 时，保留分数最高的 hit 和 was
  - $t = 3$ 时，保留分数最高的 a 和 me
  - $t = 4$ 时，保留分数最高的 pie 和 with
  - $t = 5$ 时，保留分数最高的 a 和 one
  - $t = 6$ 时，保留分数最高的 pie
这是最高得分的假设
回溯以获得完整的假设

3.6 集束搜索解码：停止判据

在贪心解码中，我们通常解码到模型产生一个令牌
- 例如： he hit me with a pie
在集束搜索解码中，不同的假设可能在不同的时间步长上产生令牌
- 当一个假设生成了令牌，该假设完成
- 把它放在一边，通过 Beam Search 继续探索其他假设
通常我们继续进行 Beam Search ，直到
- 我们到达时间步长 $T$ (其中 $T$ 是预定义截止点)
- 我们至少有 $n$ 个已完成的假设(其中 $n$ 是预定义截止点)

3.7 集束搜索解码：完成

我们有完整的假设列表

如何选择得分最高的？

我们清单上的每个假设 $y_1, \ldots ,y_t$ 、IC替代型号，打造电子元器件IC百科大全！

斯坦福NLP名课带学详解 | CS224n 第8讲 - 机器翻译、seq2seq与注意力机制（NLP通关指南·完结）

相关文章