【李宏毅2020 ML/DL】P53-55 Conditional Generation by RNN & Attention & Pointer Network& Recursive

本文主要是介绍【李宏毅2020 ML/DL】P53-55 Conditional Generation by RNN & Attention & Pointer Network& Recursive，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

我已经有两年 ML 经历，这系列课主要用来查缺补漏，会记录一些细节的、自己不知道的东西。

已经有人记了笔记（很用心，强烈推荐）：https://github.com/Sakura-gh/ML-notes

本节内容综述

本节内容将介绍：Generation，Attention，Tips for Generation，Pointer Network。
第一步是 Generation ，具体来讲，是如何产生一个 structured object 。提到了 Seq 2 seq。
接下来的部分是 Attention 。提及了图片生成句子等有趣技术。
课程过半，进入 Tips for Generation 部分。提到了许多新技术，或者说容易遇到的问题、偏差，并由此介绍了相应的解决方案。
接下是 Pointer Network。Pointer Network可以有效利用输入中的人名地名等等。
最后穿插一点内容，RNN的变体，Recursive Network。

文章目录

本节内容综述
小细节
- - Generation
  - - Conditional Generation
  - Attention
  - - Speech Recognition
    - Image Caption Generation
    - Memory Network
    - Neural Turing Machine
  - Tips for Generation
  - - Good & Bad Attention
    - Mismatch between Train and Test
    - - Modifying Training Process?
      - Scheduled Sampling
    - Beam Search
    - Object level v.s. Component level
  - Pointer Network
  - - Applications - Summarization
    - Applications - Machine Translation
  - Recursive Network
  - - Application: Sentiment Analysis
    - Recursive Model
    - Recursive Neural Tensor Network
    - Experiment
    - Matrix-Vector Recursive Network
    - Tree LSTM
    - More Application

小细节

Generation

如上，我们如何让机器产生一段句子呢？这个我们已经清楚了。使用 RNN 把 word 或者说 character 一个一个产生出来。

此外，如上，还可以把图形拆分成像素，使用 RNN 生成。

但是，如上，我们应该让就近的像素对生成的像素进行影响，而非按行来。可以进行 filter + 3维记忆空间的方法。

Conditional Generation

但是，使用RNN存在一些问题，如上图，我们希望根据不同情况给出信息。

如上，一般来讲，RNN产生的话是随机的。我们可以对图片进行处理，比如用CNN获得一个向量，然后输入RNN中。可以在每个时间点都把图片输入，防止机器“忘记”自己在说什么。

对于机器翻译，同理。如上，先在Encoder中，对句子的每个成分按照时间点挨个输入。这样最后得到的向量，就包含了句子的全部信息。将这个输入到Decoder，就可以得到翻译。

这就是 Seq2seq 。

此外，在聊天机器人中，我们需要让之前的信息也输入到模型中，防止说重复的内容。

Attention

如上，我们将 z 0 z^0 z0 与各个 h h h 进行 match 函数计算，得到各个 h h h 对应的 α \alpha α 。这个 match 函数中的参数也是训练出来。

之后，经过一个 softmax ，然后求和得到 c c c ，此时， c c c 就是Decoder input 。此外，可以得到心得 z z z 。

之后继续进行该内容。

Speech Recognition

如上，颜色深度代表 match score 。

Image Caption Generation

如上，可以把每个区域的向量与$z_0$进行运算得到，之后，进行 weighted sum，再交给 Decoder ，以此得到输出。

如上，在产生划线词汇是，其Attention也是集中在图片的相应位置的。

此外，还有些失败的地方，我们可以通过 Attention 进行分析，为什么出错了。

此外，机器还可以看视频说话。如上。

“我们的作业二就是做这个。”很有趣。

Memory Network

如上，也可以进行利用注意力做问答。

此外，Memory Network 也有更复杂的版本。

如上，有两组vector分别为 x x x与 h h h来表示Document， q q q与 x x x做match得到 α \alpha α，但是Extracted Information时，使用 h h h与 α \alpha α进行结合。