Models and Attention
本文介紹了 Seq2Seq 模型以及如何使用 Beam Search 的方法來找出最可能的句子,並介紹了如何使用 Length Normalization 來優化 Beam Search。此外,本文也介紹了 Attention Model,它可以改善 Seq2Seq 模型在處理長度較大句子時的記憶力不足,並且可以用在 Machine Translation、Speech Recognition 以及 Trigger Word Detection 等任務上。Attention Model 能夠讓網路像人類一樣去處理句子,在翻譯每一個單字時,注意到正確的原單字。
NLP and Word Embeddings
本文討論了 NLP 中的 Word Embedding 技術,是一種改良了 one-hot vector 的字詞表示法,將單詞投影到一個高維度空間中的表示方法,讓 model 可以表達出各個字詞之間的關聯性。Word Embeddings 可以使用於 Transfer Learning 來擴大 model 的能力,以及可以執行 Analogy Reasoning 來尋找字詞之間的類似關係。
Recurrent Neural Networks
這個章節會探討了 Recurrent Neural Networks (RNNs) 的概念,介紹了如何使用標示 (notation) 來標記出輸入及輸出,以及如何建立一個字典來對應每個單字。接著會討論使用 RNNs 進行 forward propagation 與 backpropagation through time 的概念。此外,還會介紹 RNN 的 GRU 和 LSTM 模型,以及使用 peephole connection 來擴展 LSTM。還有 BRNN 解決單方向 RNN 無法處理一些問題的問題,和有多個 hidden layers 的 DRNN 可以更有效率的處理 sequence data。
RNN Models
本文主要介紹 Gated Recurrent Unit (GRU) 和 Long Short Term Memory (LSTM) 這兩種 Recurrent Neural Network (RNN) 模型的架構及其原理。GRU 將 basic RNN 的結構加上一個 memory cell 來解決 vanishing gradients 的問題,而 LSTM 則是改進 GRU,將 basic RNN 的結構更進一步加上三個 gates 來解決 vanishing gradients 和 long-term dependency 的問題。此外,也介紹了 Bidirectional RNN (BRNN) 和 Deep RNNs (DRNN),BRNN 能夠雙向處理句子,而 DRNN 則是將 RNN 的 hidden layers 數目增加。
Sequence Models
Sequence data 指的是一連串的 data,例如輸入 input 一連串聲音 output 成文字(語音識別),我們要利用 Recurrent Neural Network (循環神經網路) 來建立出 sequence model。
Sequence Models
在 Sequence Models 中,我們將會學習如何建立 Natural Language、Audio 或其他 Sequence Data 的模型。由於有 Deep Learning,Sequence Algorithms 才能夠快速進步,其中的專案包括:Speech Recognition、Music Synthesis、Chatbots、Machine Translation、Natural Language Understanding 等等。