TW511教學網
全部教學
技術文章
技術文章
»
第三週:序列模型和注意力機制 機製
第三週:序列模型和注意力機制 機製
2020-08-12 18:42:41
第三週:序列模型和注意力機制 機製
3.1 基礎模型
Sequence to sequence model
Image Captioning
3.2 選擇最可能的句子
語言模型和機器翻譯的比較:
3.3 束搜尋(Beam Search)
例子:
3.4 改進Beam Search
Length Normalization
怎麼選擇Beam width B?
3.5 束搜尋的誤差分析
例子
解決方法:
Case 1:
P
(
y
∗
∣
x
)
>
P
(
y
^
∣
x
)
\mathbb{P}(y^*|x)>\mathbb{P}(\hat{y}|x)
P
(
y
∗
∣
x
)
>
P
(
y
^
∣
x
)
Case 1:
P
(
y
∗
∣
x
)
<
P
(
y
^
∣
x
)
\mathbb{P}(y^*|x)<\mathbb{P}(\hat{y}|x)
P
(
y
∗
∣
x
)
<
P
(
y
^
∣
x
)
具體操作:
3.6 Bleu得分(Bilingual Evaluation Understudy)
例子:
一般的公式:
Combined Bleu score 和 BP Penalty
3.7 注意力模型(直觀理解)
例子
3.8 注意力模型(細節)
計算注意力權重
α
t
,
t
′
\alpha^{t,t'}
α
t
,
t
′
3.9 語音辨識
方法一:注意力模型
CTC cost
3.10 觸發字元(Trigger words)
Trigger word detection algorithm
3.11 結論與致謝
第三週測試重點:
課程中的論文
Sequence to sequence model
Image Captioning
Bleu Score
Attention Model
CTC
本文是
序列模型
的筆記
3.1 基礎模型
Sequence to sequence model
以法語翻譯成爲中文爲例:(encoder-decoder)
Image Captioning
CNN(AlexNet)+decoder
3.2 選擇最可能的句子
語言模型和機器翻譯的比較:
Rq:
我們注意到語言模型和機器翻譯具有很大的相似性,實際上機器翻譯就是把一開始隨機化的向量
a
<
0
>
a^{<0>}
a
<
0
>
改成了一個有Encoder模型得到的向量。