階層式類神經摘要模型實驗 - 實驗結果 - 實驗設置與結果 - 應用階層式語意暨聲學特徵表示於語音文件摘要之研究

4. 實驗設置與結果

4.2. 實驗結果

4.2.2. 階層式類神經摘要模型實驗

在實驗結果分析中，我們主要依第三章介紹模型時中提到的副架構分開實驗，以下會列出不同實驗設置的效果，以及結果討論與分析。

A. 次詞向量

首先，我們先從模型的輸入比較詞向量和字向量的效果，結果列於表 4.4，可以看出單獨使用詞向量的結果在語音文件上的效果反而比單獨使用字向量的時候優異，但在文字文件上反而相反，這樣的結果與我們的假設有些許出入，可能是因為訓練文件中錯誤的字比較集中，因而無法透過周圍的資訊來學習正確的詞彙資訊；此外，若使用融合向量於我們的模型中，在語音文件的結果上可以有很明顯的進步，但在文字文件上僅於 ROUGE-2 有進步，因而我們認為字向量和詞向量之間可能仍有相輔相成的作用。

表 4.4 階層式類神經摘要模型-次詞向量

文字文件語音文件

ROUGE-1 ROUGE-2 ROUGE-L ROUGE-1 ROUGE-2 ROUGE-L

Refresh [Narayan et al., 2018a] 0.453 0.372 0.446 0.329 0.197 0.319

詞向量 0.526 0.473 0.520 0.380 0.262 0.370

字向量 0.544 0.473 0.535 0.363 0.242 0.351

融合向量(詞+字) 0.543 0.481 0.533 0.392 0.266 0.380

B. 強化學習

承上所述，我們認為融合向量於語音摘要上有相當大的可能性，因此我們嘗試同時使用融合向量和強化學習於模型上，從表 4.5 中可以很明顯的看到強化學習於我們的方法中有一定的成效在，不過在文字文件摘要上有比較多的進步，主因可能是在於參考摘要不包含語音辨識錯誤，因此沒有辦法完全解決語音辨識錯誤的影響，若能將聲學特徵亦加入強化學習的獎勵函數中或許能改進此情況。

表 4.5 階層式類神經摘要模型-強化學習

文字文件語音文件

ROUGE-1 ROUGE-2 ROUGE-L ROUGE-1 ROUGE-2 ROUGE-L

Refresh [Narayan et al., 2018a] 0.453 0.372 0.446 0.329 0.197 0.319

融合向量 0.543 0.481 0.533 0.392 0.266 0.380

融合向量+強化學習 0.555 0.479 0.543 0.395 0.269 0.379

C. 聲學特徵+強化學習

經過前面兩項實驗比較，我們可以發現融合向量可以解決部分的語音辨識錯誤影響，而強化學習則比較專注於摘要資訊性。因此我們嘗試於模型上結合聲學特徵和強化學習，從表 4.6 中，我們可以發現在語音文件上，效果比較顯著的是使用

局部向量的方式結合聲學特徵；然而在文字文件摘要中，比較好的結果是使用全域向量。因此我們可以推論出聲學特徵對於人類轉寫的文字文件效用不彰，而對於自動辨識的語音文件上，仍有不錯的成效，但可能需要讓聲學特徵直接參與摘要選取的階段才能有效的提升效能。然而，整體的數據上仍是比前面的實驗差了許多，可能是模型上還需作更多細部的調整，或結合其他機制。

表 4.6 階層式類神經摘要模型-聲學特徵+強化學習

文字文件語音文件

ROUGE-1 ROUGE-2 ROUGE-L ROUGE-1 ROUGE-2 ROUGE-L

Refresh [Narayan et al., 2018a] 0.453 0.372 0.446 0.329 0.197 0.319

無聲學特徵 0.479 0.400 0.469 0.352 0.226 0.342

全域向量 0.486 0.400 0.473 0.350 0.222 0.336

局部向量 0.478 0.399 0.469 0.384 0.264 0.370

全域向量+局部向量 0.464 0.373 0.453 0.350 0.224 0.336

選擇向量 0.448 0.371 0.439 0.350 0.213 0.334

表 4.7 階層式類神經摘要模型-次詞向量+注意力機制

文字文件語音文件

ROUGE-1 ROUGE-2 ROUGE-L ROUGE-1 ROUGE-2 ROUGE-L

Refresh [Narayan et al., 2018a] 0.453 0.372 0.446 0.329 0.197 0.319

詞向量+注意力機制 0.523 0.472 0.519 0.401 0.290 0.392

字向量+注意力機制 0.535 0.477 0.529 0.368 0.245 0.356

融合向量+注意力機制 0.567 0.496 0.557 0.402 0.278 0.389

D. 次詞向量+注意力機制

因前一個實驗結果發現聲學特徵和強化學習共同訓練時效果相對較差，因此我們這次比較結合次詞向量和注意力機制的實驗結果。從表 4.7 中可以發現同時使用融合向量和注意力機制的效果在文字文件上較為優異，而在語音文件上仍是以詞向量的結果比較好。雖然整體的效果皆比之前的結果好，但可能是因為注意力機制訓練的主要是文件中語句之間的關聯性，而對於語音文件而言，若辨識錯誤的太多，比較難找到語句間的語意關聯性，因而導致結果相對較差。

表 4.8 階層式類神經摘要模型-次詞向量+注意力機制+強化學習

文字文件語音文件

ROUGE-1 ROUGE-2 ROUGE-L ROUGE-1 ROUGE-2 ROUGE-L

Refresh [Narayan et al., 2018a] 0.453 0.372 0.446 0.329 0.197 0.319

詞向量+注意力機制+強化學

習

0.543 0.491 0.539 0.350 0.226 0.337

字向量+注意力機制+強化學

習

0.525 0.451 0.515 0.342 0.221 0.329

融合向量+注意力機制+強化

學習

0.518 0.448 0.502 0.347 0.209 0.337

E. 次詞向量+注意力機制+強化學習

接續前一個實驗，我們加入強化學習機制於訓練中，實驗結果如表 4.8 所示。從結果可以發現，不管是文字文件還是語音文件，加入強化學習機制後，皆是在輸入為詞向量時會得到較好的效果。而有可能是因為我們的強化學習中獎勵函數使用 ROUGE，而 ROUGE 計算時主要是以詞為基本單位，因而導致在其他情況下結果相對較差。

F. 綜合比較

最後，我們將前述提到之架構做一個綜合比較，實驗結果如表 4.9 所示。其中我們可以發現當強化學習機制和注意力機制同時使用的情況下，不管是在文字文件還是語音文件上效果都相對較差。此種情況有可能是因為我們的注意力機制主要針對的是摘要資訊性提升，而強化學習中由於使用 ROUGE 分數作為獎勵函數，

而ROUGE 也是計算摘要資訊性，因此當兩者同時訓練時，雖然都是針對資訊性，

但可能因為太過注重而造成反效果。

其次，我們也嘗試結合注意力機制和聲學特徵的應用，如表 4.9 的最後兩列，

由於前面的討論中發現使用局部向量方式結合聲學特徵在語音文件上會有較佳的效果，因此此部分實驗亦採用局部向量。實驗結果顯示加入聲學特徵在文字文件摘要上有些許的提升，但於語音文件摘要中沒有太大的影響。而這情況可能是因為聲學特徵在此部分的實驗上不是訓練的重點，因此沒有顯著的提升。

表 4.9 階層式類神經摘要模型-綜合比較

文字文件語音文件

ROUGE-1 ROUGE-2 ROUGE-L ROUGE-1 ROUGE-2 ROUGE-L

Refresh [Narayan et al., 2018a] 0.453 0.372 0.446 0.329 0.197 0.319

融合向量+注意力機制+強化

學習

0.518 0.448 0.502 0.347 0.209 0.337

融合向量+注意力機制 0.567 0.496 0.557 0.402 0.278 0.389

融合向量+注意力機制+聲學

特徵+強化學習

0.532 0.455 0.521 0.336 0.220 0.326

融合向量+注意力機制+聲學

特徵

0.569 0.507 0.561 0.401 0.288 0.394

G. 視覺化注意力

另外，我們亦針對注意力機制中的權重進行分析（圖 4.1），圖中每個列和行代表代表文件中的語句，每個列的語句標號旁括弧內的數值為 𝑝(𝐲₊ = 1|𝑠₊, 𝐷, 𝜃) ，即該句被辨識為摘要的機率。若該列中每欄的顏色越深，則代表該句和其他句的關聯性越大，則該句也被視為摘要，其中被紅框圈起的列為參考摘要。從紅框的部分看可以很明顯的發現，我們的摘要系統選出的摘要大部分和參考摘要相同，因此可驗證我們的注意力機制於摘要任務上真的有一定的成效。

圖 4.1 注意力機制權重視覺化

簡單總結整體實驗結果，本論文提出之模型架構確實可有效提升語音文件摘要的成效，然而對於避免語音辨識錯誤的影響上，次詞向量和聲學特徵的效果仍有待加強；而注意力機制和強化學習等方法對於文字文件的效果仍比較顯著。因此若要實質性地提升語音文件摘要的成效，我們認為仍須從語音辨識的部分著手，

若能不經過轉寫直接擷取摘要，或許更符合語音文件摘要，亦能有較優異的成效。

在文檔中應用階層式語意暨聲學特徵表示於語音文件摘要之研究 (頁 51-57)