4.3 運用表示法學習於語音文件摘要
4.3.3 實驗結果
我們利用目前兩種最先進的詞表示法(Word Representation):連續型詞袋模型
(CBOW)、跳躍式模型(SG)與最先進的兩種語句表示法(Sentence Representation):
分散式儲存模型(PV-DM)、分散式詞袋模型(PV-DBOW)之技術,共進行三組實驗,
分別結合於餘弦相似度(Cosine Similarity)、馬可夫隨機漫步(MRW)以及文件相似 度量值(DLM)的方法作為挑選摘要語句之方式。
文字文件(TD) 語音文件(SD)
方法 ROUGE-1 ROUGE-2 ROUGE-L ROUGE-1 ROUGE-2 ROUGE-L
CBOW 0.402 0.280 0.349 0.377 0.228 0.327
SG 0.401 0.265 0.347 0.361 0.214 0.312
表 4.1 詞表示法結合於餘弦相似度之摘要結果
首先,我們將詞表示法結合於餘弦相似度(Cosine Similarity)作為選取摘要語 句的方法,其結果示於表 4.1。從實驗結果中觀察到,由於這兩種詞表示法各有 著不同的模型結構與學習方式,因此在文字文件(TD)或是語音文件(SD)中,該兩 種模型的摘要成效有稍微的差異。根據 TD 的結果顯示,CBOW 的摘要效能較 SG 佳,在 SD 中仍保持相同的情況。儘管該兩種詞表示法皆優於向量空間模型(VSM)
與潛藏語意分析(LSA),卻僅達到詞權重-逆向文件頻率(TW-IDF)差不多的水平,
而且在 SD 的情況下的表現 SG 不及單連語言模型(ULM)(表 3.2)。
文字文件(TD) 語音文件(SD)
方法 ROUGE-1 ROUGE-2 ROUGE-L ROUGE-1 ROUGE-2 ROUGE-L
PV-DM 0.429 0.313 0.382 0.387 0.236 0.335
PV-DBOW 0.398 0.277 0.348 0.368 0.227 0.329
表 4.2 語句表示法結合於餘弦相似度之摘要結果
同樣地,我們將語句表示法結合於餘弦相似度作為選取摘要語句的方法,其 結果示於表 4.2。在 TD 的結果中,PV-DM 與 PV-DBOW 該兩種語句表示法的摘 要效果分別超越 CBOW 及 SG 詞表示法模型(表 4.1)。PV-DM 摘要成效較傳統的 馬可夫隨機漫步(MRW)佳,但較 BM25 差。而在 SD 的結果中,兩種語句表示法 的摘要成效比起詞表示法沒有太大的進步。我們認為語句表示法搭配餘弦相似度 選取語句的方式亦受語音辨識的影響。
文字文件(TD) 語音文件(SD)
方法 ROUGE-1 ROUGE-2 ROUGE-L ROUGE-1 ROUGE-2 ROUGE-L
CBOW 0.436 0.310 0.384 0.393 0.246 0.346
SG 0.416 0.283 0.351 0.372 0.233 0.325
表 4.3 詞表示法結合於馬可夫隨機漫步之摘要結果
在第二組實驗中,我們將詞表示法結合馬可夫隨機漫步(MRW)以對語句進行 選取,結果示於表 4.3。從結果中可以觀察到,無論在 TD 或是 SD 上,相較於同
樣以詞表示法的技術結合餘弦相似度的方法,使用該方法挑選語句的摘要成效皆 優於以餘弦相似度的方式。在 TD 實驗中,CBOW 摘要效能較 BM25 差,而 SG 未達到 MRW 的水平。在 SD 實驗中,仍然以 BM25 的摘要效果為佳。
文字文件(TD) 語音文件(SD)
方法 ROUGE-1 ROUGE-2 ROUGE-L ROUGE-1 ROUGE-2 ROUGE-L PV-DM 0.446 0.343 0.400 0.395 0.253 0.347
PV-DBOW 0.451 0.336 0.398 0.387 0.243 0.337
表 4.4 語句表示法結合於馬可夫隨機漫步之摘要結果
同樣地,我們以語句表示法結合馬可夫隨機漫步(MRW)對語句進行選取,結 果示於表 4.4。從結果中發現到,無論在 TD 或是 SD 上,該方法的摘要成效,顯 著地優越以詞、語句表示法結合於餘弦相似度(表 4.1、4.2)之選取摘要語句方法,
亦超越以詞表示法結合於馬可夫隨機漫步的方式(表 4.3)。在 TD 實驗中,儘管該 兩種詞表示法的摘要成效較 BM25 佳,但皆不及關聯模型(RM)。然而於 SD 實驗 中,PV-DM 的摘要成效超越所有的傳統模型(表 3.2)。
文字文件(TD) 語音文件(SD)
方法 ROUGE-1 ROUGE-2 ROUGE-L ROUGE-1 ROUGE-2 ROUGE-L
CBOW 0.444 0.329 0.386 0.372 0.221 0.314
SG 0.436 0.323 0.385 0.343 0.197 0.295
表 4.5 詞表示法結合於文件相似度量值之摘要結果
最後一組實驗,我們探討以詞表示法結合於文件相似度量值(DLM)對語句進 行選取,結果示於表 4.5。我們將結果與同樣以詞表示法結合餘弦相似度(表 4.1)、
馬可夫隨機漫步的方法(表 4.3)進行比較。從 TD 實驗結果中可以觀察到,文件相 似度量值充分地運用詞表示法於文件摘要,表現顯然較佳。我們亦注意到 SG 的 摘要成效幾乎接近 CBOW。然而於 TD 與 SD 的實驗中,該兩種詞表示法皆仍不 及 RM 的摘要成效。
文字文件(TD) 語音文件(SD)
方法 ROUGE-1 ROUGE-2 ROUGE-L ROUGE-1 ROUGE-2 ROUGE-L PV-DM 0.480 0.375 0.430 0.384 0.240 0.333
PV-DBOW 0.433 0.323 0.384 0.364 0.236 0.321
表 4.6 語句表示法結合於文件相似度量值之摘要結果
同樣地,我們以語句表示法於文件相似度量值對語句進行選取,結果示於表
4.6。從 TD 的實驗結果中可以觀察到,PV-DM 的摘要效能顯著地優於表 3.2 中所 有的 傳統模型,亦 是所有表示法中 具最佳摘要效能之模型 。 我們亦觀察到 PV-DBOW 與表 4.5 中的詞表示法 SG 有著相同的摘要成效。然而於 SD 中,該兩 種語句表示法僅達到 RM 的水平但皆仍不及 BM25。
第 5 章 利用主要特徵結合支持向量機於文件摘要