探討混合不同摘要模型的方法 3

(1)

60

第 6 章結論與展望

6.1 結論

本論文於自動摘要方面，在逐字比對方式上應用隱藏式馬可夫模型（Hidden Markov Model, HMM）做為摘要模型，並分為 HMM-Type1 及 HMM-Type2 二種類型；在概念比對上提出嵌入式潛藏語意分析（embedded LSA）與主題混合模型（Topical Mixture Model, TMM）做為摘要模型；在自動摘要評估上，提出以改良型字錯誤率（modified Character Error Rate, m-CER）為基礎的平均精確度

（Mean Average Precision, MAP）評估方式，以解決自動轉寫與人工轉寫文件因斷句不一致，所造成摘要結果無法評估相關的問題。

經由實驗結果顯示，於特徵單位比較上：使用雙音節與雙字時，其結果優於使用詞為特徵單位；於摘要模型比較上：使用隱藏式馬可夫模型或主題混合模型其結果較其它常見方法有顯著的提升，同時主題混合模型在幾乎所有情況下均較隱藏式馬可夫模型來得佳。

此外對於隱藏式馬可夫模型-型一使用字句擴展能有效增進摘要正確率；對於隱藏式馬可夫模型-型二與主題混合模型中做字句移除，在人工轉寫文件上均有效提升摘要結果，然而在自動轉寫上，因辨識錯誤及斷句不同，抵銷了其結果，

但是可以發現在辨識率上升時，其結果有所提升。

另一方面，在主題混合模型的初始化使用均勻分佈，在低摘要比例下有較佳的結果。

最後本論文提出主題混合模型分類器，初步實驗結果顯示，主題混合模型分 類器較常見 K-最近鄰（K-Nearest-Neighbor, KNN）分類器在 MicroF 與 MacroF 分類結果上，有些微的提升；然經過自動摘要前處理後，此二者的分類結果均略顯降低，進一步的來說，自動摘要雖然提升了自動分類文件的效率，卻因損失一些分類資訊，使分類的結果降低。

(2)

61

6.2 未來展望

在摘要模型上：

1. 依據文件屬性，動態結合屬性資訊（如新聞開頭、結論段落為重要字句）

2. 探討混合不同摘要模型的方法

3. 結合更多自然語言方面的資訊，如詞性（Power of Speech, POS）

4. 結合語音聲學上特性，如：音高、能量等

5. 結合分類資訊進行摘要，使自動摘要能具體幫助分類器做分類在分類器上：

1. 對主題混合模型，進行特徵抽取，以選取具有代表性的字詞 2. 探探與其它分類器結合的可能性

自動摘要技術，在資訊爆炸時代裡愈顯重要，在與其它相關科技結合後，如語音辨識，我們可能擁有手機留言自動摘要服務、一台能自動摘要廣播新聞的數位收音機等，這些都將可能於未來逐步實現。