1
第 1 章 緒論
1.1 研究動機與目的
隨著資訊爆炸時代的來臨,人們希望以更高的效率與效能取得資訊,其中自動摘要技術 與其後衍生的分類應用,是重要的關鍵技術之一。例如,Google [Google] 利用網頁片 段權充摘要、報章雜誌的標題目錄等,這些眾多且未經分析整理的資訊,經過擷取、分 析與整理後便成為高質量的資訊,給人們有效的閱讀與吸收。
本論文旨在探討自動摘要模型及分類器模型。摘要後的文件可視為一種特徵選取的 前處理,透過前處理可以將重要的資訊摘選出來並減少分類時的運算量,協助分類器做 更精確的分類。
1.2 自動摘要
自動摘要技術的目標是依據使用者的需求,將文件縮減濃縮成一或數句重要字句,好讓 人們更快速、更方便的得到所需資訊,其優點在於:
節省時間: 使用者不需瀏覽整篇文件即可瞭解文意
加速瀏覽: 在查詢結果中呈現摘要,可方便使用者快速決定所需資訊 協助分類: 摘要過的資訊,可做為分類器的分類依據
節省人力: 自動摘要的產生,不需透過人力介入 自動摘要可以分類如下 [Hovy and Marcu 1998]:
1. 根據形成方式可分類為摘錄式(Extractive)摘要與非摘錄式(Non-extractive or Abstract)摘要。摘錄式摘要是找出文件中重要的字句、段落或章節來組成摘要;
非摘錄式摘要則重寫字詞、片語來形成摘要。
2. 根據性質可分類為資訊性(Informative)摘要與指示性(Indicative)摘要。資訊性 摘要是從文件中找出所有重要的資訊,科技論文的摘要即為一例;而指示性則偏 向於提供文件分類上的資訊,例如圖書館內所用的分類卡。
3. 根據需求可分類為一般性(Generic)摘要與以需求為基礎(Query-based)摘要。
2
一般性摘要對文件內不同主題視為同等重要;以需求為基礎的摘要則傾向於顯示 使用者要求的部份。
4. 根據文件來源可分類為單一文件(Single Document)摘要與多文件(Multidocument)
摘要。單一文件摘要是從一篇文件中截取重要資訊;多文件摘要則歸納主題相近 的文件共同產生摘要,或指對同一主題但時間先後不同文件進行摘要。
5. 根據語言可分類為單一語言(Monolingual)摘要與多語言(Multilingual)摘要。
多語言摘要係從多種語言的文件中產生單一語言的摘要結果,其中牽涉到機器翻 譯的技術。
大多數常見的摘要模型原則上可依據其特性分為兩種比對策略。其一,以逐字比對
(Literal Term Matching)的方式評估字句與文件的相關性,愈高相關性的字句代表愈重 要,這其中以向量空間模型(Vector Space Model, VSM)為代表 [Gong and Liu 2001; 何 遠 2003];其二,以概念比對(Concept Matching)的方式評估,這其中以潛藏語意分析
(Latent Semantic Analysis, LSA)為代表 [Gong and Liu 2001; 葉鎮源 2002; 黃建霖 2004; Hirohata et al. 2005] 。
本論文針對的是摘錄式、資訊性、一般性、單一文件、單一語言摘要模型做研究,
並從逐字比對與概念比對兩個方向作探討,希望能發展出適合的自動摘要模型以供中文 自動摘要的產生。
1.3 研究成果
本論文於自動摘要方面,在逐字比對方式上應用隱藏式馬可夫模型(Hidden Markov Model, HMM)做為摘要模型,並分為 HMM-Type1 及 HMM-Type2 二種類型;在概念 比對上提出嵌入式潛藏語意分析(embedded LSA)與主題混合模型(Topical Mixture Model, TMM)做為摘要模型;在自動摘要評估上,提出以改良型字錯誤率(modified Character Error Rate, m-CER)為基礎的平均精確度(Mean Average Precision, MAP)評 估方式,以解決自動轉寫與人工轉寫文件因斷句不一致,所造成摘要結果無法評估相關 的問題。
3
經由實驗結果顯示,於摘要模型比較上:使用隱藏式馬可夫模型或主題混合模型其 結果較其它常見方法有顯著的提升,同時主題混合模型在幾乎所有情況下均較隱藏式馬 可夫模型來得佳;於特徵單位比較上:使用雙音節與雙字時,其結果優於使用詞為特徵 單位。
最後,我們也研究摘要模型中主題混合模型在文件分類的適用性,並且文件也能預 先經由上述摘要模型做前處理。初步實驗結果顯示,主題混合模型分類器較常見 K-最近 鄰(K-Nearest-Neighbor, KNN)分類器在分類的效果上有些微的提升。
1.4 章節安排
本篇論文的章節安排如下:
第二章簡介本論文的理論背景,包括向量空間模型、相關評估、潛藏語意分析、馬 可夫模型、隱藏式馬可夫模型、統計式語言模型與主題混合模型。
第三章介紹本論文所提出的摘要模型,包括嵌入式潛藏語意分析、隱藏式馬可夫模 型-型一、隱藏式馬可夫模型-型二、主題混合模型。
第四章說明本論文的實驗設定,並利用餘弦、ROUGE、平均精準度三種自動摘要 評估方法做實驗,對實驗結果做一分析。
第五章概述分類器模型與提出主題混合模型分類器,並介紹實驗語料。在實驗結果 上,比較主題混合模型分類器和常見 K-最近鄰分類器的實驗結果,並分析自動摘要是否 有助於分類器做更精準的分類。
第六章對本論文的主要成果做一總結,並提出結論與未來研究方向。