• 沒有找到結果。

第一節 自動化資訊摘要

隨著電腦科技的進步與數位資訊技術的蓬勃發展,網際網路的存在儼然成為 現代人生活中不可或缺的重要角色,並且帶動了人類文明往新的資訊紀元推進。

拜科技之賜,大量的數位資訊在網路流通,網際網路無形中成為一個儲存各種資 訊的大型倉儲;資訊的傳播不再完全藉由傳統平面媒體,人們漸漸地習慣在網路 上找尋所要的資料,資訊的取得變成非常容易的事情。

隨手可得的資訊相對地也衍生許多問題,其中最大的問題是面對如此龐大的 資訊時,人們無法快速且有效地得到真正符合自己需求的資料。究其原因,乃是 因為大量的資訊使得搜尋及分辨是否為相關資訊的困難度大幅提昇。為了解決上 述問題,人們需要藉助外在工具以便於在短時間內理解所取得資料中隱含的意 義,迅速且正確地判斷真正符合自身需求的資料。

前述常用的工具主要分為兩大類:(1)搜尋引擎(Search Engine),(2)自動資訊 摘要(Automated Information Summarization)。[Gong01]對於上述二種工具做了以 下詮釋:搜尋引擎所扮演的角色是『資訊過濾器(Information Filter)』,它的功能 是分析使用者所下的檢索條件(Query),並從資料倉儲中篩選出與檢索條件相關 的資料;自動資訊摘要則是扮演『資訊監察者(Information Spotter) 』的角色,它 的功能是將相關的資訊作統整,幫助使用者在最短時間內得知資訊內容的意義。

自動資訊摘要是由電腦自動地從原始資料中精練出最重要資訊的過程。根據 原始資料的性質,自動資訊摘要大致上可分為以下三種:

l 文件摘要(Text Summarization)— 原始資料為純文字;

l 多媒體摘要(Multimedia Summarization)— 原始資料為影音等多媒體;

l 複合性摘要(Hybrid Summarization)— 原始資料綜合了純文字與多媒體。

[Mani99]為文件摘要作了以下的定義:

文件摘要是從原始文件中精練出最重要資訊的過程;其結果為足以代表該 原始文件的精簡化版本,且可作為人們或其他資訊系統的判斷與決策依據。

Text summarization is the process of distilling the most important information from a source (or sources) to produce an abridged version for a particular user (or users) and task (or tasks).

圖 1 是文件摘要系統架構與流程圖,自動化文件摘要的過程可分為三個階 段:首先是「分析原始文件(Analyze the input text)」與「選取重要特徵(Select salient features)」;接著將分析的結果轉換為系統內部的摘要表示法(Transform the input text into a summary representation);最後是評估內部摘要表示法的重要性,並挑 選候選的表示法來合成摘要的輸出格式(Synthesis an appropriate output form)。

Audience Function Fluency Generic

User-focused Indicative Informative Evaluative

Fragments Connected-text

Analysis Transformation Synthesis

Documents

Summaries Compression

圖 1:文件摘要系統架構概觀 [Mani99]

整個過程中有幾項重要的因素需要考慮,如使用者對於摘要內容的需求、摘 要內容的形式、 摘要內容的流暢程度、可閱讀性以及文件摘要間的壓縮比 (Compression Ratio)等等,都會影響所產出摘要結果的好壞 [Mani99]。

文件摘要的壓縮比是評估文件摘要系統優劣的重要指標之一,所謂的壓縮比 係指摘要文件長度與原始文件長度的比例。壓縮比愈低的話,產出的文件摘要愈 精練,但相對地也遺漏了愈多原始文件的資訊。相反地,壓縮比愈高,產出的文 件摘要愈冗長,雖然包含的資訊愈多,但是相對地也包含愈多不重要的資訊。一 般而言,壓縮比約在 1%— 30%左右,便可以提供足夠的資訊給使用者作為決策 判斷的依據 [Habn00] [Kupiec95] [Mani99]。

文 件 摘 要 系 統 最 後 所 產 生 的 摘 要 , 可 能 是 經 過 自 然 語 言 處 理 (Natural Language Processing, NLP)所潤飾過的文字(Connected-text),也可能是原始文件的 摘錄(Extract)— 即直接由原始文件中節錄出足以提供該文件提及之事實或資訊的 文句與段落片段(Fragments)。

文件摘要依其原始文件數量的多寡,可分為單文件摘要(Singular Document Summarization) [Aone99] [Edmundson68] [Hovy99] [Gong01] [Kim00] [Kupiec95]

[Luhn59] [Myaeng99] [Salton97] [陳鈺瑾 00] 與多文件摘要(Multiple Documents Summarization) [黃聖傑 99] [翁鴻加 01] [蘇哲君 01]。單文件摘要把單篇文件的內 容精簡化與重點化,注重的是能否有效地刪減沒有必要的資訊,並留下真正能代 表文件內涵的資料;多文件摘要則是把多篇探討類似主題或事件的文件融合在一 起,除了刪減無用的資料外,尚需有效率地過濾重複在多篇文章中所出現的資訊。

根 據 文 件 摘 要 所 要 達 到 的 目 的 , 產 出 的 摘 要 結 果 可 分 為 指 示 性 摘 要 (Indicative Summary) [Aone99] [Edmundson68] [Gong01] [Kim00] [Kupiec95]

[Luhn59] [Myaeng99] [Salton97] [陳鈺瑾 00] [黃聖傑 99] [翁鴻加 01] [蘇哲君 01]、

資訊性摘要(Informative Summary) [Hovy99]與評論性摘要(Evaluative Summary) 三種。指示性摘要提供閱讀者足夠的資訊,使其能夠根據這些資訊判斷並決定是 否閱讀原始文件;資訊性摘要提供豐富的資訊內容,有時甚至可以取代原始文 件;評論性摘要以摘要形式對原始文件作評論,可提供閱讀者不同角度的論斷。

依照讀者需求的不同,文件摘要的結果可分為一般性摘要(Generic Summary) [Aone99] [Edmundson68] [Gong01] [Hovy99] [Kim00] [Kupiec95] [Luhn59]

[Myaeng99] [Salton97] [陳鈺瑾 00] [黃聖傑 99] [翁鴻加 01] [蘇哲君 01] 及特定使 用者導向(User-oriented Summary)的摘要等。前者針對較廣大的讀者群,摘要系 統所產生的摘要以寫作者的角度出發,期能提供一般性的摘要給所有讀者閱覽;

後者根據特定使用者的需求— 如使用者感興趣的主題或是使用者所下的檢索條 件— 所產生的專屬摘要。隨著資訊爆炸時代的來臨,如何針對使用者的特定需求 來產生摘要已經變得越來越重要。

由語言的角度來看 ,摘要可分為單語言摘要(Mono-lingual Summarization) [Aone99] [Edmundson68] [Gong01] [Hovy99] [Kim00] [Kupiec95] [Luhn59]

[Myaeng99] [Salton97] [黃 聖 傑 99] [翁鴻加 01] 與多語言摘要 (Multi- lingual Summarization) [陳鈺瑾 00] [蘇哲君 01]。多語言摘要係指原始文件包含多國語 言。這類研究,最大困難在於多國語言間字詞的用法、語句的表達方式及字義間 了解與轉換所造成的語意模糊和誤解,若沒有領域知識(Domain Knowledge)與人 工適時的介入,可能導致產出的摘要與原文件所要表達的意思南轅北轍。

第二節 研究動機

好的文件摘要必須滿足以下兩個條件:

l 文件摘要必須要在真正了解文件內容之後而產生;

l 文件摘要必須涵蓋原始文件所要表達的意涵;

為了滿足上述的兩個要求,我們認為較佳的文件摘要系統必須要能夠理解文 件的內容,並建構足以代表該原始文件意涵的知識模型,以便透過該知識模型來 生成最後的摘要結果。

過去文件摘要的技術主要都是著重於英文文件摘要方面的研究,有鑑於英文 文件與中文文件特性— 比如關鍵詞的斷詞、語句切割、特徵值計算方式等— 的不 同,如果要將英文文件摘要的方法套用到中文文件摘要上,勢必要有所修正。

本論文研究的動機便是希望針對中文文件與英文文件特性的不同,修改過去 文件摘要的技術應用於中文文件上,並提出一套知識模型來表達原始文件的意 義,最後我們將以該知識模型為基礎提出一個文件摘要的演算法,並將其應用於 中文文件。

第三節 研究目的

綜合上述的說明,本論文主要的研究在於單文件的自動摘要產生,且所著重 的 是 如 何 產 生 具 指 示 性 、 一 般 性 與 單 文 件 的 摘 錄 (Indicative and generic single-document extract)。

本研究擬達到以下三個目標:首先,將英文文件摘要的技術移植到中文文件 摘要上;第二,採用潛在語意分析(Latent Semantic Analysis)來建構文件中內隱的 知識模型,並以此知識模型做為摘要生成的表示法;最後,針對上述兩個目標設 計適當的實驗,以比較過去文件摘要技術與本論文所提出方法間的差異性,並討 論潛在語意分析(Latent Semantic Analysis)模型應用在文件摘要上的可能性。

第四節 論文架構

本論文共分為六章,第二章介紹自動化文件摘要的相關研究工作;第三章及 第四章分別描述我們提出的兩種自動摘要方法:(1)以文件集為基礎的改良型摘 要技術(Modified Corpus-based Approach),(2)以潛在語意分析(Latent Semantic Analysis)為知識模型的摘要技術(Proposed LSA-based Approach)。第五章說明系統 實作與實驗結果的分析討論,藉以驗證本論文所提研究方法的可行性。最後,第 六章是結論與未來可行的研究方向。