• 沒有找到結果。

淺層摘要研究取向(Shallower Approaches)

Shallower Approaches Deeper Approaches

第二節 淺層摘要研究取向(Shallower Approaches)

淺層摘要的研究取向(Shallower Approaches)乃是依據某種淺顯易懂的實體特徵作為 分析之依據。所謂的淺顯易懂的實體特徵(Shallow Physical Features) 可以是線索字(Cue Words)、關鍵詞(Keyword)、主題特徵(Thematic Features)、背景特徵(Background Fea- tures)、語句位於文件中的位置(Location)或是提示片語(Cue Phrases)等等。之後,藉由某 種有效的演算法來權衡語句之相對重要性,以選出具關鍵性的語句(Sentence Extraction)

,然後再利用剪貼(Cut-And-Paste)的技巧,將語句重新予以排列,進而組成摘錄(Extracts) 後輸出(如圖 10所示) [6][8][12][14][15][18][19]。

圖 10:淺層摘要的研究取向(Shallower Approaches)之架構

茲將此類作法的執行機制圖解如下(如圖 11所示): [19][27]

分 析

重要特徵 擷取處理 1

重要特徵 擷取處理N 擷取處理 2

重要特徵

文件摘要 原始文件

轉 換

(選 取)

(權重值公式) 加權演算

αF1+βF2+γF3

重要特徵

合 成

(使其流暢)

語句校訂 處理 語句挑選 及重組處理

圖 11:淺層摘要的研究取向(Shallower Approaches)之執行歷程

通常這類的研究方法與所應用之領域較無關聯(Domain-Independent),意即這是一種 所謂的〝Knowledge-Poor〞(Very General-Purpose:通用性)的方法。語句(Sentences)通常 至多也只解析至語法層(Syntactic Level)而已。由於透過這種節錄式節錄出的語句在銜接 組合後極有可能會與原文的本意發生了脫節,產生了風馬牛不相及的文摘內容出來,所 以我們依據 I. Mani 及 M. Maybury (1999)等人三階段的自動文摘處理架構來審視,可 能需做一些適度的修正與調整:其中,在轉換(Transformation)階段需包含選取顯著而重 要的單元(Salient Units)出來;而在合成(Synthesis)階段則需考量內容的流暢度(Smoothing

),修正不連貫的敘述,藉由語句的重新排列,使文摘更加地簡潔、易懂 [12][19]。

總而言之,此類取向之研究方法乃是採用與人類專業文摘作者極其類似的淺顯特徵 (Shallow Features)作為編輯摘要的線索,是一種花費較為低廉的自動摘要解決方案,系 統程式易於建構,所建構出的摘要系統也比較穩健,並且還可以使用語料庫(Corpus)等 來加以訓練。只是這些方法所產生出的摘要內容較為貧乏,因它僅僅是透過某些特定 且層次較低的特徵(Shallow Features)來加以分析、處理,進而建構出統計之模型來進行 決策。然而,正因為未實際考慮到較高層次的語意分析,如知識概念(Knowledge Concepts) 等課題,因此,節錄可能無法真實反映到文件內容的基本精髓[12][19][27]。在附錄二中,

我們將淺層摘要研究取向(Shallower Approaches)依照實體參考特徵的深淺程度不同而區 分為表層(Surface-Level)取向、個體元素層(Entity-Level)取向、以及語段層(Discourse-

n 分析原始文件中 語句的實體特徵

o 利用這些淺顯易 懂的實體特徵作 為語句的表示法

r 依壓縮需求挑選 出權重值較高的 數個語句

q將所有候選語句 依照權重值大小 做排序

s摘錄成原始文件 的摘要

p 依據特徵相對重 要性賦予每個語 句不同之權重值

Level) 取向等三種方法[18]。

2.2.1 重要的參考實體特徵(Shallow Heuristics)舉隅

目前關於華語文的研究其實都脫離不了對中文字詞方面的探索。其中攸關於字詞方 面的相關性研究──“字與字間"、“字與詞間"以及“詞與詞間"等等之間的相關性 可以歸結為現代華語文的Markov特徵,是揭示現代中文內在規律的重要途徑之一。語言 本身可以說是一種習慣性的系統,也是一種少數服從多數的統計學原則。其中有許許多 多是有章法可循的規律或是道理,比如說:詞語創造的原則及其構成方式等都是約定俗 成的;然而這當中卻也充斥著不少既沒道理、亦無跡可循的例外──一些強制性的積非 成是的習慣或是語言事實,例如:唾手可得 vs. 垂手可得。可是,如果我們從數理的角 度運用統計學的方法出發,就會發現在這些語言事實中,不管是“規律"還是“例外

",都可能會符合一種統計學上的規律──藉由“字詞相關性"的統計,找出字與字、

字與詞、詞與詞之間是否經常在一起出現的通則。若再將其推而廣之,就可以發現中文 文件中的“詞法"、“句法"甚至“章法"的結構與組織規律了[8][25]。底下,我們依 據圖 9所列的參考文獻以及 [8][23][26][27][30],嘗試歸納出這近五十年來學者們對於 自動摘要研究此課題中攸關語句重要性判斷的關鍵特徵,分別闡述如下:

„ 主題特徵(Thematic features):[4][9][18][19]

所謂的『主題特徵』乃是在文件當中具有重要作用的專業詞彙,可用以表達某種明 確概念的關鍵字詞(或稱主題詞)。所以,主題詞乃是在組成一篇文章的單字當中,最能 夠用來表達該文章意義的重要詞語。而在文件當中若包含了相對多數主題詞的語句,我 們就稱該語句為主題句──可用以代表一個段落或是文章的最重要句子之一。一般來說

,計算句子權重的方法大部分皆採用了詞頻統計(Term-frequency Statistics)的方法來做分 析,若在一篇文件當中某個關鍵字或詞重複(Repetition)出現許多次,超過了某一閾限值

或門檻值(Threshold),達到了統計上顯著的差異水準,那麼這個關鍵字、詞極可能就是

所謂的TF (Term Frequency;關鍵詞頻率/詞頻)乃為關鍵詞彙位於文件中所出現的頻 率,意謂著該詞彙於個別文件中的重要性,TF 值愈高代表該詞彙是文件主題詞的可能 性愈高;而 IDF(Inverse Document Frequency:文件頻率倒數)則是表示詞彙於同一個領 域(Domain)文件集合中的重要性,若在一文件集中如果一個關鍵詞彙出現次數很高的

„ 位置特徵(Location Features):[1][4][9][13][18]

一份文件當中重要的語句通常都會出現在某幾個特定的位置上而有跡可循。因此,

位置的資訊(Positional Information:Position in text, position in paragraph, section depth, particular sections)依據經驗法則通常也可以成為一種判斷語句重要性的線索之一。舉例 來說:以整篇文章為例,若我們將之區分為數個段落,那麼通常在第一段可能會說明全 篇的主旨、最後一段會總結出摘要而與主題有高度的相關。而以每一個段落(Paragraph) 為例,通常在第一句和最後一句這兩個語句,往往會帶有較高的可能性包含與主題高度 相關或是總結主題的資訊而成為候選的摘要內容,所以,落於這兩個部份的語句相對地 來說就具有較高的重要性。因此,依據語句位置的不同應該要賦予其不同的重要性。換 言之,我們可以透過每個語句不同的期望權重值來計算該語句所具有的相對位置特徵值

,以此來權衡語句之相對重要性。

„ 背景特徵(Background Features/Add Term):[4][18][19]

從文章的標題(The title or headings in the text)、簡介(Introduction) 或前言(The initial part of the text)等部分,甚至是使用者的查詢(A user's query)等線索詞彙(Lexical cues),通 常都可以用來代表文件中所要描述的主題。因此,假如文件中語句的詞彙出現在上述背 景當中越多,則代表該語句與文件主題的相關程度也越高。但是,這種方法的最大缺點 在於必須依賴特定的寫作格式以及使用特定的字詞才能有效篩選出有用的資訊;一旦寫 作的模式改變,透過這種文章背景結構分析技術所選取出來的摘要品質也會大受影響。

„ 語句長度(Sentence Length):[4][9]

語句的長度往往會左右語句所涵蓋資訊量的多寡。也就是說,較長的語句所包含的 資訊量通常會比較短的語句所含的資訊量來得更加豐富,語意也會更加地完整,也比較 能夠用來代表原始文件所欲表達的意涵。因此,我們可以依據實際的經驗法則來定義一

個閾限值或門檻值(Threshold),比如說:7 個中文字,也就是說一個語句的長度必須至 少要具有7 個中文字才有可能候選而成為摘要的一部分。

„ 線索字詞/提示片語(Cue words and phrases/Fixed phrases):[1][4][9][13][18]

在文件當中往往會使用一些提示片語或轉折語來介紹或總結主題之敘述,如:『首 先』、『總之』、『總而言之』(“In summary") 等等,或是與特定領域相關的特定詞 彙(“bonus” or “stigma” term),例如:在專利文獻申請專利範圍(Claims)當中常用『如申 請專利範圍第2項所述之系統,...』(A system as set forth in claim 2,...)、『其中,...』

(wherein said)、『更包括...』(further comprising...)等。因此,文件中的語句如果包含這 些常用的提示性片語或轉折語,那麼該語句便有極高的可能性是屬於摘要。

„ 相似度(Similarity):[18]

所謂的『相似度』乃是指語句間語彙的重複性(Vocabulary Overlap),亦即兩個詞語 在不同的上下文當中可以互相替換使用而不會影響到文本中的句法語意結構。如果兩個 語彙在不同的上下文之間可以相互的替換而不會影響到原文之句法語意結構的可能性 愈大的話,那麼此二者的相似度就愈高;反之,相似度就越低。詞語相似度是一個主觀 性相當強的概念,迄今尚無明確的標準可以用來客觀地衡量。目前常用的方法主要有兩 種:一種是利用句子的表層資訊(如:組成句子的詞之語法、語意資訊等),但不包含任 何結構上的分析,也未考慮到句子整體結構的相似性;另一種方法則是對語句進行完全 的句法分析,並將分析的結果以結構樹(Parse Tree)的形式來加以呈現,依此基礎來進行 相似度的計算。

„ 鄰近度(Proximity):[18]

所謂的『鄰近度』乃是指文字單元(如關鍵詞、概念等)在文件當中的距離,是一種

位置運算子--布林邏輯運算子 “AND” 的延伸。它描繪了語意空間中語彙基本要素(Text Units)之間的出現順序和相對距離,是語意空間分析的一個重要方法,可以經由距離或 位置向量的關係來加以度量。

„ 同時並列出現(Co-occurrence):[18]

詞語同時並列出現(Co-occurrence)是指相關的詞彙在文件中常常一起出現且在統計 上具有顯著意義的線索,通常存有類似、相關和同義等等關係。這種關係是一種存在於 所有人類語言的普遍現象,表示詞語與詞語之間的語意和語法的關係,但卻又是一種隨 意性的語言現象,鮮有規律可尋。自動化的方法,大抵都倚賴此種共現型態,來建構索 引典。以關鍵詞與關鍵詞關聯的假設為基礎,透過詞頻等屬性來計算出詞彙與詞彙之間 的相關性,並以其相關性的值來分類詞彙,此種方式將關鍵詞分成為數個類別,且將同 一類別中的成員視之為是擁有相同概念的。因此,利用這種同步出現之分析技術可用以 描述概念之空間(Concept Space)。

„ 同指涉/共同參照關係(Coreference):[1][2][18][27]

同指涉(Coreference) 是達到自然語言 “理解” 中幾個特殊而困難的問題之一,其較 廣義地來說乃是指重複語法中前向對映詞的解析 (Anaphora Resolution) ──亦即,設法

同指涉(Coreference) 是達到自然語言 “理解” 中幾個特殊而困難的問題之一,其較 廣義地來說乃是指重複語法中前向對映詞的解析 (Anaphora Resolution) ──亦即,設法