• 沒有找到結果。

深層摘要研究取向(Deeper Approaches)

Shallower Approaches Deeper Approaches

第三節 深層摘要研究取向(Deeper Approaches)

深層摘要的研究取向(Deeper Approaches)乃是將原始文件透過語意層或語段層的內 部解構來表達其原文意涵的知識體系,然後再利用自然語言的經驗法則來加以組織後產 生文摘(Abstracts)輸出。因此,透過這種方法所產生的文摘內容有可能不是直接取自於 原始文件當中的內容。

一般而言,這類的研究方法通常與所應用之領域是息息相關的(Domain-dependent / Background knowledge-dependent),意即這是一種所謂的〝Knowledge-rich〞(Knowledge- intensive)的方法。語句(Sentences)通常至少要被解析至語意層(Semantic Level)。由於透 過這種重述法可能事先需建構出與應用領域知識高度相關的資源(如:知識本體(Ontolog- ies))來產生摘要(Abstracts),因此,隨著應用領域的不同,往往需要額外之編碼(Coding)。

除此之外,可能還需借助語言學的專門知識來分析語句之意涵或是用以協助產生文本。

所以我們依據 I. Mani 及 M. Maybury (1999)等人三階段的自動文摘處理架構(如圖 5所 示) 來審視,可能需做一些適度的修正與調整:尤其是在合成(Synthesis)階段通常需從 語意層或語段層的表達當中透過自然語言的處理(NLP)以及一些探索性的經驗法則 (Heuristic Rules)方式來加以試探,以產生出具連貫性的文摘輸出 [12][16][19]。

總而言之,此類取向之研究方法乃是以文件全文內容意義為根基來做簡化並且可以 產生出具語意連貫性、資訊更為豐富的摘要內容出來,所產生的摘要也比較符合人類的 閱讀習慣。不但如此,它還允許非常高的壓縮(極低的壓縮率),以提供更為一般化的文

摘內容。可惜,此類系統建構成本昂貴、代價亦高,且實作較為不易。稍有不慎,可能 會由於摘要生成過程的瑕疵而導致文摘的內容有誤,間接誤導了讀者們的判斷。

以下,分別簡介此類研究取向常用的兩種方法:樣板摘錄(Template Extraction)法以 及概念擷取(Concept Abstraction)法 [16]。

2.3.1 樣板摘錄(Template Extraction)法

所謂樣板(Template)擷取文章摘要的方法,簡單來說乃是利用語意的架構(例如:語 篇中的人物關係、時間關係、空間關係或情節發展所用之關聯詞等)來進行重要資訊的 選取。由於同一類型的文章(例如:政治新聞)其表達資訊的型式較為固定,因此若有某 些句型雷同且不斷地重複出現,則此類句型便極有可能是用來記載重要資訊的句型。所 以,我們可以透過事先已定義好的語意標籤來分析文章中的內容,將內容轉換成各式語 意標籤的組合,然後再利用標籤組合的重複性找出此文中較為重要的句型出來,以這些 重要句型作為摘要的範本(如圖 12所示) [16][19][20][23]。

圖 12:樣板摘錄(Template Extraction)法的技術架構概觀 轉 換

Transformation

分 析

Analysis

合 成 Synthesis Source

樣 板(Templates)

<TEMPLATE-News98> :=

Persons: 馬英九

Events: 扮大廚打牙祭站台 Time: 2004/07/23(星期五) Places: 台北

Things: 快餐、煎餃、麵食 Concepts: 給猪吃不如先餵馬

文件摘要

其演算步驟概述如下:

使用此法的最大優點是可從大型語料庫(Large Corpora) 中透過機器學習並以穩定 漸進的方式來擷取出部分具語意內容的最重要資訊;而其缺點則是以有限的語意標籤作 為摘要的輸出方式,可能會因刪除了原語句中部分的字詞而使得新語句之閱讀變得更令 人難以理解。此外,透過語意標籤組合所形塑出的新語句,可能會因某個原始語句比較 長及其語意標籤與語意標籤之間的間隔字、詞稍多,致使語意標籤的順序恰好吻合了摘 要樣板(Template)中的句型而已,但卻間接造成了選出的語句是較無意義、不具代表性 的摘要內容結果輸出[16]。

2.3.2 概念擷取(Concept Abstraction)法

所謂的『概念』(Concepts)乃是一種概念性的術語,簡單來說就是指一些字彙或是 詞彙等相關名詞(Term),而透過這些字或詞可以用來描述相同領域中普遍存在的共通基

n

首先,透過自然語言處理的系統(Natural Language Processing)分析文章中的內容,

利用人工建立的語料資料庫(e.g. Ontology)由機器標上語意標籤。此標籤的目的在 於將此文中有意義的詞彙轉變成具有語意訊息的處理模式。

o

利用這些已標記好的語意標籤找出在文章中出現頻率較高的標籤組合,作為摘要 樣板(Template)的句型。

p

將原文(Source)中句子的句型與摘要樣板(Template)中的句型進行逐一比對,若發現 摘要樣板(Template)的標籤組合為文章句子標籤組合的子集(Subset)且順序相同的 話,就選取該語句成為候選摘要內容之一。

q

將候選出的摘要內容依照原文內容的順序加以排序。

r

將選出的每一個語句去除未標上語意標籤的字彙,只將含有語意標籤的詞彙留 下,最後所餘之結果便是『摘要』──樣板法所產生的摘錄(Template Extraction)。

本知識或是實體。

我們可以將某一領域中的知識拆解成好幾個樹狀結構的方式來加以呈現,其中所呈 現的每一樹節點(Node)就代表了某一種獨立之概念。藉由這一棵棵的樹,就可以明白得 知該領域內有哪些重要的觀念,所定義的名詞之間又是以怎樣子的關係連結而成的;也 是藉由這樣的分享機制,使得每一個人都可以更清楚地知道屬於這個領域中的關鍵字、

詞的組織脈絡而有跡可循。不同的樹狀結構所呈現的概念(Concepts)也意謂著各式各樣 不同的文章主題;透過特定領域下一致性之概念(Concepts),不但可用以描述對於特定 文件中的知識,有效釐清因觀念或是用詞所產生的認知上的混淆;更能夠提昇語意關聯 搜尋的準確性,達到有效的名詞分享。我們透過這種階層式的架構即可將文章內容整合 成為各種主題資訊,以利摘要的抽取及分析。

目前,階層式(Hierarchy)的架構仍是建構『概念』與『概念』之間最常見的關聯。

概念階層(Concept Hierarchy)定義了從下位概念(即較具體、特殊化之概念)集合到上位概 念(即較抽象、一般化之概念) 之間一連串的對應關係,用以描述概念之間的種種語意關 係。而對於不同概念之間的語意關係,主要可將之區分為三種:

n

一般化關係(Generalization Relationship):一般化關係主要用以描述概念與概念之間 的上、下位關係,亦即子概念必須無條件地繼承父概念之屬性與關連性,並可衍生 出新的屬性和關連性。比如說:動物(上位) vs. 老虎(下位)。

o

屬性關係(Attribute Relationship):屬性關係主要用以描述概念與概念或屬性值間基於 某個特徵之關連性。

p

包含關係(Inclusion Relationship):包含關係主要用以描述概念之間的整體-部份關係

,代表特定概念與一般概念之間的對應(Mapping),而利用概念階層方式來加以呈現,

舉例來說:台北市包含了大安區、信義區、士林區等更特定之概念;反過來說,大

安區、信義區、士林區亦可對應至較為整體之概念『台北市』。

運用這種概念階層(Concept Hierarchy)的方法,其最大的好處是可以將真實世界當中 的資源知識內容及可能的資訊架構描述方式予以統一並加以簡化,同時也清楚地定義出 概念之間的關係和推理的邏輯規則,以期建構出一個共通的知識背景平台,進而提高了 機器對資訊處理之能力以及語意之理解,大幅降低了機器交換訊息的困難度。然而其最 大的缺點就是概念階層(Concept Hierarchy) 的建構是一項極為艱鉅之工作,尤其是需要 建立一個龐大架構的領域知識的時候,不管是採用人工的方式抑或是透過機器學習的完 全自動化處理技術,將會耗費非常大量的時間以及金錢的投入。因此,儘管在一個概念 階層(Concept Hierarchy)中可以包含許許多多的應用領域,但其所含括的領域知識愈廣,

則其複雜度也將會隨之而增加[16]。