• 沒有找到結果。

基於 SAO 結構之相關研究探討

Shallower Approaches Deeper Approaches

第四節 基於 SAO 結構之相關研究探討

以下簡單說明使用SAO的理由及其相關之作法:

2.4.1 從英文句型剖析為何要 SAO:

一個合理完整的句子必須文法、句型結構和語意三者兼顧,才能使之言之成理、言 之有物。對於英文語句來說,我們可以將其常用的句型結構歸納整理成為所謂的『五大 基本句型』(Five Basic Sentence Patterns)(如表 2 所示)。

也就是說,不管英文句子再怎麼樣地千變萬化與複雜多變,它的基本結構和句型卻 可以建立在亙古不變的──〝主詞(Subject)與動詞(Verb)〞的架構上,而句子的基 本結構就由動詞來開始啟動,並由此向外擴張,進而衍生出五大基本的動詞句型,形成 簡單句的『內在主要基本結構』。透過這五大基本句型結構之脈絡,任何外在擴張、複

雜橫生的句子,皆可信手拈來、藉收立竿見影之效而有跡可循。

表 2:英文句子的五大基本句型結構 [整理自 http://cc.vit.edu.tw/~cfs/9301/CD.htm]

英文的五大基本句型(FIVE BASIC SENTENCE PATTERNS)

Ⅰ. S. + Vi. 主詞 + 完全不及物動詞.

Ⅱ. S. + Vi. + S.C. 主詞 + 不完全不及物動詞 + 主詞補語.

Ⅲ. S. + Vt. + O. 主詞 + 完全及物動詞 + 受詞.

Ⅳ. S. + Vt. + O. + O.C. 主詞 + 不完全及物動詞 + 受詞補語.

Ⅴ. S. + Vt. + I.O. + D.O. 主詞 + 授與動詞 + 間接受詞 + 直接受詞.

其中, S. = Subject (主詞)、 O. = Object (受詞)、 C. = Complement (補語)、

Vi. = Intransitive Verb (不及物動詞)、 Vt. = Transitive Verb (及物動詞)、

I.O. = Indirect Object(間接受詞)、 D.O. = Direct Object(直接受詞)

一篇文章乃是由許許多多的『命題』(Proposition) 所組織而成的,而一個命題之意 義以傳統簡單的語言邏輯來說就是透過了〝主詞(Subject Term)〞與〝述詞(Predicate Term)

〞此類的基本結構所構築而成的主賓式陳述句,其中的『述詞』乃是用以描述主詞之狀 態,作為主詞的性質或是屬性,但屬性本身是無法獨立存在的,它必須附屬在某些事物 如 Subject 或是 Object 之下。因此,透過此一觀點,我們可將上述英文的『五大基本句 型』(Five Basic Sentence Patterns) 約化成為『主詞(S)-動詞(V)-受詞(O)』或是『Subject(S)- Action(A)-Object(O)』的結構形式,其中 Subject(S)與 Object(O)依被動式或主動式的呈現 方式的不同未必要同時存在。亦即,對於每個語句來說,可單由『Subject-Action-Object』

(簡稱 SAO)、『Action-Object』(簡稱-AO)、『Subject(S)-Action(A)』(簡稱 SA-)三種形 式之一來加以呈現。所以,由此觀之,『主詞-動詞-受詞』(Subject-Action-Object,簡稱

SAO』的語句結構最能保證較好的理解效果。

儘管中文的語言結構和英文的情形並無法相提並論、完全等同,但我們仍舊可以仿 照這種 SAO 的結構句型作為參考,透過“名詞"和“動詞"的關係來嘗試理解其語 意。[32]

2.4.2 透過 SAO 結構模式的文件摘要(美國專利第 6,167,370 號文件探討)

圖 13:以SAO結構模式之文件摘要架構(取自:Valery M. Tsourikov等,美國專利第6,167,370號)

經由上述之探究,我們可以得知對於一個完整的英文語句來說,可能需要同時包含 主詞(Subject)、動詞(Verb) 與受詞(Object)。以美國專利第 6,167,370 號文件 (專利名稱

:Document Semantic Analysis / Selection with Knowledge Creativity Capability Utilizing Subject-Action-Object (SAO) Structures)為例,該篇專利主要描述透過某一種電腦系統可 將各種文件先行轉換成一組一組的SAO(Subject-Action-Object) 結構句,並且將這些SAO

DB of

SAO-Structure SAO Analyzer of Text

Pre-formatter Tagging

Verb/Noue Group Parsing

SAO Extraction SAO Normalizer

SAO Processor Comparison Re-organization Filtering

SAO Synthesizer of Natural Language Text

SAO Synthesizer of Key Words/Phrases Representations DB of Original Documents

(Natural Language Texts)

DB of Summaries of Original Documents (Natural Language Texts)

DB of New Concepts (Natural Language Texts)

DB of Accurate Key Words/Phrases Representations of Original Texts

User Request

Web

的結構句儲存至資料庫中,用以代表該篇文件之語意內容。之後,當使用者輸入了自然 語言的查詢需求(Request)後,此時,系統亦會將該查詢需求轉換為SAO的結構句,接著 再將代表此使用者需求(Request)的SAO 結構作為一種關鍵詞彙(Key Words/Phrases),拿 來跟代表各文件語意內容片段之SAO 結構作匹配(Match) 的處理,以協助使用者找出所 需求之文件出來,並下載之。最後,將這些相關文件的SAO 結構句加以分析其關係,

以此創造出新的SAO 結構句以及新的知識概念,並根據這些相關文件的SAO 結構依照 一些規則將之串連後,表達出自然語言的摘要(Summaries)出來(如圖 13所示)。

上述專利所述之系統乃是一種自然語言文件分析及揀選的電腦化系統,其中,由圖 13來看,此系統之核心──語意處理部份,主要是由關鍵性的四大模組來運作達成的。

¾ SAO分析器(SAO Text Analyzer):

包含了許許多多的規則在裡頭,如:文字格式規則、編碼規則、字詞標記規則(例 如:Markov chain theory code)、SAO 動詞(Verb)及名詞(Noun)辨識規則(註:透過 建立動詞(Verb)、名詞(Noun)群組)、解析規則、SAO 擷取規則、SAO 正規原則 等等,以便將候選文件的資料以及使用者自然語言的查詢需求轉換為 SAO 結構句 組的表達。其中,在這個系統語意處理的過程當中,會將此查詢需求之 SAO 結構 句組的表達予以合成,以作為查詢用之關鍵詞彙,然後再透過 WEB 或是本機資料 庫的文件搜尋引擎下載候選文件的資料至系統的 CPU 裡,以便做後續之處理。

¾ SAO處理器(SAO Processor):

主要是將上述使用者自然語言查詢需求之 SAO 結構句組的表達拿來跟候選文件之 SAO 結構句組的表達做匹配處理,以比較是否至少有一 SAO 結構句相符合,以便 做過濾篩選,將完全無法匹配的候選文件及其相對映已儲存之 SAO 結構句組逕予 淘汰、刪除。

¾ 自然語言之SAO合成器(SAO Synthesizer of Natural Language Text):

將上述完成匹配處理過後符合查詢條件之相關文件,取其所相對映之 SAO 結構句 組中的至少某一些部份,透過一些演算步驟將之組織合成為一自然語言的形式(如:

句子)後,使之成為可以展示在螢幕上的自然語言摘要輸出,並且將此摘要以及合 成處理後所產生之新的 SAO 結構句組儲存至系統中。

¾ 關鍵詞彙之SAO合成器(SAO Synthesizer of Key Words/Phrases Representations):

從 SAO 的結構句組中,擷取重要的關鍵詞彙(Key Words/Phrases)以作為同義字或詞 (Synonyms),然後透過一些演算步驟將之銜接後,使之成為另一新的關鍵詞彙(Key words/phrases),以形成使用者的查詢需求條件送至搜尋引擎來做查詢。

其中,上述 SAO 合成器的演算規則為:若儲存至系統中的任兩個 SAO 結構句組 (S1-A1-O1)及(S2-A2-O2),經系統辨識後發現其中 O1 同義於 S2,則可將之合成處理為 (S1-A1-S2-A2-O2)的語句,使成為摘要的一部份或是作為查詢用之關鍵詞彙。此外,若 S1 與 A2 也有關聯關係存在的話,也可將之合成處理為(S1-A1/A2-O1)的結構句作為查 詢用之關鍵詞彙,以搜尋出想要之結果出來。

我們可以運用此篇專利發明的構想作為我們中文專利文獻SAO 結構擷取的研究指 引。不過,透過這樣的方式極有可能會因此而衍生出為數眾多且分散的SAO 結構句組 出來,如此的結果對於專利分析人員來說,反而會因著焦點的模糊而造成更大之困擾。

基於此,我們希望能夠模擬人類閱讀專利的方式來挑選出極具重要性並且有意義的SAO 結構句出來,並由此建構出它們彼此之間的階層關聯。最後,綜合此篇專利文獻所彙集 之階層式SAO 結構句組以及使用者之需求,以重點式的形式來加以呈現出資訊量合宜

、足資代表此篇專利文獻全文內容之摘要出來。

2.4.3 方法A 之 Concepts(概念)、SAO 之相關擷取技術[31]

本研究係與資策會電子商務研究所共同合作之創新前瞻技術之研究。而所述之『方

A』乃是發表於[31]2004 年第十五屆物件導向技術及應用研討會中之論文:『以 SAO 物件為基礎之中文專利文件摘要方法及架構』所提之演算方法(註:以下皆以『方法A』

來代稱)。茲將其攸關於概念(Concepts)以及 SAO 方面的擷取技術概述如下。

„ 『方法A』之概念(Concepts) 擷取技術:[31]

如圖 14 之流程圖所示[31]。首先,在進行 Concepts 擷取之前,先行定義了 Concepts (概念)的擷取關鍵字,其擷取關鍵字分為兩個集合,分別為“第一次提及”和“第二次及之 後提及”這兩個集合,如下所示:

第一次提及:{一(Neu)、一(D)、複數(Na)、兩(Neu)、之一(Nc)、…}

第二次及之後提及:{該(Nes)、上述(Na)、述(VE)、…}

緊接著,開始著手進行 Concepts(概念)擷取關鍵字的比對(Mapping)處理,若比對出 的關鍵字係屬於“第一次提及”的集合,則擷取此關鍵字後面的字串存到 TempSet1 集合

,其字串的範圍為關鍵字後面的第一個字元至句子的最後一個字元;之後,繼續對後面 句子之內容進行 Concepts (概念)的比對(Mapping)處理,如果比對(Mapping)到的是諸如

“上述”此等之類的關鍵字詞,因為它是屬於“第二次及之後提及”,所以如前述之方法將 其後的字串擷取出來,並與 TempSet1 集合的字串作比對,其比對到的最大相同之子字 串,此即為所擷取的 Concepts (概念) 。此外,也定義了“消除詞彙”(StopWord)之集合,

以此去除掉 Concepts (概念)字串前、後可能之贅字。

消除詞彙(StopWord):{在(P)、至少(Da)、與(P)、與(Caa)、以及(Caa)、以便(Cbb)、或(Caa)、

包括(VK)、包含(VJ)、更(D)、是(SHI)、代表(Na)、用以(D)、為(VG)、主要(D)、根據(P)、

中(Ng)、之(DE)、的(DE) …}

圖 14:『方法A』之概念(Concepts) 擷取流程示意圖[31]

„ 『方法A』之 SAO 擷取技術:[31]

如圖 15 之流程圖所示[31]。根據從 Claims 的句子擷取出來的 Concepts(概念) 及 Relations(關聯),再進一步擷取出 SAO 的物件。其主要的擷取方法為判斷句子的主動式 及被動式,包括句子中的主詞、動詞及受詞之架構。

首先,針對每個 Claim 中的每一子句來進行判斷,先行判斷是否有 S-A-O 之順序 的物件存在於此子句中。若沒有的話,則再進一步地判斷是否存在 A-O 物件在這個子 句中,若無則停止判斷,並進行下一個子句之判斷。如果存在 A-O 的結構句型的話,

則以上一子句之最後一個 Concept(概念) 作為此句之主詞,作為此句 S-A-O 物件之表 達。若句子存在 S-A-O 之順序的物件,則進一步判斷是否存在“被動式關鍵詞”,若發

START

Concepts擷取關鍵字 比對(Mapping)處理

是否屬於 第二個集合?

擷取出關鍵字後面的字串 儲存至TempSet1集合裡

將關鍵字後面的字串 與TempSet1集合內的 字串進行比對

是否最後 一個字串?

由TempSet2集合中 找出最長的字串

RETURN

儲存所比對到的 字串於TempSet2集合 N

Y

N

Y

現存在所定義的被動式關鍵詞的話,則以此被動式關鍵詞之句子呈現的規則來表示此 S-A-O 之物件;倘若句子不存在被動式關鍵詞的話,則以原始的順序作為 S-A-O 物件,

並回傳給系統。

圖 15:『方法A』之 SAO 擷取流程示意圖[31]

Y

N START

讀進Claim i的第j個 句子於系統中作判斷

是否有S-A-O 之順序的物件

於句子中?

以被動式關鍵詞所 對應的規則來產生

S-A-O 物件

以原始的順序 作為S-A-O物件

RETURN

Claim i 的第 j-1 個句子

之最後一個Concepts

S,結合成 S-A-O 物件 Y

是否有A-O

之順序的物件 於句子中?

N

判斷是否存在 被動式關鍵詞

N

Y

RETURN