• 沒有找到結果。

實體名詞(Named-Entity)標記與索引分析

4. 第四章 研究方法

4.1 系統元件

4.1.4 實體名詞(Named-Entity)標記與索引分析

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

16

4.1.3 中文斷詞與英文分詞

中文句子有別於英文的句子,並非以空格做為詞彙之間的分隔,因此中文句子在不同的 詞彙組合中,可能產生不同的斷詞結果,而有不同的意義。為了取得較佳的斷詞結果,

我們採用三種斷詞器的結果。第一種為中研院的 CKIP 斷詞器[11],這是一組以繁體中 文為詞庫的工具,多為臺灣地區使用。第二種為 LingPipe[19],它是由 Alias-i 這家公司 所開發的一套自然語言處理工具,包含多種自然語言處理的模組,如實體名詞標記、中 文斷詞與 Part-of-Speech(POS)標記等,LingPipe 所提供的中文斷詞模組,亦可直接處理 繁體中文。第三種為史丹佛斷詞器(Stanford Word Segmenter)[29],這是一組以簡體中文 語料所建構而成的斷詞器,因此我們的語料仍須要由繁體中文轉為簡體中文後才可以獲 得較佳的斷詞結果。我們最後選擇由史丹佛斷詞器來做為本研究的斷詞工具,語料透過 簡繁的轉換後,再將其丟入史丹佛斷詞器來取得斷詞結果。

英文句子具有類似的需求,我們希望將句子切割至詞彙或符號等較小的單元,獲得 更精確字面上所包含的資訊,以提升推論系統理解更細微的字面資訊。由於我們並非英 文母語的使用者,對英文的分詞或語法結構熟悉程度不足,因此避免自己去實現英文分 詞的功能,我們採用史丹佛分詞器(Stanford Tokenizer)[28]進行英文的分詞。分詞的同時,

我們將結果進行詞形還原(Lemmatization),對詞彙的使用正規化,預期可以加強字串的 比對效果。

4.1.4 實體名詞(Named-Entity)標記與索引分析

無論在中文或英文的語句中,經常包含特殊的專有名詞,如人名、地名或組織名;而這 些專有名詞在推論的過程中,我們將其視為重要的資訊。因此我們為了使電腦理解語句 中所包含的重要資訊,必須擷取出句子中所包含的專有名詞,這種技術即是實體名詞標 記。本研究中,我們並不著力於該技術的研究,所以透過既有工具的使用,來擷取實體

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

17

名詞。Gao[14]等人於 2005 年提出簡體中文的斷詞與實體名詞標記的方法,並發展出一 套工具 S-MSRSeg,我們採用此工具來擷取句子中的專有名詞,圖 4.3 是一個標記的範 例,我們將於後面的小節說明這些實體名詞如何被使用來檢驗語句的推論關係。英文的 實體名詞標記則使用史丹佛實體名詞標記(Stanford Named Entity Recognizer)[26],我們 採用的標記模型是由 CoNLL-2003 的語料訓練而成,可以針對人名、地名、組織名與其 他可能的實體名詞做標記,但我們移除第四個部份的實體名詞,而著重於人名、地名與 組織名的分析與應用。

圖 4.3 實體名詞標記

主詞與受詞的交換往往讓句子的意義有所不同,並且實體名詞在本研究中被視為一 項重要的資訊,而圖 4.4 則顯示一組由於實體名詞在句子中位置不同造成的歧義狀況;

因此除了標記句子中的實體名詞外,我們同時分析實體名詞出現於句子中的索引,藉以 瞭解實體名詞於該句中可能代表的可能是主詞或受詞,讓推論系統較有效地掌握句子的 意義,並提升推論效果。

圖 4.4 專有名詞錯位 4.1.5 否定詞、近義詞與反義詞搜尋

經常地我們使用一些具有否定意義的詞彙來表達句子反向的意思,圖 4.5 為一組使用否 定詞彙的效果,儘管 t1及 t2使用了近乎完全相同的詞彙,但「不」的使用讓兩個句子擁

t1:美國尤其擔心,恐怖分子或「流氓國家」可能以購買或偷竊的方法取得俄國的 武器級鈽

t2:俄國尤其擔心,恐怖分子或「流氓國家」可能以購買或偷竊的方法取得的美國 武器級鈽

Ex1:思科是全球最大軟體公司 Ex2:伏明霞出生於武漢

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

18

有完全相異的意思。因此我們認為否定詞對句子之間推論關係的判斷是非常重要的角色,

而擷取否定詞成為一項重要的工作;我們將廣義知網裡所有的定義展開式,抓取展開式 中包含功能詞(Function Word) 「not」的詞彙,接著經由人工過濾的方式挑選適當的否 定詞組成一部辭典用以擷取句子中的否定詞,圖 4.6 為辭典包含的否定詞。英文的否定 詞 , 我 們 則 是 使 用 史 丹 佛 剖 析 器 (Stanford Parser)[27] 產 生 詞 彙 的 依 賴 關 係 (Dependency)[25],擷取依賴關係標記為「neg」的詞彙組合,將其視為否定詞的使用。

圖 4.5 否定詞範例

圖 4.6 否定詞辭典

日常生活的談話或寫作,經常會運用不同的詞彙描述相同的行為、情緒或事物,並 且詞彙之間都具有相似的意義,我們稱這些詞彙為近義詞(Near-synonym),如圖 4.7 所 示,「大壽」與「華誕」在意義上都是指「生日」的意思,卻使用兩種不同的詞彙來描 述。而本研究提出的作法便是希望由字面上的覆蓋程度來進行推論關係的驗證,我們認 為句子之間具有較高的詞彙覆蓋比例時,能夠說明推論關係的程度高低,而近義詞的擷 取能夠將相似意義的詞視為相同的詞彙,增加詞彙覆蓋的比例,亦有機會提升推論關係 的判斷能力。因此我們以廣義知網為基礎,提出兩種方法計算中文詞彙之間的語意相似 程度,並且給予兩個詞彙相似程度的信心值,信心值由 0 至 1 表示由相似程度最低到最 高,我們將設立門檻值界定兩個詞彙是否為近義詞,同時教育部國語辭典也被用來判定

無 未 不 沒有 非

t1:2012 年 12 月 21 日是世界末日 t2:2012 年 12 月 21 日不是世界末日

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

19

圖 4.7 近義詞範例

圖 4.8 展開式向量形式

中文近義詞。而英文的部分,我們則透過既有的工具使用 WordNet 抓取英文詞彙的同義 詞集(Synset),並未針對英文詞彙多加設計同義詞或近義詞的搜尋方法。

廣義知網當中,每個詞彙都透過義原(Sememe)、功能詞(Function Word)或語意角色 (Semantic Role)組成表達式,說明該詞彙的語意,表達式共分為兩種-概念式與展開式,

展開式皆以最基礎的義原說明詞彙語意,而展開式若有部分的表達式能轉換為廣義知網 內的既有詞彙時,則會直接使用該詞彙代替其中的表達式而轉換為概念式,因此我們選 擇使用展開式做為相似度計算的基底。

第一種方法,我們將詞彙的展開式進行剖析,將義原、功能詞和語意角色擷取出來,

轉換成向量的形式,如圖 4.8 所示。接著透過餘弦相似度(Cosine Similarity)計算兩個詞 彙語意組成的相似程度,由 0 到 1 的分數表示相似程度低至高,公式如下所示:

SimCos(𝐴, B) = ∑𝑛𝑖=1𝐴𝑖 × 𝐵𝑖

√∑𝑛𝑖=1(𝐴𝑖)2× √∑ (𝐵𝑛𝑖=1 𝑖)2, (1)

公式(1)中的 A 及 B 分別為兩個詞彙展開式轉換出來的向量集合。

展開式中使用到的每個義原及語意角色,都屬於 2.2 節提及的廣義知網分類架構中 詞彙:漲價

展開式:

{BecomeMore|增多:domain={economy|經濟},theme={price({object|物體})}}

向量表示:

[BecomeMore|增多, domain, economy|經濟, theme, price, object|物體]

t1:尼泊爾毛派叛亂份子在新國王大壽前夕發動攻擊 t2:尼泊爾毛派叛亂分子在新國王華誕前夕發動攻擊

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

20

圖 4.9 展開式樹狀結構

的某個節點,而每個節點與節點之間大多具有上下位的關係,並且在鄰居節點之間往往 也具有類似的意義,因此我們認為展開式其實是一種樹狀的結構,說明該詞彙的組成與 成分比例。第二種方法中,我們首先將展開式轉換成樹狀的結構,如圖 4.9 所示;從樹 狀結構可以瞭解義原、功能詞與語意角色之間的關連性,透過元素之間的關係組成,找 出詞彙與詞彙的相似程度。由圖 4.9 的樹狀結構,我們擷取以每一個節點做為根節點(Root) 的子樹(Subtree),找出兩個詞彙共用的子樹數量,並定義一個公式計算詞彙的相似程度,

其分數將由 1 至 0 表示相似程度的高低,公式如下:

Sim_Subtree(𝑆, 𝑇) = |𝑆𝑢𝑏𝑡𝑟𝑒𝑒𝑆 ∩ 𝑆𝑢𝑏𝑡𝑟𝑒𝑒𝑇|

|𝑆𝑢𝑏𝑡𝑟𝑒𝑒𝑆| , (2) 公式(2)中的 S、T 代表來源的詞彙與欲比較的詞彙,Subtree 則為子樹的集合。

否定詞在句子表達中,我們認為僅能視為可能造成意義相反,但不一定是完全表達 相反的情況,如圖 4.10 顯示了一個例外的狀況,否定詞的使用並沒有達到反向的效果,

而仍是說明「信任史懷哲的善心」這件事實。反義詞則是另一項表達反向意義的詞彙使 用,圖 4.11 顯示一組反義詞使用的句子範例,可以發現以詞彙覆蓋比例計算時,原先獲

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

21

得較高比例的句對,將因為反義詞的使用而產生截然不同的意義;因此我們希望解決這 個類型的問題,讓系統可以偵測反義詞的使用,並適當地調整推論關係的判斷。我們加 入教育部國語相反詞辭典,用來搜尋句子當中的反義詞。同樣地,我們並未針對英文設 計反義詞的搜尋方法,而是透過既有的工具,經由 WordNet 搜尋反義詞;我們並不直接 使

用指定的英文詞彙找尋反義詞,而首先對欲搜尋的英文詞彙找尋同義詞,再由這些 同義詞取得更多的反義詞,希望增加反義詞的數量,提升反向意義的判斷。

圖 4.10 否定詞例外

圖 4.11 反義詞範例

圖 4.12 經驗法則式推論系統架構與流程 t1:一九九一年波斯灣戰爭結束時 t2:波斯灣戰爭發生於 1991 年

由於史懷哲的品德良好,你不能不信任他的善心。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

22

4.2 經驗法則式推論模型

圖 4.12 為經驗法則式推論模型的系統架構與運行流程,首先將語料讀入系統後,透過數 字轉換模組將數字正規化,接著進行中文斷詞或英文分詞,並標記實體名詞與解析句法 結構,最後通過我們提出的計算方法與門檻值設定,計算推論關係的評分,由 0 至 1,

並根據門檻值獲得欲判斷的句子推論關係。

完成 4.1 節的元件之後,我們利用多種的分數評比,評估一個句子的意義是否能夠 推論至另一個句子;我們提出一個簡單的概念為計算推論關係的基礎,認為句子當中每 一個詞彙都表示一項資訊,當兩個句子裡相同的詞彙比例夠高時,則相信這兩個句子包 含等價的資訊量,因而具有推論的關係。

完成 4.1 節的元件之後,我們利用多種的分數評比,評估一個句子的意義是否能夠 推論至另一個句子;我們提出一個簡單的概念為計算推論關係的基礎,認為句子當中每 一個詞彙都表示一項資訊,當兩個句子裡相同的詞彙比例夠高時,則相信這兩個句子包 含等價的資訊量,因而具有推論的關係。