實體名詞(Named-Entity)標記與索引分析

4. 第四章研究方法

4.1 系統元件

4.1.4 實體名詞(Named-Entity)標記與索引分析

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

4.1.3 中文斷詞與英文分詞

中文句子有別於英文的句子，並非以空格做為詞彙之間的分隔，因此中文句子在不同的詞彙組合中，可能產生不同的斷詞結果，而有不同的意義。為了取得較佳的斷詞結果，

我們採用三種斷詞器的結果。第一種為中研院的 CKIP 斷詞器[11]，這是一組以繁體中文為詞庫的工具，多為臺灣地區使用。第二種為 LingPipe[19]，它是由 Alias-i 這家公司所開發的一套自然語言處理工具，包含多種自然語言處理的模組，如實體名詞標記、中文斷詞與 Part-of-Speech(POS)標記等，LingPipe 所提供的中文斷詞模組，亦可直接處理繁體中文。第三種為史丹佛斷詞器(Stanford Word Segmenter)[29]，這是一組以簡體中文語料所建構而成的斷詞器，因此我們的語料仍須要由繁體中文轉為簡體中文後才可以獲得較佳的斷詞結果。我們最後選擇由史丹佛斷詞器來做為本研究的斷詞工具，語料透過簡繁的轉換後，再將其丟入史丹佛斷詞器來取得斷詞結果。

英文句子具有類似的需求，我們希望將句子切割至詞彙或符號等較小的單元，獲得更精確字面上所包含的資訊，以提升推論系統理解更細微的字面資訊。由於我們並非英文母語的使用者，對英文的分詞或語法結構熟悉程度不足，因此避免自己去實現英文分詞的功能，我們採用史丹佛分詞器(Stanford Tokenizer)[28]進行英文的分詞。分詞的同時，

我們將結果進行詞形還原(Lemmatization)，對詞彙的使用正規化，預期可以加強字串的比對效果。

4.1.4 實體名詞(Named-Entity)標記與索引分析

無論在中文或英文的語句中，經常包含特殊的專有名詞，如人名、地名或組織名；而這些專有名詞在推論的過程中，我們將其視為重要的資訊。因此我們為了使電腦理解語句中所包含的重要資訊，必須擷取出句子中所包含的專有名詞，這種技術即是實體名詞標記。本研究中，我們並不著力於該技術的研究，所以透過既有工具的使用，來擷取實體

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

名詞。Gao[14]等人於 2005 年提出簡體中文的斷詞與實體名詞標記的方法，並發展出一套工具 S-MSRSeg，我們採用此工具來擷取句子中的專有名詞，圖 4.3 是一個標記的範例，我們將於後面的小節說明這些實體名詞如何被使用來檢驗語句的推論關係。英文的實體名詞標記則使用史丹佛實體名詞標記(Stanford Named Entity Recognizer)[26]，我們採用的標記模型是由 CoNLL-2003 的語料訓練而成，可以針對人名、地名、組織名與其他可能的實體名詞做標記，但我們移除第四個部份的實體名詞，而著重於人名、地名與組織名的分析與應用。

圖 4.3 實體名詞標記

主詞與受詞的交換往往讓句子的意義有所不同，並且實體名詞在本研究中被視為一項重要的資訊，而圖 4.4 則顯示一組由於實體名詞在句子中位置不同造成的歧義狀況；

因此除了標記句子中的實體名詞外，我們同時分析實體名詞出現於句子中的索引，藉以瞭解實體名詞於該句中可能代表的可能是主詞或受詞，讓推論系統較有效地掌握句子的意義，並提升推論效果。

圖 4.4 專有名詞錯位 4.1.5 否定詞、近義詞與反義詞搜尋

經常地我們使用一些具有否定意義的詞彙來表達句子反向的意思，圖 4.5 為一組使用否定詞彙的效果，儘管 t₁及 t₂使用了近乎完全相同的詞彙，但「不」的使用讓兩個句子擁

t₁：美國尤其擔心，恐怖分子或「流氓國家」可能以購買或偷竊的方法取得俄國的武器級鈽

t₂：俄國尤其擔心，恐怖分子或「流氓國家」可能以購買或偷竊的方法取得的美國武器級鈽

Ex1：思科是全球最大軟體公司 Ex2：伏明霞出生於武漢

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

有完全相異的意思。因此我們認為否定詞對句子之間推論關係的判斷是非常重要的角色，

而擷取否定詞成為一項重要的工作；我們將廣義知網裡所有的定義展開式，抓取展開式中包含功能詞(Function Word) 「not」的詞彙，接著經由人工過濾的方式挑選適當的否定詞組成一部辭典用以擷取句子中的否定詞，圖 4.6 為辭典包含的否定詞。英文的否定詞，我們則是使用史丹佛剖析器 (Stanford Parser)[27] 產生詞彙的依賴關係 (Dependency)[25]，擷取依賴關係標記為「neg」的詞彙組合，將其視為否定詞的使用。

圖 4.5 否定詞範例

圖 4.6 否定詞辭典

日常生活的談話或寫作，經常會運用不同的詞彙描述相同的行為、情緒或事物，並且詞彙之間都具有相似的意義，我們稱這些詞彙為近義詞(Near-synonym)，如圖 4.7 所示，「大壽」與「華誕」在意義上都是指「生日」的意思，卻使用兩種不同的詞彙來描述。而本研究提出的作法便是希望由字面上的覆蓋程度來進行推論關係的驗證，我們認為句子之間具有較高的詞彙覆蓋比例時，能夠說明推論關係的程度高低，而近義詞的擷取能夠將相似意義的詞視為相同的詞彙，增加詞彙覆蓋的比例，亦有機會提升推論關係的判斷能力。因此我們以廣義知網為基礎，提出兩種方法計算中文詞彙之間的語意相似程度，並且給予兩個詞彙相似程度的信心值，信心值由 0 至 1 表示由相似程度最低到最高，我們將設立門檻值界定兩個詞彙是否為近義詞，同時教育部國語辭典也被用來判定

無未不沒有非

t₁：2012 年 12 月 21 日是世界末日 t₂：2012 年 12 月 21 日不是世界末日

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 4.7 近義詞範例

圖 4.8 展開式向量形式

中文近義詞。而英文的部分，我們則透過既有的工具使用 WordNet 抓取英文詞彙的同義詞集(Synset)，並未針對英文詞彙多加設計同義詞或近義詞的搜尋方法。

廣義知網當中，每個詞彙都透過義原(Sememe)、功能詞(Function Word)或語意角色 (Semantic Role)組成表達式，說明該詞彙的語意，表達式共分為兩種－概念式與展開式，

展開式皆以最基礎的義原說明詞彙語意，而展開式若有部分的表達式能轉換為廣義知網內的既有詞彙時，則會直接使用該詞彙代替其中的表達式而轉換為概念式，因此我們選擇使用展開式做為相似度計算的基底。

第一種方法，我們將詞彙的展開式進行剖析，將義原、功能詞和語意角色擷取出來，

轉換成向量的形式，如圖 4.8 所示。接著透過餘弦相似度(Cosine Similarity)計算兩個詞彙語意組成的相似程度，由 0 到 1 的分數表示相似程度低至高，公式如下所示：

Sim_Cos(𝐴, B) = ∑^𝑛_𝑖=1𝐴_𝑖 × 𝐵_𝑖

√∑^𝑛_𝑖=1(𝐴_𝑖)²× √∑ (𝐵^𝑛_𝑖=1 𝑖)², (1)

公式(1)中的 A 及 B 分別為兩個詞彙展開式轉換出來的向量集合。

展開式中使用到的每個義原及語意角色，都屬於 2.2 節提及的廣義知網分類架構中 詞彙：漲價

展開式：

{BecomeMore|增多:domain={economy|經濟},theme={price({object|物體})}}

向量表示：

[BecomeMore|增多, domain, economy|經濟, theme, price, object|物體]

t₁：尼泊爾毛派叛亂份子在新國王大壽前夕發動攻擊 t₂：尼泊爾毛派叛亂分子在新國王華誕前夕發動攻擊

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 4.9 展開式樹狀結構

的某個節點，而每個節點與節點之間大多具有上下位的關係，並且在鄰居節點之間往往也具有類似的意義，因此我們認為展開式其實是一種樹狀的結構，說明該詞彙的組成與成分比例。第二種方法中，我們首先將展開式轉換成樹狀的結構，如圖 4.9 所示；從樹狀結構可以瞭解義原、功能詞與語意角色之間的關連性，透過元素之間的關係組成，找出詞彙與詞彙的相似程度。由圖 4.9 的樹狀結構，我們擷取以每一個節點做為根節點(Root) 的子樹(Subtree)，找出兩個詞彙共用的子樹數量，並定義一個公式計算詞彙的相似程度，

其分數將由 1 至 0 表示相似程度的高低，公式如下：

Sim_Subtree(𝑆, 𝑇) = |𝑆𝑢𝑏𝑡𝑟𝑒𝑒_𝑆 ∩ 𝑆𝑢𝑏𝑡𝑟𝑒𝑒_𝑇|

|𝑆𝑢𝑏𝑡𝑟𝑒𝑒_𝑆| , (2) 公式(2)中的 S、T 代表來源的詞彙與欲比較的詞彙，Subtree 則為子樹的集合。

否定詞在句子表達中，我們認為僅能視為可能造成意義相反，但不一定是完全表達相反的情況，如圖 4.10 顯示了一個例外的狀況，否定詞的使用並沒有達到反向的效果，

而仍是說明「信任史懷哲的善心」這件事實。反義詞則是另一項表達反向意義的詞彙使用，圖 4.11 顯示一組反義詞使用的句子範例，可以發現以詞彙覆蓋比例計算時，原先獲

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

得較高比例的句對，將因為反義詞的使用而產生截然不同的意義；因此我們希望解決這個類型的問題，讓系統可以偵測反義詞的使用，並適當地調整推論關係的判斷。我們加入教育部國語相反詞辭典，用來搜尋句子當中的反義詞。同樣地，我們並未針對英文設計反義詞的搜尋方法，而是透過既有的工具，經由 WordNet 搜尋反義詞；我們並不直接使

用指定的英文詞彙找尋反義詞，而首先對欲搜尋的英文詞彙找尋同義詞，再由這些同義詞取得更多的反義詞，希望增加反義詞的數量，提升反向意義的判斷。

圖 4.10 否定詞例外

圖 4.11 反義詞範例

圖 4.12 經驗法則式推論系統架構與流程 t1：一九九一年波斯灣戰爭結束時 t2：波斯灣戰爭發生於 1991 年

由於史懷哲的品德良好，你不能不信任他的善心。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

4.2 經驗法則式推論模型

圖 4.12 為經驗法則式推論模型的系統架構與運行流程，首先將語料讀入系統後，透過數字轉換模組將數字正規化，接著進行中文斷詞或英文分詞，並標記實體名詞與解析句法結構，最後通過我們提出的計算方法與門檻值設定，計算推論關係的評分，由 0 至 1，

並根據門檻值獲得欲判斷的句子推論關係。

完成 4.1 節的元件之後，我們利用多種的分數評比，評估一個句子的意義是否能夠推論至另一個句子；我們提出一個簡單的概念為計算推論關係的基礎，認為句子當中每一個詞彙都表示一項資訊，當兩個句子裡相同的詞彙比例夠高時，則相信這兩個句子包含等價的資訊量，因而具有推論的關係。

在文檔中中英文語句語意推論 - 政大學術集成 (頁 31-0)

4. 第四章 研究方法

4.1 系統元件

4.1.4 實體名詞(Named-Entity)標記與索引分析

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

4.2 經驗法則式推論模型

4. 第四章研究方法

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學