• 沒有找到結果。

第四章 辭典模組介紹與加入近義詞

4.2 加入近義詞之英漢合併辭典建置

4.2.2 利用E-HowNet尋找近義詞

在 E-HowNet 中,用來定義及描述詞彙之語義(概念)的單位為義原或簡單概念(simpler concept) , 而 以 下 將 介 紹 E-HowNet 詞 彙 之 定 義 結 構 。 下 頁 圖 4.2 、 圖 4.3 中 的 TopLevelDefinition 和 BottomLevelExpansion 標記中含有描述詞彙語義的表示式,而 BottomLevelExpansion 表示式是 TopLevelDefinition 表示式之更細一步的意義擴充[10];

BottomLevelExpansion 表示式可以有以下幾種構成方式:由一個上位詞概念與許多特徵

<Word item = "懼高症">

<WordFreq>7</WordFreq>

<WordSense id="1">

<English>acrophobia</English>

<Phone>ㄐㄩˋ ㄍㄠ ㄓㄥˋ</Phone>

<PinYin>ju4 gao1 heng4</PinYin>

<SyntacticFunction>

<Word item = "樹幹">

<WordFreq>56</WordFreq>

<TopLevelDefinition>{BodyPart({tree|樹})}</TopLevelDefinition>

<BottomLevelExpansion>{BodyPart({tree|樹})}</BottomLevelExpansion>

</WordSense>

</Word>

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

構成之構成方式如上頁圖 4.2 所示,BottomLevelExpansion 表示式中的義原「disease|疾 病」為「懼高症」的上位詞概念,而「CoEvent={fear|害怕:cause={high|高}}」、「cause={high|

高}」為其特徵。此外在 E-HowNet 中含有兩種關係:語意角色(Semantic Role)以及函數 (function)。函數可以將一個概念轉換成另一個新的概念,如在上頁圖 4.3「樹幹」之 BottomLevelExpansion 表示式部分,函數 BodyPart( )可以將義原 tree|樹所構成的概念,

轉 換成 另一個新 的概念 。語意 角色 則 是用來建構 兩個參 數間的主題關 係(thematic relation)、性質屬性(property attribute)[25]。

在詞彙的相似度計算上,我們參考了 Liu 與 Li[16]於 2002 年提出的方法。Liu 與 Li 透過計算兩詞彙的概念語義運算式之相似度的方式來得到兩個詞彙之間的相似度,本研 究則透過計算兩詞彙的 BottomLevelExpansion 表示式之相似度的方式來得到兩個詞彙之 間的相似度。我們的想法為:因為 BottomLevelExpansion 表示式是用來描述詞彙之語義,

所以兩個互為近義詞的詞彙應該會有相似的 BottomLevelExpansion 表示式。

在本研究中我們只會利用 BottomLevelExpansion 表示式去計算詞彙相似度,而不會 利用到 TopLevelDefinition 表示式,所以在本章以下內容中我們將 BottomLevelExpansion 表示式簡稱為「表示式」。在計算表示式之相似度時我們首先會對表示式進行擷取。為 了簡化計算的複雜度,我們不從表示式中擷取結構較複雜的特徵,而僅擷取義原、由義 原與修飾義原之函數所構成之組合(以下簡稱義原函數組合)來代表該表示式。例如對 於上頁圖 4.2 中的詞彙「懼高症」,我們會擷取「懼高症」之上位詞概念「disease|疾病」

與特徵中的義原「fear|害怕」、「high|高」,對於上頁圖 4.3 中的詞彙「樹幹」會擷取

「BodyPart({tree|樹})」這個義原函數組合。

首先在義原的相似度計算上,我們沿用 Liu 與 Li 在 2002 年所使用的公式,即以下 公式(1):

𝑆𝑖𝑚(𝑝1, 𝑝2) = 𝛼

𝑑 + 𝛼 (1)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

公式(1)中的𝑝1、𝑝2為兩個義原,α則是可調節的參數。在廣義知網知識分類體系

(E-HowNet Taxonomy)中包含了兩棵子樹(subtree):{entity|事物}、{relation|關係},義 原為{entity|事物}中的節點,函數則為{relation|關係}中的節點。我們將 d 定義為 𝑝1、𝑝2在 {entity|事物}中的路徑長度(d 為一整數),若以圖 4.4 中的義原「sky |空域」、「the Pacific Ocean |太平洋」為例,則這兩個義原的 d 為 3。

Liu 與 Li 將義原的相似度計算作為概念語義運算式的相似度計算之基礎,但我們發 現若只以義原的相似度計算作為表示式之相似度計算之基礎,可能會將相似度不高的詞 彙當做近義詞。例如以下頁圖 4.5(b)中的兩個詞彙為例,因為「出聲」、「口吻」的義原皆

為「speak|說」,若只以義原作為表示式相似度計算之基礎,則這兩個詞彙的表示式之相似度為

1,所以相似度不高的出聲」會被視為「口吻」之近義詞。因此本研究在計算表示式相似

度時,不只以義原作為表示式相似度計算之基礎,另外考慮了函數對於概念的影響,以 義原或義原函數組合的相似度計算作為表示式相似度計算之基礎。義原或義原函數組合 的相似度之計算則如公式(2)所示。

圖 4.4 義原於{entity|事物}中的距離之範例 𝑆𝑖𝑚(𝑐1, 𝑐2) = 𝑊𝑓× 𝛼

𝑑 + 𝛼 (2)

<BottomLevelExpansion>{member({army|軍隊})}</BottomLevelExpansion>

</Word>

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

以下介紹詞彙的表示式相似度之計算方法。當兩個詞彙的表示式皆為義原或義原函 數組合時,則詞彙的表示式相似度可由公式(2)得到。當兩個詞彙中至少一個詞彙之表示 式是由一個上位詞概念與許多特徵構成時,我們利用公式(5) 計算詞彙的表示式的相似 度。當詞彙之表示式是由一個上位詞概念與許多特徵構成時,我們覺得表示式中的上位 詞概念是描述此詞彙之概念的主要部分,所以將上位詞概念稱為「主要概念描述」,而 由各個特徵中的義原或義原函數組合所構成的集合則稱為「次要概念描述」。在公式(5) 中的𝑆𝑖𝑚1(𝑆𝑆1, 𝑆𝑆2)為兩個詞彙表示式的「主要概念描述」的相似度,𝑆𝑖𝑚2(𝑆𝑆1, 𝑆𝑆2)為兩 個詞彙表示式的「次要概念描述」的相似度。在公式(5)中的權重𝛽𝑖的設定上,因為我們 覺得「主要概念描述」的重要性大於「次要概念描述」,所以設定𝛽1 > 𝛽2, 𝛽1+ 𝛽2 = 1 。

我們在利用公式(5)計算詞彙相似度時會分成以下兩種情形進行計算,下頁圖 4.6 則 為這兩種情形的範例,在圖中沒有用灰底標示的部分是主要概念描述,有用灰底標示的 部分則是次要概念描述。情形 1:當兩個詞彙的表示式的構成方式都是由一個上位詞概 念與許多特徵構成時(如圖 4.6 中的「僕人」、「女傭」兩詞彙),則兩詞彙表示式的 𝑆𝑖𝑚1(𝑆𝑆1, 𝑆𝑆2)可由公式(2)得到,在𝑆𝑖𝑚2(𝑆𝑆1, 𝑆𝑆2)計算上,我們沿用[16]中的集合的相 似度計算之演算法進行計算,而集合中的元素為義原或義原函數組合。情形 2:當一個 詞彙的表示式是由一個上位詞概念與許多特徵構成,另一個詞彙的表示式是由一個義原 或義原函數組合構成時(如圖 4.6 中的「僕人」、「假冒」兩詞彙),我們將由一個義原或 義原函數組合構成的表示式中的義原或義原函數組合視為「主要概念描述」,將該表示 式的「次要概念描述」視為空值;兩詞彙表示式的𝑆𝑖𝑚1(𝑆𝑆1, 𝑆𝑆2)也是由公式(2)得到,

而因為我們定義集合與空值的相似度為常數δ,所以𝑆𝑖𝑚2(𝑆𝑆1, 𝑆𝑆2)為δ。

𝑆𝑖𝑚(𝑆𝑆1, 𝑆𝑆2) = � 𝛽𝑖𝑆𝑖𝑚𝑖(𝑆𝑆1, 𝑆𝑆2)

2

𝑖=1

= 𝛽1𝑆𝑖𝑚1(𝑆𝑆1, 𝑆𝑆2) + 𝛽2𝑆𝑖𝑚2(𝑆𝑆1, 𝑆𝑆2)

(5)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

介紹了計算兩詞彙的表示式相似度之計算方法後,以下我們透過下頁圖 4.7 中的英 文詞彙“servitor”為例,說明如何取得英文詞彙的中文翻譯近義詞集。首先對“servitor”

的所有中文翻譯之表示式與所有 E-HowNet 中文詞彙之表示式進行擷取,而擷取後的表 示式如圖 4.7 中灰底標記所示。之後將“servitor”的所有中文翻譯之表示式,一一與所 有 E-HowNet 中文詞彙之表示式計算相似度後,將相似度高於門檻值的 E-HowNet 中文 詞彙視為近義詞。

以下為我們設定各個公式中所存在之可調節的參數與相似度之門檻值的過程。在各 個公式中所存在之可調節的參數分別為:𝛼、𝛿、𝛽1、𝛽2。我們將𝛼的值限制在 1.6 或 2.0,

𝛿的值限制在 0.05 或 0.1 或 0.2,因為我們設定𝛽1 > 𝛽2, 𝛽1+ 𝛽2 = 1,所以將(𝛽1, 𝛽2)的 值限制在(0.9,0.1)、(0.8,0.2)、(0.7,0.3)、(0.6,0.4)這四種。相似度之門檻值則限制在 0.9、

0.8、0.7。之後針對在不同的𝛼、δ、(𝛽1, 𝛽2)、相似度之門檻值設定下所得的結果,我 們用人工方式比較結果中的部分英文詞彙之中文翻譯近義詞,以選出較佳的參數組合。

最後我們設定𝛼為 1.6,𝛿為 0.05,𝛽1為 0.6,𝛽2為 0.4,相似度之門檻值為 0.9。

僕 人 之 表 示 式 : {human| 人 :predication={engage| 從 事 :content={affairs| 事 務:CoEvent={engage|從事}},location={family|家庭},agent={~}}}

女 傭 之 表 示 式 : {human| 人 :predication={engage| 從 事 :content={affairs| 事 務},location={family|家庭},agent={~}},gender={female|女}}

假冒之表示式:{fake|偽}

(情形 1) 主要概念描述 次要概念描述

僕人之擷取後的表示式: human|人 engage|從事、affairs|事務、family|家庭 女傭之擷取後的表示式: human|人 engage|從事、affairs|事務、family|家

庭、female|女

(情形 2) 主要概念描述 次要概念描述

僕人之擷取後的表示式: human|人 engage|從事、affairs|事務、family|家庭 假冒之擷取後的表示式: fake|偽

圖 4.6 計算詞彙相似度之兩種情形的範例

affairs|事務, family|家庭

主要概念描述: human|人 affairs|事務, family|家庭, female|女