第四章 語料前處理及近義詞典建置
4.3 英漢動名詞組合對列
4.3.2 近義詞典建置
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
24
表 4.9 合併字典範例 英文詞彙:confusion
辭典 辭典中的中文翻譯詞彙
牛津詞典 迷亂、惶惑、混亂、雜亂、混淆、混同 譯典通字典 混亂、騷動、混亂狀況、混淆、困惑、慌亂
英漢合併字典 混亂、混亂狀況、騷動、混淆、困惑、慌亂、迷亂、惶惑、
雜亂、混同
4.3.1.3
合併牛津詞典及譯典通字典由上頁表 4.8 可知,不同辭典對於英文詞彙所定義的中文對應詞彙並不完全相 同;因此本研究將牛津詞典和譯典通字典的中文對應詞彙合併,以增加英文詞彙 的中文對應詞彙數目,如表 4.9 所示。經合併之後,本研究的「英漢合併字典」
總共含有 99805 個英文詞彙。
4.3.2
近義詞典建置有了英漢合併字典,我們希望能再擴充多一點的中文對應詞彙。本研究設想,如 果以英漢合併字典的中文對應詞彙為基礎,找尋與中文對應詞彙意義相近的詞 彙,也就表示這些詞彙與該英文詞彙的意義也會近似。我們選擇透過兩種途徑來 增 加 我 們 的 中 文 對 應 詞 彙 : 使 用 中 央 研 究 院 現 代 漢 語 一 詞 泛 讀 [21] 及 E-HowNet[6]來找尋意義相近的近義詞彙,由於這些近義詞彙是經過第二個步驟 擴充的詞彙,因此我們稱之為「次擴充詞彙」。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
25
圖 4.1 一詞泛讀系統介面
4.3.2.1
一詞泛讀圖 4.1 為現代漢語一詞泛讀系統(簡稱為一詞泛讀)的介面,按下「近義詞 Near Synonyms」的按鈕可以看到與輸入查詢字「混亂」相關的近義詞。我們將英漢 合併字典中的中文對應詞彙輸入至一詞泛讀系統,最後回收系統所傳回的近義詞 群(如圖中以粗框框貣的詞彙群)。如果改用「混亂狀況」這一個片語輸入一詞 泛讀系統,一詞泛讀系統會提醒我們這個查詢並不是一個詞彙。這樣的回傳結果 有助於近義詞典的建構,即使在英漢合併字典中我們認定的對應詞彙其實並不是 真正的詞彙,但是輸入一詞泛讀系統後,我們也不會得到錯誤的近義詞而擾亂近 義詞集的構成。換句話說,一詞泛讀系統所回傳的結果是品質優良的近義詞群,
且對於輸入的查詢詞彙有嚴謹的過濾作用。
我們再以英文詞彙「confusion」為例,如下頁表 4.10 所示,「confusion」在 我們的英漢合併字典中總共有十個中文對應詞彙,而這十個詞彙依據表格次序,
第一(混亂)、三(騷動)、四(混淆)、六(慌亂)、八(惶恐)和第九個詞彙(雜
‧
英文詞彙:confusion【英漢合併字典】 混亂、混亂狀況、騷動、混淆、困惑、慌亂、迷亂、惶
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
27
<Word item = "和鳴">
<WordFreq>0</WordFreq>
<WordSense id="1">
<English>harmonious</English>
<Phone>ㄏㄜˊ ㄇㄧㄥˊ</Phone>
<PinYin>he2 ming2</PinYin>
<SyntacticFunction>
<POS>VA4</POS>
<Freq>0</Freq>
</SyntacticFunction>
<TopLevelDefinition>{和諧:theme={聲音}}</TopLevelDefinition>
<BottomLevelExpansion>
{harmonious|和諧:theme={sound|聲}}
</BottomLevelExpansion>
</WordSense>
</Word>
圖 4.2 以「和鳴」一詞解釋 E-HowNet 詞彙架構
4.3.2.2 E-HowNet
除了從一詞泛讀得到次擴充詞彙,本研究也從 E-HowNet 中找尋近義詞;概念與 Budanitsky[1] 相 似 , 透 過 完 整 定 義 詞 彙 語 意 的 架 構 尋 找 近 義 詞 。 首 先 介 紹 E-HowNet 的結構,如圖 4.2 所示為「和鳴」一詞的內部定義。<WordFreq>代表 該詞彙在中央研究院五百院詞語料庫中的詞頻統計數據,<WordSense> 則是以 數字編號代表該詞彙有幾種語意,「和鳴」一詞在這裡只有一種語意,因此標記 為 1。而在一個語意之下,「和鳴」可以對應到英文的「harmonious」一詞,<Phone>
及 <PinYin> 則 說 明 了 詞 彙 的 發 音 方 式 , <POS> 標 示 詞 彙 的 詞 性 。
<TopLevelDefinition> 及 <BottomLevelExpansion> 則是本研究尋找近義詞最注 重的兩個標記內容,因為這兩種標記含有定義詞彙的「義原」。「義原」就是定義
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
28
表 4.11 E-HowNet 之義原編寫情況一
類型一
<Word item = "混亂">
<TopLevelDefinition>{chaotic|紛亂}</TopLevelDefinition>
<BottomLevelExpansion>
{chaotic|紛亂}
</BottomLevelExpansion>
</WordSense>
及解釋詞彙的單位,在 E-HowNet 中以「英文|中文」的形式表示,例如上頁圖 4.2 中的「harmonious|和諧」及「sound|聲」。「和鳴」一詞的 <TopLevelDefinition> 定 義了「和鳴」與「和諧」相關,而且主題是「聲音」的和諧; <BottomLevelExpansion>
則列出「和諧」的義原「harmonious|和諧」及「聲音」的義原「sound|聲」,因而 可得知 <BottomLevelExpansion> 是針對 <TopLevelDefinition> 的內容作更細 一步的意義拓展。
了解 E-HowNet 的架構及義原形式後,我們認為既然 E-HowNet 的每一個詞 彙都有其定義義原,那麼就表示詞彙之間若具有相近的意思,則他們應該也享有 相近的義原群;我們可以比對詞彙之間的義原群交集現象尋找近義詞,也就是利 用英漢合併字典透過 E-HowNet 得到次擴充詞彙。我們發現在 E-HowNet 中的
<TopLevelDefinition> 及 <BottomLevelExpansion> 大略分為兩種編寫的情況,
第一種類型如表 4.11 所示,以「混亂」一詞為例, <TopLevelDefinition> 即出 現義原,且與 <BottomLevelExpansion> 的義原一模一樣;第二種類型則較為複 雜,見下頁表 4.12,以「厚紙板」一詞為例, <TopLevelDefinition> 的敘述為
「厚」的「紙板」兩個詞彙,而「厚」與「紙板」在 E-HowNet 中又有各自定義 的義原;我們發現,詞彙「厚紙板」的 <BottomLevelExpansion> 即為「紙板」
及「厚」兩個詞彙的 <BottomLevelExpansion> 內容聯集,也即是義原的聯集。
因此,我們可以透過 <TopLevelDefinition> 及 <BottomLevelExpansion> 的義原 內容來判斷詞彙之間是否為意義相近的近義詞。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
29
表 4.12 E-HowNet 之義原編寫情況二
類型二
<Word item = "厚紙板">
<WordSense id="1">
<TopLevelDefinition>
{紙板:qualification={厚}}
</TopLevelDefinition>
<BottomLevelExpansion>
{paper|紙張:telic={wrap|包紮:material={~}}, attribute={hard|硬},qualification={thick|厚}}
</BottomLevelExpansion>
</WordSense>
</Word>
<Word item = "紙板">
<TopLevelDefinition>
{紙:telic={包裝:material={~}},attribute={硬}}
</TopLevelDefinition>
<BottomLevelExpansion>
{paper|紙張:telic={wrap|包紮:
material={~}},attribute={hard|硬}}
</BottomLevelExpansion>
</Word>
<Word item = "厚">
<TopLevelDefinition>{thick|厚}</TopLevelDefinition>
<BottomLevelExpansion>{thick|厚}</BottomLevelExpansion>
</Word>
下頁圖 4.3 為英文詞彙「indignation」透過中文對應詞彙至 E-HowNet 形成 義原組合的過程。在我們的英漢合併字典中,「indignation」擁有三個中文對應詞 彙,分別為「憤怒、憤慨及義憤」。而這三個中文詞彙恰巧各只有一種語意,在 只有一種語意的情形之下,中文詞彙的義原也只會有一群;「憤怒」及「憤慨」
的義原只有「生氣」一個義原,「義憤」的義原群則由「情感」及「生氣」兩個 義原組成。我們發現,E-HowNet 的義原本身同時也是一個詞彙,而且也有定義 自己的義原。這種定義 E-HowNet 義原的義原,我們稱之為「二次義原」。舉個
‧
E-HowNet 中文詞彙 英文詞彙 indignation
生氣
indignation :
瞋 目 , 憤 世 嫉 俗 ,
indignation
生氣
生物、健壯
情感、生氣
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
31
如上頁圖 4.4 所示,英文詞彙「indignation」有了義原組合群之後,本研究 將 E-HowNet 中 88075 個中文詞彙都找出各自的義原及二次義原形成義原組合,
然後從「indignation」的義原組合群逐一地把每條義原組合取出,與 E-HowNet 的 88075 個中文詞彙的義原組合作餘弦相似度 (cosine similarity) 比較,並設定 門檻值為 0.7,取出相近的近義詞,成為我們從 E-HowNet 中得到的次擴充詞彙。
最後,我們將從一詞泛讀系統及 E-HowNet 得到的次擴充詞彙與英漢合併字典整 合,形成我們擴充英文詞彙的中文對應詞彙字典,稱之為「近義詞典」。近義詞 典的內容格式如表 4.13 所示,【Dictionary】標示的是英漢合併字典中的詞彙,
【E-HowNet】則是取自 E-HowNet 的次擴充詞彙,【一詞泛讀】標示的次擴充詞 彙則來自於一詞泛讀系統。
表 4.13 近義詞典內容格式範例 英文詞彙:indignation
【Dictionary】 憤怒, 憤慨, 義憤
【E-HowNet】 瞋目, 憤世嫉俗, 七竅生煙, 憤憤不平, 愀然變色, 飲血, 暴 怒, 瞋怒, 氣死人, 含怒, 耍脾氣, 髮指, 有氣, 盛怒, 橫眉豎目, 發火, 鬱憤, 發狠, 負氣, 賭氣, 怒火中燒, 發怒, 嗔, 掛火, 忿, 變色, 嘔氣, 悁, 恚, 怒, 憤, 慍, 瞋, 氣急攻心, 火, 鳥氣, 氣急敗壞, 憤恨不平, 嗔怒, 火冒千丈, 戾 氣, 火冒三丈, 慍色, 憤然, 滿面怒容, 爆跳, 惱羞成怒, 狂怒, 動氣, 惱怒, 惱恨, 匿怨, 怒潮, 忿然, 悻悻然, 怒火, 動火, 悻悻, 天怒人怨, 恚怒, 怒髮 衝冠, 息怒, 動怒, 怒氣, 怒意, 怨怒, 忿忿不平, 怨懣, 怒斥, 冒火, 氣沖沖, 忿鷙, 氣極敗壞, 憤怒, 憤憤, 憤慨, 憤愾, 愾憤, 慍怒, 火氣, 惱火, 勃然大 怒, 光火, 憤世, 怒色, 無名火, 滯憤, 氣呼呼, 氣不過, 激憤, 義憤, 羞憤, 老羞成怒, 氣死, 忿怒, 忿忿, 彆氣, 氣憤憤, 無明火, 鬧脾氣, 拂袖而去, 氣 走, 氣頭上, 怒不可遏, 作怒, 使性子, 幽怨, 幽恨, 氣沖牛斗, 發脾氣, 震怒, 止怒, 怒沖沖, 一肚子氣, 氣昏, 一肚子火, 氣憤, 氣惱, 毆氣, 氣忿, 怒氣沖 沖, 氣咻咻, 忿忿然, 氣哼哼, 好氣, 氣嘟嘟, 氣噓噓, 怒氣衝天, 氣憤難平, 衝冠, 惱, 悲憤, 退火, 涼茶, 洩忿, 洩憤, 一朝之忿, 降火, 雷霆
【一詞泛讀】 憤怒, 氣, 氣憤, 憤, 憤慨, 氣惱, 惱怒, 惱羞成怒, 激憤, 憤 然, 惱, 慍, 憤激, 氣沖沖, 憤憤, 義憤, 含怒, 怒沖沖, 怒氣攻心, 怒氣沖沖, 氣乎乎, 氣鼓鼓, 氣囊囊, 悻悻, 恚, 艴然
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
32
句對編號:54098
英文動名詞組合 對列關係 中文動名詞組合
dobj(round-7, edge-10)
dobj(清除-12, 部分-19)
dobj(remove-15, portion-17)
dobj(使-24, 肩部-27)dobj(进-29, 圆滑-31) 圖 4.5 英漢動名詞組合對列範例