• 沒有找到結果。

第三章、 中文詞內部語法結構自動分類

3.4 二字詞內部結構自動分類

3.4.1. 特徵值抽取

3.4.1.2. 使用之特徵值

由於本研究之問題範疇限制為「不使用詞外資訊」,故此節介紹之特徵值皆為 單一「中文字」之特徵值。實際於機器學習時之特徵值應用方法(如兩字之特徵 值直接合併、推導為機率,或依順序排列等等)則依所使用之演算法而各不相同,

此將於 3.4.2 節中詳述。

本研究自《教育部國語辭典》中抽取特徵值之最主要概念為:「以該詞性下之

『義項數』模擬該字於詞彙中為該詞性之傾向」。由於教育部國語辭典所定義之詞 性共有 9 種,意即「各詞性下之義項數」為 9 個非負實數,也就是最基本的 9 個 特徵值,稱為「基本特徵值組」。表 3-8 以「好(ㄏㄠˇ)」為例,詳細示範基本 特徵值組之算法與意義(見 31 頁)(實際辭典內容請參考圖 3-7)。

其次,我們觀察發現,部分漢字於二字詞中之詞性傾向亦與「該字於詞彙中 之位置」有關。舉例而言,「戲」若為某詞之尾字,如「看戲」、「排戲」、「聽戲」,

則詞性傾向於名詞;但若位於首字,如「戲弄」、「戲耍」之「戲」為副詞,「戲子」、

「戲精」中則為形容詞,即無強烈的名詞性;又如「好(ㄏㄠˇ)」字做動詞用時 幾乎不會出現首字而多為尾字,如「友好」、「病好」。欲以特徵值呈現此現象,應

需一大型構詞資料庫,以統計每一漢字之各詞性的位置傾向(如動詞傾向於詞首、

名詞傾向於詞尾等等)。然如前所述,正體中文缺乏標記完善之大型構詞語料庫。

即便以本研究所標之八千餘二字詞,分予九千餘漢字、每一字下又有 9 種詞性,

亦將造成極嚴重之資料空缺(data sparse)問題。

表 3-8 基本特徵值組(以「好(ㄏㄠˇ)」為例)

而觀察《教育部國語辭典》,可發覺其每一漢字條目下之每一詞條常有「例 詞」。我們或可做一假設:若某字為某詞性時通常位於詞首,則該辭典於該詞性下 之詞條舉例時,亦較容易舉出「該字位於詞首」之詞例(此假設顯然是基於對該 辭典「編纂時對所有詞條均採同一標準」之信任而來)。以此概念出發,我們遂決 定以漢字「各詞性下例詞中,該字為『首字』/『尾字』的個數」為特徵值,分 別稱為「詞首特徵值組」與「詞尾特徵值組」。而「例詞」之定義為「引號內無任 何標點符號者」,以與「例句」分開。

然我們亦觀察到,部分例詞之詞首或詞尾字並不具有代表性,如「家(ㄐㄧ ㄚ)」之例詞有「住戶不滿十家」,此詞彙頗長,已具有句子特性,其中之「家」

顯然作一獨立詞彙之用,而非作為詞彙內部之語素;又如「向」之例詞,「向有研 究」與「向前看」等,其中之「向」似亦因三、四字詞彙稍有句子特性而作獨立 詞彙使用,與二字詞內之「志向」、「方向」用法殊異。為減低此影響,本研究將

「詞首/詞尾特徵值組」所指涉之例詞先刪去五字以上者,再以「例詞之詞長」

分為二、三、四字詞三個子類。仍以「好(ㄏㄠˇ)」為例,最後完成之特徵值組 細節即如表 3-10(見 33 頁)與表 3-11(見 34 頁)。

最後,依現代漢語之常識,部分單字若作動詞用時會轉聲調為四聲或三聲(古 仄聲字)。如「衣(ㄧ)」作動詞用則轉為「ㄧˋ」;「飯(ㄈㄢˋ)」作動詞用則會 轉為「ㄈㄢˇ」。故本研究亦將聲調列為特徵值之一。如表 3-9:

表 3-9 聲調特徵值(以「好(ㄏㄠˇ)」為例)

內容 聲調

值域 輕聲(˙)或四聲( ˊˇˋ)22 意義 部份漢字轉品時聲調亦會改變。

實例 好(ㄏㄠˇ):「ˇ」

22 不另轉為實數表示,因某些機器學習工具可以字串為特徵值(如 CRF++),而非必為數字。

表 3-10 詞首特徵值組(以「好(ㄏㄠˇ)」為例)

音之條目合併,則義項數與例詞數均將變大,若合併後之特徵值仍與未合併之特 徵值並列為訓練語料,特徵值的代表性將被破壞。是以本研究選擇兩者並陳:後 續實驗中,每一漢字均將攜帶「合併所有讀音條目後之特徵值」(無論讀音是否已 知);而若該詞中之該字讀音已知23,則再加上「已知讀音條目之特徵值」。

表 3-11 詞尾特徵值組(以「好(ㄏㄠˇ)」為例)

內容 各詞性下之二、三、四字例詞中,該字為「尾字」的個數 值域 大於等於 0 之整數

意義

若某字為某詞性時通常位於詞尾,則該辭典於該詞性下之詞條舉例時 亦較容易舉出「該字位於詞尾」之詞例,可以此模擬「詞性傾向」與

「該字於詞彙中之位置」之關係。

實例

二字詞 三字詞 四字詞 詞性 特徵值 列舉 特徵值 列舉 特徵值 列舉

名 0 - 0 - 0 -

形 0 - 0 - 0 -

動 1 友好 0 - 0 -

副 0 - 0 - 0 -

助 0 - 0 - 0 -

連 0 - 0 - 0 -

介 0 - 0 - 0 -

代 0 - 0 - 0 -

歎 0 - 0 - 0 -

本節最後仍以「好(ㄏㄠˇ)」字為例,假設讀音已知,將其完整特徵值詳列 如表 3-12:

23 雖然罕有但確會發生「某詞彙之完整讀音未知,但某成分字之讀音已知」的情況。可能為該字僅有一 種讀音(但此情況下也就不會有特徵值合併與否之問題),亦或我們可由「某詞為某字某讀下之例詞」而取 得該字讀音,但於辭典中卻無法查得全詞讀音。

表 3-12 完整特徵值範例(以「好(ㄏㄠˇ)」已知讀音狀況為例)

無論讀音是否已知 已知讀「ㄏㄠˇ」

例詞數 例詞數

詞首為好 詞尾為好 詞首為好 詞尾為好 基本

二 三 四 二 三 四

基本

二 三 四 二 三 四 聲調 名 2 0 0 0 0 0 1 0 0 0 0 0 0 0 形 3 0 4 1 0 0 0 3 0 4 1 0 0 0 動 3 0 0 2 1 0 1 2 0 0 0 1 0 0 副 7 7 4 1 0 0 0 7 7 4 1 0 0 0 助 0 0 0 0 0 0 0 0 0 0 0 0 0 0 連 0 0 0 0 0 0 0 0 0 0 0 0 0 0 介 0 0 0 0 0 0 0 0 0 0 0 0 0 0 代 0 0 0 0 0 0 0 0 0 0 0 0 0 0 歎 2 0 0 0 0 0 0 2 0 0 0 0 0 0

ˇ