分類效能評估

第三章、中文詞內部語法結構自動分類

3.5 分類效能評估

我們於標記完成之語料上進行前述五種方法之測試，以下將詳述實驗設定、

評估方法及結果，並對效能及可改進之處進行討論。

3.5.1.

實驗設定

為實際評估各種分類方法之優劣，本研究使用 3.3 節中標記完成之「精簡集」

（6187 詞）進行實驗；條件隨機域模型直接使用 CRF++（2007）為工具、支援向量機模型則使用 LIBSVM（Chang and Lin 2001），單純貝氏模型使用 Rainbow

套件（McCallum 1998），機率法與表格法則依照 3.4.2.4 與 0 節之公式實作。

此五分類方法均於精簡集上進行 4 疊交叉驗證（4-fold cross-validation），即以四分之三語料為訓練集、四分之一語料為測試集，依序輪巡四次。最後評估時將各疊所得之每類精確度（precision）與回收率（recall）予以平均，再以平均精

確度與平均回收率計算出每類之 f-measure，此即巨觀平均（macro-average）。

而若演算法需調整參數（如機率法與表格法），則於訓練集中再次進行 4 疊交叉驗證，以基本五類的平均「macro-average F-Score」為調整標的。

3.5.2.

實驗結果

五種分類法於精簡集（6187 詞）上之實驗結果如表 3-15：

表 3-15 自動分類於精簡集（6187 詞）上之實驗結果

LIBSVM CRF++ Naïve Bayes 機率法表格法

P R F P R F P R F P R F P R F 並列 0.52 0.16 0.25 0.59 0.51 0.55 0.54 0.31 0.40 0.51 0.16 0.25 0.33 0.33 0.33 修飾 0.54 0.95 0.69 0.73 0.81 0.77 0.80 0.56 0.66 0.52 0.96 0.68 0.70 0.59 0.64 主謂 - 0.00 - 0.36 0.30 0.33 0.15 0.77 0.25 - - - 0.03 0.06 0.04 動賓 0.66 0.20 0.31 0.60 0.56 0.58 0.53 0.66 0.59 0.50 0.00 0.00 0.33 0.69 0.44 動補 0.78 0.40 0.53 0.77 0.79 0.78 0.47 0.84 0.60 0.46 0.22 0.30 0.57 0.17 0.26 其他 - 0.00 - 0.31 0.17 0.22 0.11 0.29 0.16 - 0.00 - 0.15 0.13 0.14

其中參數調整結果如下：

機率法之二字例詞權重為 0.9，三字例詞權重為 0.1，四字例詞權重為 0，平滑化參數亦為 0（即指無需平滑化）；表格法之參數方面，公式(2)之α 為 1.2、₂ β2

為 1.2、α₃^{為 1.4、}β3^{為 1、}α 為 1.4、4 β 為 1，而義項數平滑化參數為 1.8（即所4

有義項數值均需加 1.8，以避免乘以 0 造成的偏差）。

圖 3-9 將類別依照標記者平均效能由高而低（即由難而易）、由右至左排列，

藉以比較分類器與標記者之平均效能。

0.00

Naïve Bayes 機率法

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00

其他主謂並列動補動賓修飾

F-Score 標記者平均

精簡集強化精簡集　

圖 3-10 精簡集、強化精簡集與標記者平均效能比較

3.5.3.

討論

首先觀察整體效能，大致上較困難之構詞類別分類效能亦較差。其中以「修飾」與「動補」兩類整體效能最佳。「修飾」效能最佳極為合理，因該類幾佔總資料量之一半；而「動補」效能亦佳之原因，或與前方所述該類詞彙均不易為辭典所收錄之理由相似：動補一類詞彙其詞義常由字義直接構成，望文生義即可理解，

亦即該類詞彙之組成字表義能力較強，詞義可直接由字義表現，而本研究所使用之特徵值均依附於字彙而來，故其效能較佳。此理由較為抽象，亦難以實證分析；

然經語料觀察，我們發現「動補」一類另一效能較佳之理由：該類幾無「轉品」

現象。

所謂「轉品」，乃指某字彙常以某特定詞性出現，然於某特殊狀況時為因應構詞所需而改變詞性。如「書桌」之「書」，通常做名詞之用，然於「書桌」詞彙中則轉作修飾「桌」字之形容詞性字；又如「跑車」之「跑」常作動詞，於此詞彙中則轉品為形容「車」字之形容詞性字。分析分類器錯誤後吾人得知，除標記者本就有歧異之較困難詞彙外，分類器之錯誤常為此「轉品」現象所造成。並列、

主謂、動賓三類皆常見轉品現象，如書桌（並列轉修飾）、雪白（主謂轉修飾）、

跑車（動賓轉修飾）等，常因轉品而與「修飾」混淆，從而造成錯誤。唯「動補」

一類幾無轉品現象，故其詞會量雖未特別大，分類效能卻頗佳。

各分類器效能比較方面，CRF 佔有明顯優勢。此或與 CRF 將構詞問題視為一序列式標記問題有關，亦即構詞問題本就需考慮位置之資訊，此乃 CRF 之專長；而其他分類法均僅將之視為一般分類問題，故未達到 CRF 之效能。此外，機率法明顯較表格法為差，此可顯示本研究所使用之特徵值固可代表詞性傾向，卻非以「機率」形式體現。此現象或緣於辭典中之義項與例詞，僅為編纂辭典之專家所思及「最具代表性之範例」，數量既少，亦無法直接將之推演為機率形式。然由機率法所調整出之參數吾人可發現，二字例詞數對本問題之影響仍是最大的，

三字詞之權重僅為 0.1、四字詞甚至為 0；而觀察表格法之參數（α₂^{為 1.2、}β2^為

1.2、α₃^{為 1.4、}β3^{為 1、}α4^{為 1.4、}β4^{為 1），首先可由}α2^、β2^{之值確實大於 1}

來肯認本研究之假設：位於詞首或詞尾時之詞性傾向確實可反映於例詞數上；繼而觀察α₃^、α4^{均為 1.4，而}β3^、β4均為 1（無影響），或可推知當漢字位於詞尾時，其詞性表現與該字一般於詞彙中之詞性行為相似，唯當位於詞首時才較易因後方字彙而改變原本的詞性。考量漢語為一「前修飾」語言，字彙位於詞首時為修飾後方字詞，確實而較易改變自身詞性，此參數調整結果與語言學知識吻合。

最後，加入強化集語料後效能有明顯提升。此可作為「詞內結構為一高信度之問題」的佐證，即以一人之簡易標記結果，亦具有一定程度之代表性，可作為增進效能之強化語料。

在文檔中應用於中文意見分析之詞內暨詞間語法結構自動擷取研究 (頁 52-56)

第三章、 中文詞內部語法結構自動分類

3.5 分類效能評估

3.5.1.

3.5.2.

3.5.3.

第三章、中文詞內部語法結構自動分類