第三章、 中文詞內部語法結構自動分類
3.5 分類效能評估
我們於標記完成之語料上進行前述五種方法之測試,以下將詳述實驗設定、
評估方法及結果,並對效能及可改進之處進行討論。
3.5.1.
實驗設定為實際評估各種分類方法之優劣,本研究使用 3.3 節中標記完成之「精簡集」
(6187 詞)進行實驗;條件隨機域模型直接使用 CRF++(2007)為工具、支援 向量機模型則使用 LIBSVM(Chang and Lin 2001),單純貝氏模型使用 Rainbow
套件(McCallum 1998),機率法與表格法則依照 3.4.2.4 與 0 節之公式實作。
此五分類方法均於精簡集上進行 4 疊交叉驗證(4-fold cross-validation),即 以四分之三語料為訓練集、四分之一語料為測試集,依序輪巡四次。最後評估時 將各疊所得之每類精確度(precision)與回收率(recall)予以平均,再以平均精
確度與平均回收率計算出每類之 f-measure,此即巨觀平均(macro-average)。
而若演算法需調整參數(如機率法與表格法),則於訓練集中再次進行 4 疊交 叉驗證,以基本五類的平均「macro-average F-Score」為調整標的。
3.5.2.
實驗結果五種分類法於精簡集(6187 詞)上之實驗結果如表 3-15:
表 3-15 自動分類於精簡集(6187 詞)上之實驗結果
LIBSVM CRF++ Naïve Bayes 機率法 表格法
P R F P R F P R F P R F P R F 並列 0.52 0.16 0.25 0.59 0.51 0.55 0.54 0.31 0.40 0.51 0.16 0.25 0.33 0.33 0.33 修飾 0.54 0.95 0.69 0.73 0.81 0.77 0.80 0.56 0.66 0.52 0.96 0.68 0.70 0.59 0.64 主謂 - 0.00 - 0.36 0.30 0.33 0.15 0.77 0.25 - - - 0.03 0.06 0.04 動賓 0.66 0.20 0.31 0.60 0.56 0.58 0.53 0.66 0.59 0.50 0.00 0.00 0.33 0.69 0.44 動補 0.78 0.40 0.53 0.77 0.79 0.78 0.47 0.84 0.60 0.46 0.22 0.30 0.57 0.17 0.26 其他 - 0.00 - 0.31 0.17 0.22 0.11 0.29 0.16 - 0.00 - 0.15 0.13 0.14
其中參數調整結果如下:
機率法之二字例詞權重為 0.9,三字例詞權重為 0.1,四字例詞權重為 0,平 滑化參數亦為 0(即指無需平滑化);表格法之參數方面,公式(2)之α 為 1.2、2 β2
為 1.2、α3為 1.4、β3為 1、α 為 1.4、4 β 為 1,而義項數平滑化參數為 1.8(即所4
有義項數值均需加 1.8,以避免乘以 0 造成的偏差)。
圖 3-9 將類別依照標記者平均效能由高而低(即由難而易)、由右至左排列,
藉以比較分類器與標記者之平均效能。
0.00
Naïve Bayes 機率法
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
其他 主謂 並列 動補 動賓 修飾
F-Score 標記者平均
精簡集 強化精簡集
圖 3-10 精簡集、強化精簡集與標記者平均效能比較
3.5.3.
討論首先觀察整體效能,大致上較困難之構詞類別分類效能亦較差。其中以「修 飾」與「動補」兩類整體效能最佳。「修飾」效能最佳極為合理,因該類幾佔總資 料量之一半;而「動補」效能亦佳之原因,或與前方所述該類詞彙均不易為辭典 所收錄之理由相似:動補一類詞彙其詞義常由字義直接構成,望文生義即可理解,
亦即該類詞彙之組成字表義能力較強,詞義可直接由字義表現,而本研究所使用 之特徵值均依附於字彙而來,故其效能較佳。此理由較為抽象,亦難以實證分析;
然經語料觀察,我們發現「動補」一類另一效能較佳之理由:該類幾無「轉品」
現象。
所謂「轉品」,乃指某字彙常以某特定詞性出現,然於某特殊狀況時為因應構 詞所需而改變詞性。如「書桌」之「書」,通常做名詞之用,然於「書桌」詞彙中 則轉作修飾「桌」字之形容詞性字;又如「跑車」之「跑」常作動詞,於此詞彙 中則轉品為形容「車」字之形容詞性字。分析分類器錯誤後吾人得知,除標記者 本就有歧異之較困難詞彙外,分類器之錯誤常為此「轉品」現象所造成。並列、
主謂、動賓三類皆常見轉品現象,如書桌(並列轉修飾)、雪白(主謂轉修飾)、
跑車(動賓轉修飾)等,常因轉品而與「修飾」混淆,從而造成錯誤。唯「動補」
一類幾無轉品現象,故其詞會量雖未特別大,分類效能卻頗佳。
各分類器效能比較方面,CRF 佔有明顯優勢。此或與 CRF 將構詞問題視為 一序列式標記問題有關,亦即構詞問題本就需考慮位置之資訊,此乃 CRF 之專 長;而其他分類法均僅將之視為一般分類問題,故未達到 CRF 之效能。此外,機 率法明顯較表格法為差,此可顯示本研究所使用之特徵值固可代表詞性傾向,卻 非以「機率」形式體現。此現象或緣於辭典中之義項與例詞,僅為編纂辭典之專 家所思及「最具代表性之範例」,數量既少,亦無法直接將之推演為機率形式。然 由機率法所調整出之參數吾人可發現,二字例詞數對本問題之影響仍是最大的,
三字詞之權重僅為 0.1、四字詞甚至為 0;而觀察表格法之參數(α2為 1.2、β2為
1.2、α3為 1.4、β3為 1、α4為 1.4、β4為 1),首先可由α2、β2之值確實大於 1
來肯認本研究之假設:位於詞首或詞尾時之詞性傾向確實可反映於例詞數上;繼 而觀察α3、α4均為 1.4,而β3、β4均為 1(無影響),或可推知當漢字位於詞尾 時,其詞性表現與該字一般於詞彙中之詞性行為相似,唯當位於詞首時才較易因 後方字彙而改變原本的詞性。考量漢語為一「前修飾」語言,字彙位於詞首時為 修飾後方字詞,確實而較易改變自身詞性,此參數調整結果與語言學知識吻合。
最後,加入強化集語料後效能有明顯提升。此可作為「詞內結構為一高信度 之問題」的佐證,即以一人之簡易標記結果,亦具有一定程度之代表性,可作為 增進效能之強化語料。