標記結果分析與文獻比較

第三章、中文詞內部語法結構自動分類

3.3 詞彙語料標記

3.3.2. 標記結果分析與文獻比較

本節主要分為三部份：首先針對上節產生之四個語料集進行統計分析，觀察各類的分布情況；繼而為確保語料的可靠性，以進一步確保本問題之信度，對各標記者進行一致性分析；最後將結果與其他研究團隊之標記結果比較，討論其異同。

首先，經上節標記與過濾步驟後可得到四組語料集，其類別分佈狀態如表

3-4：

數量 2141 3681 134 1239 755 236 強化

類：並列、修飾、動賓，即佔總詞彙量八成以上，而剩下兩成則需分予包含斷詞 F-measure 標記者 κa 正確率 agreement）」，即前後兩種測量結果一致的百分比；Pc為「期望一致性（chance agreement）」，即前後兩種測量結果預期相同的機率。

3-4：

表 3-6 二字詞標記者間一致性分析ＡＢＣＤＥＦＡ 0.79 0.62 0.70 0.68 0.68 Ｂ 0.62 0.73 0.68 0.68 Ｃ 0.61 0.66 0.63

Ｄ 0.64 0.72

Ｅ 0.66

Ｆ

0 0.2 0.4 0.6 0.8 1

B D F D E E F F E F E F C C D

A B D A B A B A C E D C A B C

標記者配對

Kappa值

圖 3-4 二字詞標記者間一致性測試

以 Kappa 一致性係數而言，其分數大小與一致性程度關係如下：0.0-0.20 為

「極低（slight）」，0.21-0.40 為「一般（fair）」，0.41-0.60 為「中等（moderate）」，

0.61-0.80 為「高度（substantial）」，而 0.81-1 則為「幾乎完全吻合（almost perfect）」。由上述結果可看出，無論是標記者對答案之κa，抑或標記者間兩兩之 Kappa 值均落於「高度一致」之範圍（其中κ_a稍高一些，此極合理，緣於答案本就是由標記

者中之多數所產生的）。而標記者間之 Kappa 值亦高，考量標記者於標記時彼此不得交談，此結果代表「二字詞構詞分類」問題乃為一有信度之問題，此問題對一般讀者而言，大多時候乃是可以清楚辨別的。

然標記者間之表現仍有部份岐異性，我們對標記者答錯較多之詞彙進行分析，整理出造成歧異之四個主要原因：

(1) 字義理解之歧異

如「文物」，部分標記者認為「文物」乃指「物」而「文」為「文化、民俗」之意，卻有標記者認為「文」與「物」乃是並列關係，是「文字、字畫」與「物品」之意；又如「馴養」，部分標記者認為「馴」為「馴化」

之意，乃用以修飾「養」；而有標記者認為「馴」與「養」均為動作，為並列關係。此類字義理解之歧異往往不會影響整體詞義（如「馴養」和「文物」的意義並無曖昧處），卻會影響構詞分類。

(2) 字彙詞性判斷之歧異

如「跑走」一詞，於該詞彙中「跑」與「走」之字義並無歧異，「跑」為跑之動作，而「走」則指離開某處。然於理解「詞性」時部份標記者認為

「走」乃指離開的「動作」、是動詞，而標為「並列」；卻有部份標記者認為「走」乃是離開的「狀態」，是副詞性的，而標為「動補」。其他如「迎合」、「舉起」亦發生此現象。

(3) 構詞方式不明

如「政治」，此詞彙中之「政」與「治」二字字義均堪稱明確，然此二字是以何方式構成「政治」之義卻令人費解；又如「文化」、「自由」等詞，

其構詞方式本就極不明確，對大多標記者而言均難以清楚回答，從而造成歧異。

(4) 對詞義認知程度之歧異

如「探花」即一例。此詞中大多標記者均標為「其他」，然卻有部份高年

級標記者將之標為「動賓」，緣於該詞彙之語源為「到各名園採摘鮮花，

迎接狀元」之意；又如「睡覺」一詞，大多標記者將之標為「動賓」，然卻有部分標記者將之標為「並列」。因「覺」原為「醒」之意，「睡」與「覺」

本為並列，乃因後世多誤用，因沿成習，而出現了「睡個覺」此種類於動賓之用法。

舉凡以上四點歧異原因，均不會影響對辭彙之整體理解，卻會影響構詞方式。

此為漢語極幽微之處，即便一般以中文為母語、且主修中文者亦難以判斷，可將之視為以資訊方法難以駕馭的效能上界（upper bound）。

最後，如表 3-2 所述，構詞分類架構已為諸多研究者所提出，且諸家分類架構大多可歸於五大基本類別。於語料標記完成後，一可行之嘗試為：將其他研究團隊所公佈之構詞分佈統計與本研究之標記結果相互對照，便可分析其異同。我們於是將各家已公佈之構詞分部情況整理為表 3-7（見 25 頁）；若將表 3-7 中詞彙量超過 5000 之研究成果繪製為橫條比例圖，則如圖 3-5（見 26 頁）。

由圖 3-5 中可發現，本研究所得出之各類分佈狀態與其他研究者之結果無甚大差異（「亢世勇三字詞」一行「並列」明顯較少乃緣於三字詞之並列必須為三個字均處於平行地位，如「中日韓」，此例極少），唯「動補」一類明顯較大。由於該研究團隊之語料取得不易，本研究僅得推測此類較大之可能原因，可能原因有二：其一，其他研究團隊所收錄之字彙量均遠大於 6500，可能「並列」或「修飾」

詞彙數量對動補造成了擠壓；其二，比較其他團隊與本研究，可發現其他研究者均以「建構辭典」或「編纂資料庫」之思維展開語料標記，唯本研究乃自大型語料庫中隨機抽取二字詞作為語料，或許辭典編纂者較不喜將「動補」一類詞彙編入。此想法看似詭怪，實則亦有理可循。動補一類之詞彙如「落下」、「離開」、「走掉」等等，多為詞義單純、字義明確之詞彙，就辭典編纂者角度而言，確無大量將之編入的必要。

表 3-7 各家構詞分類分佈統計（％）¹⁵ on Chinese Computing, Singapore.；「二字詞、三字詞」為在《新詞語構詞法數據庫》中的統計（合有雙音節詞 15751 個、三音節詞 6502 個）；「人民日報」為將 1998 年 4 月 1 日至 10 日的《人民日報》70 萬字語料，

並列修飾主謂動賓動補其他學習（machine learning）方法處理此問題。機器學習方法通常可分為兩部份：特徵值（feature）抽取，及以演算法自特徵值中學習從而產生分類模型（model）。

在文檔中應用於中文意見分析之詞內暨詞間語法結構自動擷取研究 (頁 32-39)

第三章、 中文詞內部語法結構自動分類

3.3 詞彙語料標記

3.3.2. 標記結果分析與文獻比較

第三章、中文詞內部語法結構自動分類