第三章、 中文詞內部語法結構自動分類
3.3 詞彙語料標記
3.3.2. 標記結果分析與文獻比較
本節主要分為三部份:首先針對上節產生之四個語料集進行統計分析,觀察 各類的分布情況;繼而為確保語料的可靠性,以進一步確保本問題之信度,對各 標記者進行一致性分析;最後將結果與其他研究團隊之標記結果比較,討論其異 同。
首先,經上節標記與過濾步驟後可得到四組語料集,其類別分佈狀態如表
3-4:
數量 2141 3681 134 1239 755 236 強化
類:並列、修飾、動賓,即佔總詞彙量八成以上,而剩下兩成則需分予包含斷詞 F-measure 標記者 κa 正確率 agreement)」,即前後兩種測量結果一致的百分比;Pc為「期望一致性(chance agreement)」,即前後兩種測 量結果預期相同的機率。
3-4:
表 3-6 二字詞標記者間一致性分析 A B C D E F A 0.79 0.62 0.70 0.68 0.68 B 0.62 0.73 0.68 0.68 C 0.61 0.66 0.63
D 0.64 0.72
E 0.66
F
0 0.2 0.4 0.6 0.8 1
B D F D E E F F E F E F C C D
A B D A B A B A C E D C A B C
標記者配對
Kappa值
圖 3-4 二字詞標記者間一致性測試
以 Kappa 一致性係數而言,其分數大小與一致性程度關係如下:0.0-0.20 為
「極低(slight)」,0.21-0.40 為「一般(fair)」,0.41-0.60 為「中等(moderate)」,
0.61-0.80 為「高度(substantial)」,而 0.81-1 則為「幾乎完全吻合(almost perfect)」。 由上述結果可看出,無論是標記者對答案之κa,抑或標記者間兩兩之 Kappa 值均 落於「高度一致」之範圍(其中κa稍高一些,此極合理,緣於答案本就是由標記
者中之多數所產生的)。而標記者間之 Kappa 值亦高,考量標記者於標記時彼此 不得交談,此結果代表「二字詞構詞分類」問題乃為一有信度之問題,此問題對 一般讀者而言,大多時候乃是可以清楚辨別的。
然標記者間之表現仍有部份岐異性,我們對標記者答錯較多之詞彙進行分 析,整理出造成歧異之四個主要原因:
(1) 字義理解之歧異
如「文物」,部分標記者認為「文物」乃指「物」而「文」為「文化、民 俗」之意,卻有標記者認為「文」與「物」乃是並列關係,是「文字、字 畫」與「物品」之意;又如「馴養」,部分標記者認為「馴」為「馴化」
之意,乃用以修飾「養」;而有標記者認為「馴」與「養」均為動作,為 並列關係。此類字義理解之歧異往往不會影響整體詞義(如「馴養」和「文 物」的意義並無曖昧處),卻會影響構詞分類。
(2) 字彙詞性判斷之歧異
如「跑走」一詞,於該詞彙中「跑」與「走」之字義並無歧異,「跑」為 跑之動作,而「走」則指離開某處。然於理解「詞性」時部份標記者認為
「走」乃指離開的「動作」、是動詞,而標為「並列」;卻有部份標記者認 為「走」乃是離開的「狀態」,是副詞性的,而標為「動補」。其他如「迎 合」、「舉起」亦發生此現象。
(3) 構詞方式不明
如「政治」,此詞彙中之「政」與「治」二字字義均堪稱明確,然此二字 是以何方式構成「政治」之義卻令人費解;又如「文化」、「自由」等詞,
其構詞方式本就極不明確,對大多標記者而言均難以清楚回答,從而造成 歧異。
(4) 對詞義認知程度之歧異
如「探花」即一例。此詞中大多標記者均標為「其他」,然卻有部份高年
級標記者將之標為「動賓」,緣於該詞彙之語源為「到各名園採摘鮮花,
迎接狀元」之意;又如「睡覺」一詞,大多標記者將之標為「動賓」,然 卻有部分標記者將之標為「並列」。因「覺」原為「醒」之意,「睡」與「覺」
本為並列,乃因後世多誤用,因沿成習,而出現了「睡個覺」此種類於動 賓之用法。
舉凡以上四點歧異原因,均不會影響對辭彙之整體理解,卻會影響構詞方式。
此為漢語極幽微之處,即便一般以中文為母語、且主修中文者亦難以判斷,可將 之視為以資訊方法難以駕馭的效能上界(upper bound)。
最後,如表 3-2 所述,構詞分類架構已為諸多研究者所提出,且諸家分類架 構大多可歸於五大基本類別。於語料標記完成後,一可行之嘗試為:將其他研究 團隊所公佈之構詞分佈統計與本研究之標記結果相互對照,便可分析其異同。我 們於是將各家已公佈之構詞分部情況整理為表 3-7(見 25 頁);若將表 3-7 中詞 彙量超過 5000 之研究成果繪製為橫條比例圖,則如圖 3-5(見 26 頁)。
由圖 3-5 中可發現,本研究所得出之各類分佈狀態與其他研究者之結果無甚 大差異(「亢世勇三字詞」一行「並列」明顯較少乃緣於三字詞之並列必須為三個 字均處於平行地位,如「中日韓」,此例極少),唯「動補」一類明顯較大。由於 該研究團隊之語料取得不易,本研究僅得推測此類較大之可能原因,可能原因有 二:其一,其他研究團隊所收錄之字彙量均遠大於 6500,可能「並列」或「修飾」
詞彙數量對動補造成了擠壓;其二,比較其他團隊與本研究,可發現其他研究者 均以「建構辭典」或「編纂資料庫」之思維展開語料標記,唯本研究乃自大型語 料庫中隨機抽取二字詞作為語料,或許辭典編纂者較不喜將「動補」一類詞彙編 入。此想法看似詭怪,實則亦有理可循。動補一類之詞彙如「落下」、「離開」、「走 掉」等等,多為詞義單純、字義明確之詞彙,就辭典編纂者角度而言,確無大量 將之編入的必要。
表 3-7 各家構詞分類分佈統計(%)15 on Chinese Computing, Singapore.;「二字詞、三字詞」為在《新詞語構詞法數據庫》中的統計(合有雙音節 詞 15751 個、三音節詞 6502 個);「人民日報」為將 1998 年 4 月 1 日至 10 日的《人民日報》70 萬字語料,
並列 修飾 主謂 動賓 動補 其他 學習(machine learning)方法處理此問題。機器學習方法通常可分為兩部份:特 徵值(feature)抽取,及以演算法自特徵值中學習從而產生分類模型(model)。