第四章 實驗設計與分析
4.3 標記情形分析
我們將系統的標記情形以人工進行細分類,並分析其錯誤標記或無 法辨識的原因,茲分別說明如下:
表 4-7 標記情形分類
編號 名稱
0 標記正確
1 線索詞出現位置超出比對範圍
2 線索詞連結方向有歧義
3 線索詞功能有岐義
4 相似句門檻值誤差
5 詞性優先順序誤差
6 詞性標註錯誤
7 語篇涵蓋範圍誤差
8 語篇切分錯誤
9 線索詞省略現象
10 未處理的語篇連貫關係
11 標點符號使用習慣
12 未收錄線索詞
13 未收錄輔助特徵
1. 線索詞出現位置超出比對範圍
我們為了提高系統標記的正確率,將比對線索詞的出現位置門 檻值設定為 3,因此會造成無法正確比對線索詞的情形發生,此類 錯誤的比例在句內為 0.13%,句間則為 0.05%,如例句 1(B)的並列 線索詞「也(D)」,因為出現在分段中的第四個位置,因此會造成系 統的標記錯誤。
例句
1
:這種作法在公司法上站不住腳(A)
,在性質上也是延宕蹉跎
(B)
2. 線索詞連結方向有歧義
在實際的語料中,我們觀察到有些線索詞除了一般的連結方向 之外,有時也會因應語意的需求,而出現不同的連結情況,因此會 造成無法正確連結語篇片段,此類錯誤的比例在句內為 0.18%,句 間則為 0.45%,如例句 2(B)的因果線索詞「因為(Cbb)」的連結方向,
在此長句中應為向前連結。
例句
2
:陳木在遭公股解任(A)
,大概是因為財政部認為他續任 董座不利於該公司之健全經營(B)
。3. 線索詞功能有岐義
此類錯誤有四種主要的類型:第一種是某些線索詞具有可連結 詞彙或連結語篇的特性,因此會造成系統的標記錯誤,主要是選擇 關係的線索詞,如例句 3(C)的選擇線索詞「或(Caa)」,其連結對象 應為前後兩個動詞片語,而不是(B)(C)之間的語篇連貫關係。
例句
3
:即便央行提出浮動利息的建議(A)
,在自由利率的體制 下(B)
,採行或不採行仍然得由各銀行自行決定(C)
。 第二種是具有重複出現以表示並列關係的線索詞,有時也可當 成數量名詞使用,如例句 4(A)(B)的並列線索詞「一(Neu)」,其語 法功能為普通名詞,而並非語篇線索詞:例句
4
:「紅唇族」平均每吃一顆檳榔(A)
,其醫療費用支出較 不吃檳榔民眾要多出零點一元(B)
。第三種是具有表示時間承接關係的線索詞,當其單獨出現在句 內時,有時為連結句間語篇,有時則只是表示語氣的結尾,並未構 成承接語篇,如例句 5(A)的承接線索詞「現在(Nd)」,其為連接句
間語篇連貫關係之線索詞,但卻會造成(A)(B)兩個句內語篇的連結 錯誤。
例句
5
:現在(A)
,會計年度第一季尚未結束(B)
,雲林縣就擬議 課徵「碳稅」(C)
,可見地方財政問題之嚴重(D)
。 第四種是因為前方或後方語篇片段中,含有具功能歧義的特殊 線索詞,因而造成系統未進行合併,如例句 6「交代(VE)」的功能 為動名詞,並不具備連接語篇的功能,卻使得系統合併時產生錯誤。例句
6
:開發金經營者的作為是否違反公司法三六九條之四、二六七條或其他公司治理原則,也是三、五天就能釐 清之事,金管會實應以最快速度調查,並在最短時間 內給人民一個交代。
以上四類錯誤的比例在句內為 2.36%,句間則為 3.39%。
4. 相似句門檻值誤差
此類錯誤乃因為相似句門檻值的設定,造成非並列關係的語篇 片段被標記,或應為並列關係而未被標記,此類錯誤的比例在句內 為 0.45%,句間則為 0.05%,如例句 7 (A)(B)應為並列關係,但因為 其比對結果未達門檻值,而未能成功標記:
例句
7
:這般無限上綱的行政裁量空間(A)
,這般無所不管的「積 極管理」(B)
,比當年的「戒急用忍」還要可怕(C)
。5. 詞性優先順序誤差
設定詞性的優先順序,雖能幫助我們減低錯誤率,但還是有部 份語篇片段,無法完全適用。其錯誤主要是線索詞詞性優先順序的 誤判,造成系統無法正確比對,此類錯誤的比例在句內為 0.09%,
句間則為 0.05%,如例句 8(B)的線索詞「連(Cbb)」其優先順序大於 真正的遞進關係線索詞「甚至(D)」,而造成功標記錯誤:
例句
8
:針對最近事故連連(A)
,甚至連金管會都放話不排除約 談其負責人(B)
。6. 詞性標註錯誤
此錯誤為中研院斷詞系統的 POS 標記錯誤所導致,此類錯誤的 比例在句內為 0.04%,句間則未發現,如例句 9(B)的詞彙「一意想 以後現代」被標成「一(Neu) 意想(b) 以後(Nd) 現代(Nd)」,造 成系統誤以「以後(Nd)」將(A)(B)合併成承接關係:
例句
9
:但台灣若想東施效顰(A)
,一意想以後現代解構民族榮 光云云,可得三思(B)
。7. 語篇涵蓋範圍誤差
我們將單一線索詞及特殊線索詞的涵蓋範圍門檻值設定為 3,
因此會造成無法正確連接語篇的情形發生,此類錯誤的比例在句內 為 0.59%,句間則為 2.29%,如例句 10(A)的轉折線索詞應將 (A)(B)(C)(D)四個語篇片段合併,但卻只合併了(A)(B)(C):
例句
10
:雖然我們可以自我安慰(A)
,東亞自由貿易區因成員眾 多關係繁雜(B)
,彼此利害、立場又很難統一(C)
,完成 困難度頗高(D)
;但在全球性區域經貿組織不斷出現壓 力下(E)
,以及中、日分別積極推動與區內國家或東協 建立經貿合作關係的激烈競爭(F)
,出現突破性結果的 可能性不能排除(G)
。8. 語篇切分錯誤
我們在切分的過程中發現有以下兩種錯誤發生。
第一種是包含在一對引號(「」)之中的語句,有時是一個完整的 語篇片段,應被系統分析及標記,但有時只是某語篇片段的一個名 詞或形容詞組,如例句 11「」所包含的語句乃形容忿懣與積怨的形 容詞組,並非完整之語篇片段:
例句
11
:還夾雜著對大規模企業「本縣拉屎,他處下蛋」的忿 懣與積怨第二種錯誤是由於語料中有時會夾雜表示金額的數字,其中會 使用「,」來斷開數字,在切分的過程中,為避免非中文字的雜訊干 擾,因此會將所有的非中文符號全部轉成全形來處理,因此會造成 系統的誤判,而將數字間的分隔符號斷成語篇片段,如例句 12 的
「8,878」、「7,404」兩個數字,將造成此種錯誤。
例句
12
:但1987
年每人GDP
,香港則高達8,878
美元居首、新加坡
7,404
美元居次。9. 線索詞省略現象
在實驗結果的觀察中,我們發現語篇片段之間,有時會有省略 線索詞的現象。這種現象在社論這種文類中似乎特別常見,此類現 象的比例在句內為 7.22%,句間則為 3.89%。如例句 13(C)便是省略 了線索詞「並且」,因此造成系統無法將(B)(C)兩個片段連結成並 列關係。
例句
13
:情勢如此發展(A)
,不但出乎蔡英文意料之外(B)
,對 以照顧地方民眾基本利益起家的民進黨政府而言(C)
,亦是相當難堪(D)
。10. 未處理的語篇連貫關係
由於我們的研究僅處理第二章所定義的九種語篇連貫關係,因 此會出現不在處理範圍內的語篇片段出現,此類現象的比例在句內 為 36.63%,句間則為 46.79%。如例句 14(A)(B)兩個片段應為指代 關係:
例句
14
:這個事件可能模糊了焦點或偏離主題(A)
,對台灣經濟 發展無甚幫助(B)
。11. 標點符號使用習慣
在寫作中文文章之時,有時會因為構句較為複雜或語氣停頓的 因素,而標上標點符號,但這些標點有時並非一個完整的語義表達 片 段 , 因 此 會 造 成 系 統 無 法 標 記 , 此 類 現 象 的 比 例 在 句 內 為 15.40%,句間則為 0.1%。如例句 15 (A)中的「可惜」應可與(B)片 段合併,而(B)片段也應可與(C)片段合併。
例句
15
:可惜(A)
,讓積穢現形的(B)
,不是像李子春這樣的體 制內改革者(C)
,而竟然是媒體的狗仔隊(D)
,這更顯 示司法改革的內部動力實在太過微弱(E)
。12. 未收錄線索詞
我們雖然在 2.4 節時,做過初步的線索詞探勘,但是由於我們 的收集範圍不夠,以及因為我們的實驗是採開放測試,因此會出現 未收錄線索詞影響系統標記的現象,此類現象的比例在句內為 2.85%,句間則為 3.09%。如例句 16(E)中的「乃至」並未被系統收 錄,以致無法將(D)(E)合併為遞進關係:
例句
16
:我們建議政府儘快明白宣示政策的走向(A)
,如此一來(B)
, 類似的爭議才有可能停歇(C)
,對立、抗爭(D)
,乃至衝突 的危機才有可能化解(E)
。13. 未收錄輔助特徵
有某些較為複雜的語篇片段,需要更多的輔助特徵才能進行標 記,如例句 17(C)(D)與(E)(F)兩個語篇段落,應為並列的兩個相似片 段群,但是由於目前相似句比對只針對連續的分句,對於句群之間 的比對無法處裡。此類現象的比例在句內為 0.58%,句間則為 2.14%。
例句
17
:地方財政苦不堪言(A)
,但是(B)
,各縣市政府、縣市 議會(C)
,卻蓋得一棟比一棟金碧輝煌(D)
,縣市政府 與議會首長(E)
,公務轎車一輛比一輛高級豪華(F)
。由上之說明,我們統計出本次實驗中各項標記情況的數量及比例,