• 沒有找到結果。

第四章 實驗設計與分析

4.3 標記情形分析

我們將系統的標記情形以人工進行細分類,並分析其錯誤標記或無 法辨識的原因,茲分別說明如下:

表 4-7 標記情形分類

編號 名稱

0 標記正確

1 線索詞出現位置超出比對範圍

2 線索詞連結方向有歧義

3 線索詞功能有岐義

4 相似句門檻值誤差

5 詞性優先順序誤差

6 詞性標註錯誤

7 語篇涵蓋範圍誤差

8 語篇切分錯誤

9 線索詞省略現象

10 未處理的語篇連貫關係

11 標點符號使用習慣

12 未收錄線索詞

13 未收錄輔助特徵

1. 線索詞出現位置超出比對範圍

我們為了提高系統標記的正確率,將比對線索詞的出現位置門 檻值設定為 3,因此會造成無法正確比對線索詞的情形發生,此類 錯誤的比例在句內為 0.13%,句間則為 0.05%,如例句 1(B)的並列 線索詞「也(D)」,因為出現在分段中的第四個位置,因此會造成系 統的標記錯誤。

例句

1

:這種作法在公司法上站不住腳

(A)

,在性質上也是延宕

蹉跎

(B)

2. 線索詞連結方向有歧義

在實際的語料中,我們觀察到有些線索詞除了一般的連結方向 之外,有時也會因應語意的需求,而出現不同的連結情況,因此會 造成無法正確連結語篇片段,此類錯誤的比例在句內為 0.18%,句 間則為 0.45%,如例句 2(B)的因果線索詞「因為(Cbb)」的連結方向,

在此長句中應為向前連結。

例句

2

:陳木在遭公股解任

(A)

,大概是因為財政部認為他續任 董座不利於該公司之健全經營

(B)

3. 線索詞功能有岐義

此類錯誤有四種主要的類型:第一種是某些線索詞具有可連結 詞彙或連結語篇的特性,因此會造成系統的標記錯誤,主要是選擇 關係的線索詞,如例句 3(C)的選擇線索詞「或(Caa)」,其連結對象 應為前後兩個動詞片語,而不是(B)(C)之間的語篇連貫關係。

例句

3

:即便央行提出浮動利息的建議

(A)

,在自由利率的體制 下

(B)

,採行或不採行仍然得由各銀行自行決定

(C)

。 第二種是具有重複出現以表示並列關係的線索詞,有時也可當 成數量名詞使用,如例句 4(A)(B)的並列線索詞「一(Neu)」,其語 法功能為普通名詞,而並非語篇線索詞:

例句

4

:「紅唇族」平均每吃一顆檳榔

(A)

,其醫療費用支出較 不吃檳榔民眾要多出零點一元

(B)

第三種是具有表示時間承接關係的線索詞,當其單獨出現在句 內時,有時為連結句間語篇,有時則只是表示語氣的結尾,並未構 成承接語篇,如例句 5(A)的承接線索詞「現在(Nd)」,其為連接句

間語篇連貫關係之線索詞,但卻會造成(A)(B)兩個句內語篇的連結 錯誤。

例句

5

:現在

(A)

,會計年度第一季尚未結束

(B)

,雲林縣就擬議 課徵「碳稅」

(C)

,可見地方財政問題之嚴重

(D)

。 第四種是因為前方或後方語篇片段中,含有具功能歧義的特殊 線索詞,因而造成系統未進行合併,如例句 6「交代(VE)」的功能 為動名詞,並不具備連接語篇的功能,卻使得系統合併時產生錯誤。

例句

6

:開發金經營者的作為是否違反公司法三六九條之四、

二六七條或其他公司治理原則,也是三、五天就能釐 清之事,金管會實應以最快速度調查,並在最短時間 內給人民一個交代。

以上四類錯誤的比例在句內為 2.36%,句間則為 3.39%。

4. 相似句門檻值誤差

此類錯誤乃因為相似句門檻值的設定,造成非並列關係的語篇 片段被標記,或應為並列關係而未被標記,此類錯誤的比例在句內 為 0.45%,句間則為 0.05%,如例句 7 (A)(B)應為並列關係,但因為 其比對結果未達門檻值,而未能成功標記:

例句

7

:這般無限上綱的行政裁量空間

(A)

,這般無所不管的「積 極管理」

(B)

,比當年的「戒急用忍」還要可怕

(C)

5. 詞性優先順序誤差

設定詞性的優先順序,雖能幫助我們減低錯誤率,但還是有部 份語篇片段,無法完全適用。其錯誤主要是線索詞詞性優先順序的 誤判,造成系統無法正確比對,此類錯誤的比例在句內為 0.09%,

句間則為 0.05%,如例句 8(B)的線索詞「連(Cbb)」其優先順序大於 真正的遞進關係線索詞「甚至(D)」,而造成功標記錯誤:

例句

8

:針對最近事故連連

(A)

,甚至連金管會都放話不排除約 談其負責人

(B)

6. 詞性標註錯誤

此錯誤為中研院斷詞系統的 POS 標記錯誤所導致,此類錯誤的 比例在句內為 0.04%,句間則未發現,如例句 9(B)的詞彙「一意想 以後現代」被標成「一(Neu) 意想(b) 以後(Nd) 現代(Nd)」,造 成系統誤以「以後(Nd)」將(A)(B)合併成承接關係:

例句

9

:但台灣若想東施效顰

(A)

,一意想以後現代解構民族榮 光云云,可得三思

(B)

7. 語篇涵蓋範圍誤差

我們將單一線索詞及特殊線索詞的涵蓋範圍門檻值設定為 3,

因此會造成無法正確連接語篇的情形發生,此類錯誤的比例在句內 為 0.59%,句間則為 2.29%,如例句 10(A)的轉折線索詞應將 (A)(B)(C)(D)四個語篇片段合併,但卻只合併了(A)(B)(C):

例句

10

:雖然我們可以自我安慰

(A)

,東亞自由貿易區因成員眾 多關係繁雜

(B)

,彼此利害、立場又很難統一

(C)

,完成 困難度頗高

(D)

;但在全球性區域經貿組織不斷出現壓 力下

(E)

,以及中、日分別積極推動與區內國家或東協 建立經貿合作關係的激烈競爭

(F)

,出現突破性結果的 可能性不能排除

(G)

8. 語篇切分錯誤

我們在切分的過程中發現有以下兩種錯誤發生。

第一種是包含在一對引號(「」)之中的語句,有時是一個完整的 語篇片段,應被系統分析及標記,但有時只是某語篇片段的一個名 詞或形容詞組,如例句 11「」所包含的語句乃形容忿懣與積怨的形 容詞組,並非完整之語篇片段:

例句

11

:還夾雜著對大規模企業「本縣拉屎,他處下蛋」的忿 懣與積怨

第二種錯誤是由於語料中有時會夾雜表示金額的數字,其中會 使用「,」來斷開數字,在切分的過程中,為避免非中文字的雜訊干 擾,因此會將所有的非中文符號全部轉成全形來處理,因此會造成 系統的誤判,而將數字間的分隔符號斷成語篇片段,如例句 12 的

「8,878」、「7,404」兩個數字,將造成此種錯誤。

例句

12

:但

1987

年每人

GDP

,香港則高達

8,878

美元居首、

新加坡

7,404

美元居次。

9. 線索詞省略現象

在實驗結果的觀察中,我們發現語篇片段之間,有時會有省略 線索詞的現象。這種現象在社論這種文類中似乎特別常見,此類現 象的比例在句內為 7.22%,句間則為 3.89%。如例句 13(C)便是省略 了線索詞「並且」,因此造成系統無法將(B)(C)兩個片段連結成並 列關係。

例句

13

:情勢如此發展

(A)

,不但出乎蔡英文意料之外

(B)

,對 以照顧地方民眾基本利益起家的民進黨政府而言

(C)

,亦是相當難堪

(D)

10. 未處理的語篇連貫關係

由於我們的研究僅處理第二章所定義的九種語篇連貫關係,因 此會出現不在處理範圍內的語篇片段出現,此類現象的比例在句內 為 36.63%,句間則為 46.79%。如例句 14(A)(B)兩個片段應為指代 關係:

例句

14

:這個事件可能模糊了焦點或偏離主題

(A)

,對台灣經濟 發展無甚幫助

(B)

11. 標點符號使用習慣

在寫作中文文章之時,有時會因為構句較為複雜或語氣停頓的 因素,而標上標點符號,但這些標點有時並非一個完整的語義表達 片 段 , 因 此 會 造 成 系 統 無 法 標 記 , 此 類 現 象 的 比 例 在 句 內 為 15.40%,句間則為 0.1%。如例句 15 (A)中的「可惜」應可與(B)片 段合併,而(B)片段也應可與(C)片段合併。

例句

15

:可惜

(A)

,讓積穢現形的

(B)

,不是像李子春這樣的體 制內改革者

(C)

,而竟然是媒體的狗仔隊

(D)

,這更顯 示司法改革的內部動力實在太過微弱

(E)

12. 未收錄線索詞

我們雖然在 2.4 節時,做過初步的線索詞探勘,但是由於我們 的收集範圍不夠,以及因為我們的實驗是採開放測試,因此會出現 未收錄線索詞影響系統標記的現象,此類現象的比例在句內為 2.85%,句間則為 3.09%。如例句 16(E)中的「乃至」並未被系統收 錄,以致無法將(D)(E)合併為遞進關係:

例句

16

:我們建議政府儘快明白宣示政策的走向

(A)

,如此一來

(B)

, 類似的爭議才有可能停歇

(C)

,對立、抗爭

(D)

,乃至衝突 的危機才有可能化解

(E)

13. 未收錄輔助特徵

有某些較為複雜的語篇片段,需要更多的輔助特徵才能進行標 記,如例句 17(C)(D)與(E)(F)兩個語篇段落,應為並列的兩個相似片 段群,但是由於目前相似句比對只針對連續的分句,對於句群之間 的比對無法處裡。此類現象的比例在句內為 0.58%,句間則為 2.14%。

例句

17

:地方財政苦不堪言

(A)

,但是

(B)

,各縣市政府、縣市 議會

(C)

,卻蓋得一棟比一棟金碧輝煌

(D)

,縣市政府 與議會首長

(E)

,公務轎車一輛比一輛高級豪華

(F)

由上之說明,我們統計出本次實驗中各項標記情況的數量及比例,

相關文件