k值觀察

第二章以文本為主的語篇研究

2.4 語篇線索詞研究

2.4.4 k值觀察

我們利用所篩選之線索詞組分別觀察，k 值對於抽取出的各種語篇 連貫關係線索詞組正確率的影響。我們的觀察指標有：

1. 正確詞組累計

當 k 值由小到大變化時，可以抽取出的正確線索詞組數量的變化 趨勢。

2. 涵蓋例句累計

當 k 值由小到大變化時，可以抽取出的正確線索詞組所涵蓋之 例句數量的變化趨勢。

3. 詞組平均正確率

當 k 值由小到大變化時，可以抽取出的正確線索詞組與全部詞 組的平均比例變化趨勢。

4. 詞組平均涵蓋率

當 k 值由小到大變化時，可以抽取出的正確線索詞組所涵蓋之 例句數量與全部詞組所涵蓋的數量之平均比例的變化趨勢。

由圖 2-5 及圖 2-6 可以看出，k 值對於句內之線索詞組有較好的鑑別 度。在 k 值為 0.8 時，線索詞組平均正確率及詞組平均涵蓋率可達 92%

及 94%，其數量累計分別為 76%及 93%，且其變化趨勢已呈現一收斂狀 態。反觀句間線索詞的情形則明顯的鑑別度較差，在 k 值為 0.8 時，線 索詞組數量累計可達 87%及 90%，但平均正確率及詞組平均涵蓋率卻分

別只剩 63%及 65%，且其變化趨勢尚呈現起伏的波動狀態。我們根據所

外，亦可應用在語篇標記時，用來判斷出現詞組中之任一詞彙或單一線索詞與未知線索詞的可能連接強度。

2.4.5 單一線索詞探勘

中文語篇的線索詞可分為成對及單一兩種形式，有些成對線索詞因語氣的輕重不同，有時也可單獨出現，例如：

例句

5

：他不但吃米飯

(A)

，也吃牛排

(B)

。

藉助「不但…也」這對線索詞組，可將例句中之(A)及(B)兩個片段判定為遞進關係，若改寫成：

例句

6

：他吃米飯

(A)

，也吃牛排

(B)

。

則因「也」這個線索詞的單獨出現，而變成並列關係。而中文線索詞在書寫的過程中，常會省略關聯前詞，而單用關聯後詞，如例句 7 也可改寫為例句 8 的形式：

例句

7

：如果我們這麼做，可能會導致環境的破壞。

例句

8

：我們這麼做，可能會導致環境的破壞。

另外，也有某些情況會省略關聯後詞，而單用關聯前詞，如例句 9 也可改寫為例句 10 的形式：

例句

9

：因為情勢如此變化，所以我們不得不做這樣的決定。

例句

10

：因為情勢如此變化，我們不得不做這樣的決定。

除此之外，解證及目的這兩種語篇的線索詞都是單獨出現，例如：

例句

11

：同時也談到科學的發現不能設計或預期，也就是說

(A)

，我們應該努力創造良好的科學研究條件與環境

(B)

，真正培養努力鑽研的科學家，這才能使科學方面經常有若干新的創獲。

藉由「也就是說」，我們可以將例句中之(A)及(B)這兩個分句片段判定為解證關係。因此，在語篇連貫關係辨識的過程中，除了成對的線索詞組之外，也有必要進行單一線索詞的收集及探勘工作。

單一線索詞主要分為三類：

1. 成對線索詞組的省略

由於人們在使用語言有時會為了增進溝通效率或因應語氣的輕重不同而有簡省詞彙的趨向，而在語篇線索詞的使用上也具有這樣的特性，因此，我們假設成對線索詞皆可分別單獨使用。

2. 語篇線索詞特性

解證及目的兩種語篇的線索詞都是單獨出現[程祥徽與田小琳

‘89]，因此，我們也收集了屬於這兩個語篇的單一線索詞。

3. 特殊語篇線索詞

我們由已知的線索詞，透過 HOWNET[Dong and Dong, ‘99]中的 DEF 欄位，進行語料的觀察發現，還有一些線索詞可以幫助我們判斷語篇片段之間的關係，但是卻未被語言學者提出，例如：我們發現當動作句賓動詞(VE)出現在分句片段末尾位置時，具有連接兩個語篇片段成為解證關係的特性，例如：

例句

12

：關於公司的前景，張總經理表示，未來將以生物科技搭配醫療器具的生產為主。

由以上三種來源，我們以人工的方式進行辨識篩選，以達成探勘的目的，共收集了 309 個單一線索詞，其中第一類線索詞有 65 個，第二類有 60 個，第三類有 184 個。

使用單一線索詞來辨識語篇連貫關係時，還需要考慮連結方向、涵

蓋範圍以及出現位置等三個問題。因此，我們設計了以下屬性：

1. 連結方向

此屬性分為兩種情況：若由線索詞向後連結次一片段，則將此值設為 1，若為向前連結前一片段，則設為-1。如下圖所示：

圖 2-7 連結方向示意圖 2. 出現位置

線索詞出現的位置可分為兩種，一為出現在語篇片段的前半部份，並在我們所設定的位置門檻值內的位置，我們將此值設定為 0；

另外則為出現在語篇片段末尾，我們將此值設定為 1。至於出現於中間位置的線索詞，我們則忽略不計。

3. 適用片段種類

可同時使用在句內及句間的線索詞，則此值設定為 1；反之若只能使用在句內，則設定為 0。

至於單一線索詞的涵蓋範圍，我們則不另外設定屬性標示。我們的假設是，單一線索詞的連結涵蓋範圍，為鄰近的前一或次一單獨語篇片段或具有某些語篇連貫關係的語篇段落。如果我們能設計良好的語篇標記優先順序及合併規則，則涵蓋範圍的問題將自動解決，例如：

例句

13

：他不但是個品學兼優的好學生

(A)

，而且還熱心助人

(B)

，所以我們班的同學都很喜歡他

(C)

。

在例句 9 裡的三個語篇片段中，我們先以成對線索詞「不但…而且」

合併(A)、(B)兩個語篇片段，成為新的語篇片段群(AB)，然後再依我們的假設使用「所以」這個單一線索詞向前合併(AB)，如此我們便不需要去設定可能錯誤的涵蓋門檻值，但是這個方法的正確率，取決於對各種語篇連貫關係標示的涵蓋率，及合併規則的正確率。

2.4.6 輔助特徵探勘

我們為了提高語篇辨識的涵蓋率，因此參考程祥徽與田小琳[‘89]及 Tomohide 與 Sadao[‘05]的研究，設定了如下四種輔助特徵：

a. 當具有時間詞(Nd)詞性的詞彙，例如：「今天…明天」，出現在連續的語篇片段時，則可判定這些語篇片段具有「承接關係」，例如：

例句

14

：今天我預習了國、英、數三個基本科目，明天我將繼續把理化、生物等科目也預習一遍。

b. 當具有數詞定詞(Neu)詞性的詞彙，例如：「第一…第二」，出現在連續的語篇片段時，則可判定這些語篇片段具有「並列關係」，例如：

例句

15

：第一、我們要振興經濟，第二、我們要防止舞弊

…

c. 語篇片段的末尾若出現標點符號「：」，則可判定其次一語篇片段為「解證關係」，例如：

例句

16

：

IPv6

具備下列各項特性：

1.

較大的位址空間，

2.

整合認證及安全的機制，

3.

較佳的路由效率及最佳化。

d. 若相似的語篇片段連續出現時，則可以將這些語篇片段判定為

「並列關係」，例如：

例句

17

：紅的像火，粉的像霞，白的像雪。

第三章語篇辨識及標記

3.1 名詞定義與標記符號說明

實驗過程中所需使用之相關名詞說明如下：

1. 語篇片段：分成長句及分句語篇片段。

2. 句間關係：存在於當語篇片段單位為長句時。

3. 句內關係：存在於當語篇片段單位為分句時。

4. 語篇段落：內含數個語篇片段，並至少已合併一個或以上之語篇連貫關係的長句群或分句群稱之。

5. 待處理文本：分成句內關係比對的長句和句間關係比對的整篇文章。

我們在剖析的過程中，依據所制定的各種比對及合併的原則，將輸入的文本自動標記出相應的語篇連貫關係，因此每一個語篇段落都標記有語篇連貫關係之類型。若某語篇段落內含兩個或以上之語篇片段時，

則依規則，標記為樹狀結構，而段落與段落間的結構關係，則不予辨識，

若某一段落只有單一片段則不予標記，以下為語篇連貫關係符號表：

表 3-1 語篇連貫關係標記符號表

甚幫助。

例句

2

：D1,([C1:立委或輿論如果將關切重點放在蔡英文是否聰

明抑或生澀，]|D7,([C2:以及致電目的是關切審查程序抑或實質內容關說，]|[C3:可能模糊了焦點或偏離主

題，]))@[C4:對台灣經濟發展無甚幫助。]

例句 3 經過電腦標記產生的句間語篇連貫關係結構為例句 4，其中每一個語篇片段皆以“|”分開：

例句

3

：行政院副院長蔡英文一通關切環評進展的電話，竟然引發多名環評委員發表聲明，譴責行政院高層干預中部科學園區環評審查。然而，中部科學園區、國光石化及台塑大煉鋼廠案所涉及的環境評估、經濟發展及社會觀感，及其背後關鍵的政府基本政策與選擇，遲早政府必須對外說清楚、講明白。

例句

4

：D5,([S1:行政院副院長蔡英文一通關切環評進展的電

話，竟然引發多名環評委員發表聲明，譴責行政院高層干預中部科學園區環評審查。]|[S2:然而，中部科學園區、國光石化及台塑大煉鋼廠案所涉及的環境評估、經濟發展及社會觀感，及其背後關鍵的政府基本政策與選擇，遲早政府必須對外說清楚、講明白。])

3.2 辨識及標記執行步驟

我們使用中央研究院所開發之線上中文斷詞系統¹，進行文本之斷詞及詞性標記的工作。並將語篇辨識及標記的工作分為三個階段，分別依線索詞及輔助特徵的優先順序進行比對，其整體步驟如下表所示：

1 請參閱網址：http://ckipsvr.iis.sinica.edu.tw/

表 3-3 語篇連貫關係辨識及標記步驟

算法如下圖所示：

輸入：由待處理文本所形成之長度為的陣列 InputContextArr[n n]

輸出：內含以 bi-gram 為單位比對後之n×d結果矩陣。IPKResultMir[ n,d]

1. FOR i=1 TO Min(n−1,d) 2. FOR j=1 TO n

3. 分別挑選第 j 個語篇片段及第 j+i 個語篇片段的詞彙進行比對。

4. 若比對成功，則以命中之語篇編號及i,j 之值產生合併字串，填入結果矩陣。

5.輸出結果矩陣。

圖 3-1 成對線索詞比對演算法

步驟 2：將比對後具有語篇連貫關係之二字組合併。

我們將合併之過程分為兩個部份，第一個部分稱為縱向合併，

其遞增變數為門檻值，此部分主要是處理同一片段的合併問題。

第二個部分稱為橫向合併，其遞增變數為n，此部分主要是處理相鄰片段的合併問題，我們將依循以下規則：

在文檔中以語料為基礎的中文語篇連貫關係自動標記 (頁 28-0)

第二章 以文本為主的語篇研究