• 沒有找到結果。

第二章 以文本為主的語篇研究

2.4 語篇線索詞研究

2.4.4 k值觀察

我們利用所篩選之線索詞組分別觀察,k 值對於抽取出的各種語篇 連貫關係線索詞組正確率的影響。我們的觀察指標有:

1. 正確詞組累計

當 k 值由小到大變化時,可以抽取出的正確線索詞組數量的變化 趨勢。

2. 涵蓋例句累計

當 k 值由小到大變化時,可以抽取出的正確線索詞組所涵蓋之 例句數量的變化趨勢。

3. 詞組平均正確率

當 k 值由小到大變化時,可以抽取出的正確線索詞組與全部詞 組的平均比例變化趨勢。

4. 詞組平均涵蓋率

當 k 值由小到大變化時,可以抽取出的正確線索詞組所涵蓋之 例句數量與全部詞組所涵蓋的數量之平均比例的變化趨勢。

由圖 2-5 及圖 2-6 可以看出,k 值對於句內之線索詞組有較好的鑑別 度。在 k 值為 0.8 時,線索詞組平均正確率及詞組平均涵蓋率可達 92%

及 94%,其數量累計分別為 76%及 93%,且其變化趨勢已呈現一收斂狀 態。反觀句間線索詞的情形則明顯的鑑別度較差,在 k 值為 0.8 時,線 索詞組數量累計可達 87%及 90%,但平均正確率及詞組平均涵蓋率卻分

別只剩 63%及 65%,且其變化趨勢尚呈現起伏的波動狀態。我們根據所

外,亦可應用在語篇標記時,用來判斷出現詞組中之任一詞彙或單一線 索詞與未知線索詞的可能連接強度。

2.4.5 單一線索詞探勘

中文語篇的線索詞可分為成對及單一兩種形式,有些成對線索詞因 語氣的輕重不同,有時也可單獨出現,例如:

例句

5

:他不但吃米飯

(A)

,也吃牛排

(B)

藉助「不但…也」這對線索詞組,可將例句中之(A)及(B)兩個片段 判定為遞進關係,若改寫成:

例句

6

:他吃米飯

(A)

,也吃牛排

(B)

則因「也」這個線索詞的單獨出現,而變成並列關係。而中文線索 詞在書寫的過程中,常會省略關聯前詞,而單用關聯後詞,如例句 7 也 可改寫為例句 8 的形式:

例句

7

:如果我們這麼做,可能會導致環境的破壞。

例句

8

:我們這麼做,可能會導致環境的破壞。

另外,也有某些情況會省略關聯後詞,而單用關聯前詞,如例句 9 也可改寫為例句 10 的形式:

例句

9

:因為情勢如此變化,所以我們不得不做這樣的決定。

例句

10

:因為情勢如此變化,我們不得不做這樣的決定。

除此之外,解證及目的這兩種語篇的線索詞都是單獨出現,例如:

例句

11

:同時也談到科學的發現不能設計或預期,也就是說

(A)

,我們應該努力創造良好的科學研究條件與環境

(B)

,真正培養努力鑽研的科學家,這才能使科學方面經 常有若干新的創獲。

藉由「也就是說」,我們可以將例句中之(A)及(B)這兩個分句片段判 定為解證關係。因此,在語篇連貫關係辨識的過程中,除了成對的線索 詞組之外,也有必要進行單一線索詞的收集及探勘工作。

單一線索詞主要分為三類:

1. 成對線索詞組的省略

由於人們在使用語言有時會為了增進溝通效率或因應語氣的輕 重不同而有簡省詞彙的趨向,而在語篇線索詞的使用上也具有這樣 的特性,因此,我們假設成對線索詞皆可分別單獨使用。

2. 語篇線索詞特性

解證及目的兩種語篇的線索詞都是單獨出現[程祥徽與田小琳

‘89],因此,我們也收集了屬於這兩個語篇的單一線索詞。

3. 特殊語篇線索詞

我們由已知的線索詞,透過 HOWNET[Dong and Dong, ‘99]中的 DEF 欄位,進行語料的觀察發現,還有一些線索詞可以幫助我們判 斷語篇片段之間的關係,但是卻未被語言學者提出,例如:我們發 現當動作句賓動詞(VE)出現在分句片段末尾位置時,具有連接兩個 語篇片段成為解證關係的特性,例如:

例句

12

:關於公司的前景,張總經理表示,未來將以生物科技 搭配醫療器具的生產為主。

由以上三種來源,我們以人工的方式進行辨識篩選,以達成探勘的 目的,共收集了 309 個單一線索詞,其中第一類線索詞有 65 個,第二 類有 60 個,第三類有 184 個。

使用單一線索詞來辨識語篇連貫關係時,還需要考慮連結方向、涵

蓋範圍以及出現位置等三個問題。因此,我們設計了以下屬性:

1. 連結方向

此屬性分為兩種情況:若由線索詞向後連結次一片段,則將此 值設為 1,若為向前連結前一片段,則設為-1。如下圖所示:

圖 2-7 連結方向示意圖 2. 出現位置

線索詞出現的位置可分為兩種,一為出現在語篇片段的前半部 份,並在我們所設定的位置門檻值內的位置,我們將此值設定為 0;

另外則為出現在語篇片段末尾,我們將此值設定為 1。至於出現於 中間位置的線索詞,我們則忽略不計。

3. 適用片段種類

可同時使用在句內及句間的線索詞,則此值設定為 1;反之若 只能使用在句內,則設定為 0。

至於單一線索詞的涵蓋範圍,我們則不另外設定屬性標示。我們的 假設是,單一線索詞的連結涵蓋範圍,為鄰近的前一或次一單獨語篇片 段或具有某些語篇連貫關係的語篇段落。如果我們能設計良好的語篇標 記優先順序及合併規則,則涵蓋範圍的問題將自動解決,例如:

例句

13

:他不但是個品學兼優的好學生

(A)

,而且還熱心助人

(B)

,所以我們班的同學都很喜歡他

(C)

在例句 9 裡的三個語篇片段中,我們先以成對線索詞「不但…而且」

合併(A)、(B)兩個語篇片段,成為新的語篇片段群(AB),然後再依我們 的假設使用「所以」這個單一線索詞向前合併(AB),如此我們便不需要 去設定可能錯誤的涵蓋門檻值,但是這個方法的正確率,取決於對各種 語篇連貫關係標示的涵蓋率,及合併規則的正確率。

2.4.6 輔助特徵探勘

我們為了提高語篇辨識的涵蓋率,因此參考程祥徽與田小琳[‘89]及 Tomohide 與 Sadao[‘05]的研究,設定了如下四種輔助特徵:

a. 當具有時間詞(Nd)詞性的詞彙,例如:「今天…明天」,出現在 連續的語篇片段時,則可判定這些語篇片段具有「承接關係」, 例如:

例句

14

:今天我預習了國、英、數三個基本科目,明天我將繼 續把理化、生物等科目也預習一遍。

b. 當具有數詞定詞(Neu)詞性的詞彙,例如:「第一…第二」,出 現在連續的語篇片段時,則可判定這些語篇片段具有「並列關 係」,例如:

例句

15

:第一、我們要振興經濟,第二、我們要防止舞弊

c. 語篇片段的末尾若出現標點符號「:」,則可判定其次一語篇 片段為「解證關係」,例如:

例句

16

IPv6

具備下列各項特性:

1.

較大的位址空間,

2.

整合 認證及安全的機制,

3.

較佳的路由效率及最佳化。

d. 若相似的語篇片段連續出現時,則可以將這些語篇片段判定為

「並列關係」,例如:

例句

17

:紅的像火,粉的像霞,白的像雪。

第三章 語篇辨識及標記

3.1 名詞定義與標記符號說明

實驗過程中所需使用之相關名詞說明如下:

1. 語篇片段:分成長句及分句語篇片段。

2. 句間關係:存在於當語篇片段單位為長句時。

3. 句內關係:存在於當語篇片段單位為分句時。

4. 語篇段落:內含數個語篇片段,並至少已合併一個或以上之語篇 連貫關係的長句群或分句群稱之。

5. 待處理文本:分成句內關係比對的長句和句間關係比對的整篇文 章。

我們在剖析的過程中,依據所制定的各種比對及合併的原則,將輸 入的文本自動標記出相應的語篇連貫關係,因此每一個語篇段落都標記 有語篇連貫關係之類型。若某語篇段落內含兩個或以上之語篇片段時,

則依規則,標記為樹狀結構,而段落與段落間的結構關係,則不予辨識,

若某一段落只有單一片段則不予標記,以下為語篇連貫關係符號表:

表 3-1 語篇連貫關係標記符號表

甚幫助。

例句

2

D1,([C1:立委或輿論如果將關切重點放在蔡英文是否聰

明抑或生澀,]|D7,([C2:以及致電目的是關切審查程序抑 或實質內容關說,]|[C3:可能模糊了焦點或偏離主

題,]))@[C4:對台灣經濟發展無甚幫助。]

例句 3 經過電腦標記產生的句間語篇連貫關係結構為例句 4,其中 每一個語篇片段皆以“|”分開:

例句

3

:行政院副院長蔡英文一通關切環評進展的電話,竟然 引發多名環評委員發表聲明,譴責行政院高層干預中 部科學園區環評審查。然而,中部科學園區、國光石 化及台塑大煉鋼廠案所涉及的環境評估、經濟發展及 社會觀感,及其背後關鍵的政府基本政策與選擇,遲 早政府必須對外說清楚、講明白。

例句

4

D5,([S1:行政院副院長蔡英文一通關切環評進展的電

話,竟然引發多名環評委員發表聲明,譴責行政院高 層干預中部科學園區環評審查。]|[S2:然而,中部科學 園區、國光石化及台塑大煉鋼廠案所涉及的環境評 估、經濟發展及社會觀感,及其背後關鍵的政府基本 政策與選擇,遲早政府必須對外說清楚、講明白。])

3.2 辨識及標記執行步驟

我們使用中央研究院所開發之線上中文斷詞系統1,進行文本之斷詞 及詞性標記的工作。並將語篇辨識及標記的工作分為三個階段,分別依 線索詞及輔助特徵的優先順序進行比對,其整體步驟如下表所示:

1 請參閱網址:http://ckipsvr.iis.sinica.edu.tw/

表 3-3 語篇連貫關係辨識及標記步驟

算法如下圖所示:

輸入:由待處理文本所形成之長度為 的陣列 InputContextArr[n n]

輸出:內含以 bi-gram 為單位比對後之n×d結果矩陣。IPKResultMir[ n,d]

1. FOR i=1 TO Min(n−1,d) 2. FOR j=1 TO n

3. 分別挑選第 j 個語篇片段及第 j+i 個語篇片段的詞彙進行比對。

4. 若比對成功,則以命中之語篇編號及i,j 之值產生合併字串,填入結果矩陣。

5.輸出結果矩陣。

圖 3-1 成對線索詞比對演算法

步驟 2:將比對後具有語篇連貫關係之二字組合併。

我們將合併之過程分為兩個部份,第一個部分稱為縱向合併,

其遞增變數為門檻值 ,此部分主要是處理同一片段的合併問題。

第二個部分稱為橫向合併,其遞增變數為n,此部分主要是處理相 鄰片段的合併問題,我們將依循以下規則:

第二個部分稱為橫向合併,其遞增變數為n,此部分主要是處理相 鄰片段的合併問題,我們將依循以下規則:

相關文件