以語料為基礎的中文語篇連貫關係自動標記

(1)

國立交通大學

資訊科學與工程研究所

碩士論文

以語料為基礎的中文語篇連貫關係自動標記

Corpus-Based Coherence Relation Tagging in Chinese

Discourse

研究生：鄭守益

指導教授：梁婷博士

(2)

以語料為基礎的中文語篇連貫關係自動標記

研究生：鄭守益指導教授：梁婷

國立交通大學資訊科學與工程研究所

摘要

語篇分析是文本理解中一項不可缺乏的工作，以釐清文章的論題或邏輯結構。因此，本論文乃以語料為主的方法，針對語篇的表層特徵進行收集及探勘，並制定相關的規則，以及提出一套有效的中文語篇自動標記程序。我們使用中研院平衡語料庫 3.0 版作為探勘的語料，計有報導、傳記日記、散文、信函、評論、說明手冊等文類，共 7265 篇。分別針對並列、承接、遞進、選擇、轉折、因果、條件、解證、目的等九種語篇類別，進行線索詞和連續詞性、特殊標點符號等輔助特徵的探勘。在我們的實驗中，使用 100 篇平均字數為 1500 字的報紙社論進行效能評估，在句內的標記部份，正確率可達到 91%，召回率是 95%，篩檢正確率是 98%。另外，在句間的標記部分，正確率可達到 86%，召回率是 93%，篩檢正確率是 95%，。我們相信藉此語篇標記的研究，有助於將其應用在問答系統、作文評分系統、自動摘要和自動投影片產生系統之上。關鍵詞：中文、連貫關係、特徵分析、語篇標記、詞彙探勘

(3)

Corpus-Based Coherence Relation Tagging in Chinese

Discourse

Student

:

Shou-Yi

Cheng

Advisor

:

Tyne

Liang

Institute of Computer Science and Engineering

ABSTRACT

Discourse analysis plays an important role of document understanding and is crucial for clarifying the proposition and logical structure of the document. Therefore, this thesis is aimed to built a automated Chinese discourse tagging system by collecting and expanding the coherence feature of discourse base on corpus study and to design the corresponding rules. We used the written documents from Sinica Balance Corpus 3.0 as our mining corpus. It includes 7265 articles covering news, biographies, essays, letters, commentary and illustration manuals. We mine individually cue term, continuous POS tag and peculiar punctuation marks for nine types of rhetorical relations of Chinese discourse, that includes Coordinate, Continue, Option, Forward, Disjunctive, Cause and Effect, Conditions, Elaboration and Goal. In our experiment, we used 100 news editorial articles, each of which contains around 1500 words(1424~1558), as testing corpus. The precision, recall and filtration precision of intra sentence tagging achieve 91%, 95% and 98%. On the other hand, the precision, recall and filtration precision of inter sentence

(4)

tagging achieve 86%, 93% and 95%.

Keyword: Chinese, Coherence relation, surface feature analysis, discourse tag, cue term mining.

(5)

誌謝

本篇論文能夠順利完成，首先要感謝我的指導教授梁婷博士，在百忙之中撥冗悉心指導，給予許多啟發，感念此恩將永銘在心。感謝所上師長們對我的教誨與提攜，讓我得以一窺管理學術的堂奧。另外，還要特別感謝口試委員陳信希教授、李嘉晃教授及劉美君教授細心審閱全文，對於未臻詳盡之處，給予精闢指正與寶貴之意見，使整篇論文更加完整並契合主題。此外，更要謝謝我的家人，尤其是我的老婆青貞的支持、關懷與體諒，陪我走過這段充滿壓力與痛苦艱熬的論文寫作期間。最後，我要感謝所有實驗室的學長姐、同學以及學弟妹，同窗的情誼是永遠無法抹滅的記憶，你們都是我最好的朋友。僅以此篇論文獻給我最愛的家人，及曾經關愛、協助過我的人，再次謝謝您們!

(6)

目錄

中文摘要 ...i 英文摘要 ...ii 誌謝 ...iv 目錄 ...v 表目錄 ...vii 圖目錄 ... viii 第一章諸論 ...1 1.1 研究動機...1 1.2 相關研究...2 1.3 系統概觀...4 第二章以文本為主的語篇研究 ...6 2.1 切分片段...6 2.2 語篇連貫關係分類...6 2.3 語料使用...9 2.4 語篇線索詞研究...10 2.4.1 現有線索詞收集... 11 2.4.2 線索詞詞性篩選... 11 2.4.3 成對線索詞組探勘...13 2.4.4 k值觀察...19 2.4.5 探勘單一線索詞...21 2.4.6 探勘輔助特徵...24 第三章語篇辨識及標記 ...26 3.1 名詞定義與標記符號說明...26 3.2 辨識及標記執行步驟...28 3.2.1 成對線索詞組比對...29 3.2.2 單一線索詞比對...31 3.2.3 輔助特徵及特殊單一線索詞比對...34 3.3 標記範例與說明...41 3.3.1 可完全標記之情況...41 3.3.2 未能完全標記之情況...43 第四章實驗設計與分析 ...45 4.1 實驗語料使用...45 4.2 實驗結果...45 4.3 標記情形分析...51 第五章結論 ...58

(7)

(8)

表目錄

表 2-1 語篇連貫關係分類 ...7 表 2-2 語料研究資料數量統計表 ...10 表 2-3 排除詞性表 ... 11 表 2-4 線索詞分布位置觀察結果 ...14 表 2-5 句間線索詞連結範圍統計結果 ...14 表 2-6 句內線索詞連結範圍統計結果 ...16 表 3-1 語篇連貫關係標記符號表 ...27 表 3-2 語篇連貫關係符號表 ...27 表 3-3 語篇連貫關係辨識及標記步驟 ...29 表 3-4 中文相似句實驗範例 ...36 表 3-5 例句 12 語篇標記流程 ...41 表 3-6 例句 13 語篇標記流程 ...43 表 4-1 實驗語料明細表 ...45 表 4-2 可能的標記情況 ...45 表 4-3 標記情況統計表 ...47 表 4-4 語篇數量分佈統計表 ...48 表 4-5 表層特徵整理 ...49 表 4-6 句內表層特徵使用數量統計 ...50 表 4-7 標記情形分類 ...51 表 4-8 句內標記情形數量統計表 ...57

(9)

圖目錄

圖 1-1 語篇辨識及標記流程圖 ...5 圖 2-1 觀察語篇線索詞流程 ...10 圖 2-2 種子線索詞詞性列表 ... 11 圖 2-3 語篇連結示意圖 ...13 圖 2-4 線索詞分布位置 ...17 圖 2-5 句內線索詞組 K 值變化圖 ...20 圖 2-6 句間線索詞組 k 值變化圖 ...20 圖 2-7 連結方向示意圖 ...23 圖 3-1 成對線索詞比對演算法 ...30 圖 3-2 成對線索詞合併演算法 ...31 圖 3-3 向前合併線索詞比對及合併演算法 ...33 圖 3-4 向後合併線索詞比對及合併演算法 ...34 圖 3-5 連續特定詞性詞彙之比對及合併演算法 ...35 圖 3-6 中文相似句測試圖 ...37 圖 3-7 相似的語篇片段比對演算法 ...38 圖 3-8 特殊線索詞比對及合併演算法 ...40 圖 3-9 例句 12 斷句及 POS 標記結果...41 圖 3-10 例句 12 語篇標記結果 ...42 圖 3-11 例句 12 語篇標記轉換結果 ...42 圖 3-12 例句 12 語篇標記樹狀結構 ...42 圖 3-13 例句 13 斷句及 POS 標記結果...43 圖 3-14 例句 13 語篇標記結果 ...43 圖 3-15 例句 13 語篇標記轉換結果 ...44 圖 3-16 例句 13 語篇標記樹狀結構 ...44 圖 4.1 標記結果 ...46

(10)

第一章諸論

1.1 研究動機

隨著電腦可處理的語料數量急速成長，自然語言處理技術的開發不論是在資訊的擷取、知識庫建立的自動化、和語言學習等應用上都日顯重要。是以麻省理工學院在 2001 年元月/二月的科技評論中便將自然語言處理列為未來改變世界十大資訊科技之一。在眾多的自然語言處理技術中，文本理解是能否正確分析及處理語料的重要基礎之一。文本理解的層次小從詞彙、句子，大到段落甚至整篇文章，其最重要的關鍵便在於能否正確的掌握語義的脈絡。以往中文文本處理多以句子為主[林孝璘 ‘01]，但以句號作為結尾的中文句子有時會錯用，而妨礙表達。例如根據[楊遠 ‘62]的統計，在五千篇《中國學生週報》文稿中，其中逗點到底者佔 55%，用得不精確者佔 40%，用得正確者 5%。另一方面，由於中文句子中重要的語法項可以刪略[曹逢甫 ‘95]，因此，當句子單獨地解釋會有歧義，但由上下文裡處理，歧義就消解。另外，有些語法學家如程祥徽等人[ ‘89]發現有時單一句子無法自足，必須由前後銜接連貫的一組句子，定義為句群，才可以解決某些語法問題。句群中有一個明晰的中心意義，因此語篇結構分析可從某個主題引導的一些述題之間的關係來探討。由上可知，語篇分析是文本理解中一項不可缺乏的工作，以釐清文章的論題或邏輯結構。根據[胡壯麟 ‘94]，語篇是指在一定語境下表示完整語義的結構，它可以是一個詞、一個句子、或一群連貫的句子組合，

(11)

應有一個論題結構或邏輯結構。例如在下面的範例中：例句1：雖然天山這時並不是春天(A)，但是有哪一個春天的花園能比得過這時天山的無邊繁花呢(B)？例句(A)、(B) 小句之間形成轉折的語篇連貫關係，我們可以從這樣的關係來推論作者對於天山的景色這個論旨，含有先貶後裦的用意。從實際的應用上，正確的語篇結構分析不僅有助於問答系統對解釋型或敘述型答案的辨識，亦有助於作文評分系統中語義連貫的判別 [Burstein et al., ‘98]和文章結構完整性的檢驗[Anthony and Lashkia, ‘03]。其它的應用還有自動摘要[Chan et al., ‘00]和自動投影片產生系統 [Tomohide et al., ‘05]，利用分析語篇的結構找出論文中各個小句之間的連貫關係，抽出關鍵的主題句作為投影片的內容。由於目前關於中文語篇的研究資料及標記語料皆十分缺乏，對於需要大量已標記語料進行分析及設計語言模型的資訊科學研究者而言，研究中文語篇是一件很困難的工作。因此，本論文的研究目的，乃以語料研究為主的方法，針對語篇的表層特徵進行收集及探勘，並制定相關的規則來建置一自動化的中文語篇自動標記系統，以協助研究者在標記語料時，可以節省大量的人力。

1.2 相關研究

綜觀國外語篇分析的相關研究，許多計算模型都以連貫理論 (coherence theory)為基礎[Allen ‘95; Russell et al., ‘95]。在連貫理論中，一個語篇是由許多語篇片段(discourse fragment)所組成，有不同的連貫關係，例如：評估、因果、描述、解釋、排列等等。劍橋大學的 F. Wolf 和 MIT 的 E. Gibson[2005]在計算語言學期刊便發表一篇以語料研究為

(12)

主的語篇連貫探討，並提出以圖形來表示各種連貫關係的依存現象。相對於連貫理論，許多研究受到知識表徵理論(knowledge representation theory)的影響，用線索片語(cue phrase)來當作語篇中的重要結構元素 [Grosz et al., ’86; Hirschberg et al., ‘93]，而不強調語用學理論及世界知識 (world knowledge)。例如 Sadao 和 Makoto [ ‘94]利用線索詞、同義詞或片語及句子相似度來自動判斷日文的語篇結構。

此外， Grosz 等人[‘95] 提出所謂的重心理論(Centering Theory)，探討一段文章的內在結構中其參照延續性(referential continuity)及言談本身特點之間的關聯。該理論有兩項重要的論點： (1) 一段文章或語篇中最重要的訊息，應被視為語篇整體的重心。(2) 在一段連續性的交談中，重複出現的主題或訊息，應被視為語篇整體的重心。重心理論也被應用在指代消解[Chen et al. ‘05]和作文評分上[Miltsakaki ‘00]。

至於中文語篇的研究多為語言學理論的分析。許多學者除了研究句子之外，也試圖提出更大的研究單位，來進行中文語法研究。田小琳['84] 提出句群的概念，並定義為有一個明晰的的中心意思，前後銜接連貫的一組句子，把句群和語素、詞、短語、句子並列，正式承認句群也是語法單位。周國正['93]則認為從語法的角度來看，句群應該是某一語言片段中包含帶有一定語法標記例如指示代名詞、句間線索詞語等。若純以意義關係結合為一的語言單位可稱為篇章句群，屬於篇章學的範圍，並非語法單位之一。曹逢甫['95]直接引進語篇概念，他認為：研究漢語應該要有「大句子」的觀念，如此才能解釋主題提昇之後的所謂「雙主語句」。否則一個句子有兩個主語，這是句子取向的語言所不能出現的形式。黃國文[‘88]提出語篇特性分為銜接與連貫兩種。銜接分為語法與詞彙兩種表層結構，而連貫指的則是語篇片段之間的語義連結。他並將連

(13)

貫關係分為並列、對應、順序、分解、分指、重複、轉折、解釋、因果等九種關係。胡壯麟[‘94]則並未強調應將語篇分為銜接及連貫，而是將語篇特性分為指稱性、結構銜接及邏輯連接三種。指稱性及結構銜接都是探討語篇片段中利用詞語或語義的手段來指示語篇之間的關係，他們的不同在於，指稱性的詞語及其所指的對象是相同的，但結構銜接則並不一樣。而邏輯連接則表示相連的句子或句群之間的連貫關係，分為添加、轉折、因果、時空、詳述、延伸、增強等七種關係。程祥徽、田小琳[‘89]使用複句及句群作為研究語篇片段關係的單位，將語篇分為並列、承接、選擇、遞進、轉折、因果、條件、總分、解證、連鎖、目的等十一種關係。而中文語篇的計算模型則較少被提出。Wang 等人[’98]提出以一個事件模型來表示中文語篇中語段的發展狀態。藉由時間線的推移將語篇結構成一個個的事件，用以表現語義重心的轉移。在過程中使用四種知識以協助事件模型的語義推論，用以解決指代及省略的問題，並應用到數學運算式的問答系統中。另外 Chan 等人[‘00] 以人工方式分析語篇的連貫關係，並制定語篇標記，來協助找出文本中的主題段落作為摘要之候選句，以解決中文自動摘要的問題。

1.3 系統概觀

我們先參考已有的語篇研究資料，並收集各項可資辨認語篇的表層特徵，然後再利用大量語料作為研究對象，進行各項特徵的分佈統計，並以人工進行特徵的篩選及探勘。在觀察及研究的過程中，逐步收集各項比對及合併的規則，並以各項特徵對於語篇辨認的重要性，制定優先順序。本系統之辨識過程分為三個階段，第一階段是針對成對的線索詞組進行比對及合併，第二階段則針對單一出現的線索詞進行比對及合

(14)

併，第三階段再處理輔助特徵及特殊單一線索詞的比對及合併，如圖 1-1 所示：語篇片段切分文章輸入 _詞性標記中研院詞性標記系統成對線索詞比對單一線索詞比對 (向前合併) 成對語篇合併標記完成？單一線索詞比對 (向後合併) 標記完成？輔助特徵比對特殊單一線索詞比對標記結果輸出成對線索詞組單一線索詞第一階段第二階段第三階段語篇辨識及標記圖 1-1 語篇辨識及標記流程圖

(15)

第二章以文本為主的語篇研究

2.1 切分片段

語篇乃在一定語境下表示完整語義的結構，因此它可以是一個詞、一個句子、或一群連貫的句子[胡壯麟 ’94; 黃國文 ‘88]。語篇單位的切分依照研究者對於語篇的研究需求而有所不同，目前研究者普遍認為語篇片段應為不重疊之文本片段[Marcu ‘00]。Hirschberg 和 Nakatani [‘96] 將其定義為韻律單元(prosodic units)，Grosz 和 Sidner[‘86]定義為目的單元(intentional units)，Lascarides 和 Asher[‘93]、Longacre[‘83]及 Webber 等人[‘99]定義為片語單元(phrasal units)，Wolf 和 Gibson[‘05]定義為分句單元(clause units) 以及 Hobbs[‘85]定義為句子單元(sentences)。

由於中文語篇尚未有何種切分片段較為適合做為自動辨識及標記的研究，因此我們將同時以分句(clause)以及長句(sentence)作為切分片段。我們以逗點(，)做為分句的切分界線，長句則以冒號、句號、問號及驚嘆號為切分界線(：。？！)。此外我們對於語篇連貫關係作用於分句間則稱之為句內關係，若作用於長句間則稱之為句間關係。

2.2 語篇連貫關係分類

依據程祥徽與田小琳[‘89] 所提出的複句及句群關係分類來定義語篇片段之間的連貫關係，並參照 Wolf 和 Gibson [‘05]的理論，我們在本論文中，排除沒有明顯表層特徵的總分及連鎖關係，將語篇連貫關係分為如下九類：

(16)

表 2-1 語篇連貫關係分類

語篇分類程&田[’89] Wolf & Gibson[’05] 適用種類並列並列 Similarity Contrast 句內，句間承接承接 Temporal Sequence 句內，句間選擇選擇未定義句內，句間遞進遞進 Elaboration 句內，句間轉折轉折 Violated expectation 句內，句間因果因果 Cause-effect 句內，句間條件條件 Condition 句內，句間未定義總分 Generalization 解證解證 Attribution Example Elaboration Generalization 句內，句間未定義連鎖未定義目的目的未定義句內其定義分別說明如下： 1. 並列關係：如 Wolf 與 Gibson [‘05] 所定義的相似句與對照句的概念 (Similarity and Contrast)。指表達幾件相關的事件，但彼此並不構成因果關係，也沒有語氣或語意上的轉折。這種語篇連貫關係在使用上可以不需使用線索詞，例如：「紅的像火，粉的像霞，白得像雪。」也可以用「一方面…另一方面」、「第一…第二」等線索詞，例如：「一方面我們要承擔這樣的責任，另一方面也必須爭取屬於我們的權利。」 2. 承接關係：描述一連續的動作，或是以發生的時間順序來連接的一連串事件

(17)

(Temporal Sequence)，以及依事件發生的空間順序來進行敘述的事件。此類語篇使用線索詞的比例不高[程祥徽與田小琳 ‘89]，有時使用時間名詞或「於是」、「接著」等線索詞，例如：「他先是看了我ㄧ眼，接著便怒氣沖沖的走了出去。」 3. 選擇關係：含有從幾件事物中進行選擇的語義，常用的線索詞有「或者…或者」、「要嘛…要嘛」，例如：「另外有一些人，用他們畢生的勞動鑽研，或者為群眾建造了若干房屋，或者培育出植物的新品種…。」 4. 遞進關係：我們將凡是連續片段中，具有後一個片段比前一個片段的語意層次更進一層關係的語篇歸類為遞進關係。更進一層可以是範圍更大，數量更多，程度更深等等。常用的線索詞有「不但…而且」、「不只…也」，例如：「她不但鋼琴彈得好，唱歌也很好聽。」 5. 轉折關係：指前一片段的語義與後一片段相對或相反。常用的線索詞有「雖然…但是」、「盡管…然而」，或僅在後段使用線索詞，例如：「雖然天山這時並不是春天，但是有哪一個春天的花園能比得過這時天山的無邊繁花呢？」 6. 因果關係：指使用兩個片段來說明事件的原因及其結果，前一片段說明原因，後一片段說明結果。常用的線索詞有「因為…所以」或僅在後段使用「因此」、「因而」，例如：「因為水面上生長白蘋，所以就叫做白蘋湖。」 7. 條件關係：

(18)

可分為兩種情況來討論，第一種就是語氣中含有假設成份，前一片段假設一種情況，後一片段說明如果實現的話會產生的結果。常用的線索詞都是成對出現，像是「要是…就」、「假使…就」，例如：「假如我是個舞蹈家，我就要盡情的跳舞。」第二種情況乃前一片段提出一種條件，後一片段則說明在這種條件下會產生的結果。常用的線索詞有「只有…才」、「除非…才」，例如：「只有用最真誠的演技及誠意，才能感動無數的觀眾。」 8. 解證關係：此關係可對應 Wolf 與 Gibson [‘05]所定義的四種語篇連貫關係，分別是屬性、範例、詳述以及歸納 (Attribution, Example, Elaboration and Generalization)，其中的詳述關係指的是不包含有更進一層的意味，而只是將前一片段所描述的事件作補充說明的範例而言。只要前一片段提出一種看法、道理、事實、現象，而後一片段加以解釋、說明、補充、引申的語篇，我們通稱為解證關係。常用的線索詞有「也就是說」、「所謂」、「宣示」，例如：「她的這種惡意的行為，就是所謂的欺善怕惡。」 9. 目的關係：這種語篇連貫關係只出現在句內[程祥徽與田小琳 ‘89]，前一片段提出一個目的，後一片段說明為了達成這個目的需要做的事。常用的線索詞有「為了」，例如：「為了便利山區的農業發展，開展山區物候觀測是必須的。」

2.3 語料使用

我們採用的語料是如表 2-2 所列的，中研院平衡語料庫 3.0 版中的

(19)

敘述型語料來研究書面形式的語篇連貫關係。表 2-2 語料研究資料數量統計表文類文章篇數句數詞數百分比報導 5594 104093 2926400 77.00% 傳記日記 399 6466 2600 5.49% 散文 15 501 441200 0.21% 信函 436 16206 67100 6.00% 評論 86 4468 520600 1.18% 說明手冊 735 18800 105400 10.12%

2.4 語篇線索詞研究

根據黃國文[‘88]的研究指出，語篇的連貫關係可以利用詞彙之間邏輯連接關係來判定，而所使用的詞彙稱為線索詞。這種詞彙指的是可以表示兩個或更多的語篇片段之間的某種邏輯關係，並可藉此辨識出這些片段是屬於哪一類的語篇連貫關係的詞。為觀察語篇線索詞在語料庫中的各項特性，我們採行以下步驟：步驟一、現有線索詞收集步驟二、線索詞詞性篩選步驟三、成對線索詞組探勘 1.設定抽取線索詞之範圍及位置 2.設定線索詞出現位置之權重 3.計算線索詞組之連結強度 k 4.線索詞組篩選步驟四、單一線索詞探勘步驟五、輔助特徵探勘圖 2-1 語篇線索詞探勘流程

(20)

2.4.1 現有線索詞收集 我們先以「現代漢語」[程祥徽、田小琳 ’89]這本書裡所列出的語篇線索詞來當作種子，進行更多線索詞的收集。 2.4.2 線索詞詞性篩選 詞的詞性可以影響到詞彙的語義或語法角色，因此我們假定語篇線索詞的詞性也有可能具有某些特定傾向，於是我們從平衡語料庫中將各類線索詞的可能的詞性抽出如下：圖 2-2 種子線索詞詞性列表由於有些詞根據他的語法角色及出現的位置不同，會具備有許多的詞性。例如：「也」當成語助詞時並不具備有連接分句，並構成連貫關係的功能，如例句 1；但在例句 2 中，「也」當成副詞時，便構成並列關係。例句1：有骨氣，哲學家當如是也(T)。例句2：不僅武功一流，內秀也(D)十分了得。表 2-3 列出的詞性是我們認為可以排除的詞性：表 2-3 排除詞性表詞性排除原因與範例

Caa, Cba, Cbb, D, Da, DE, Dfa, Dfb, Dk, Na, Nb, Nc, Ncd, Nd, Neqa, Neqb, Nes, Neu, Nf,P, SHI, T, VA, VC, VCL, VD, VE, VG, VH, VJ, VK, VL

(21)

Na 一般名詞一般名詞並不具備連接分句或句子的功能。例如：此等情懷見乎其自明本志令、短歌行等文字。只得向顧客賠聲不是 Nb 專有名詞專有名詞並不具備連接分句或句子的功能。例如：如一面幫著城把東西拿進來第二次會談是七月二十五日在京都的都飯店進行 Nc 地方詞地方名詞並不具備連接分句或句子的功能。例如：申辦公元二千年夏季奧運會的世界五大名都 SHI 是是並不具備連接分句或句子的功能。例如：所以休閒活動本身就是倫理性的。 T 語助詞語助詞並不具備連接分句或句子的功能。例如：有骨氣，哲學家當如是也！ VA 動作不及物動詞動作不及物動詞並不具備連接分句或句子的功能。例如：壯士一去兮不復還！ VC 動作及物動詞動作及物動詞並不具備連接分句或句子的功能。例如：我母親前半年在公車站牌等車時， VCL 動作接地方賓語動詞動作接地方賓語動詞並不具備連接分句或句子的功能。例如：他說我們大眾不是軍隊，可以越二級報告 VD 雙賓動詞雙賓動詞並不具備連接分句或句子的功能。例如：其他商家借了巨款而終於無力償還，借出的商家便大方地一筆勾銷 VG 分類動詞分類動詞並不具備連接分句或句子的功能。例如：人生本若夢，又何必辛苦規劃工作？ VH 狀態不及物動詞狀態不及物動詞並不具備連接分句或句子的功能。例如：於是只能退而求其次 VJ 狀態及物動詞狀態及物動詞並不具備連接分句或句子的功能。例如：不要馬上又接著長途的開車。 Nf 量詞並不具備連接分句或句子的功能。例如：他今年 12才。由上列資料，我們將收集的各語篇之線索詞詞性重新整理。

(22)

2.4.3 成對線索詞組探勘 我們利用 Smadja [‘93]所提出用來抽取英文共現詞彙的 Xtract 為基 礎，設計一個抽取連接分句片段或長句片段的線索詞組的改良式演算 法，稱為 CoXtract。此演算法將產生一個可以量化具連結兩個語篇片段 的線索詞組之連結強度值 k，我們用來協助將候選詞彙進行排序。並藉 由已知的線索詞作為觀察標的，以人工的方式，抽取出更多的語篇線索 詞組，並在過程中針對 k 值的效用進行評估。 由於解證及目的這兩種語篇並沒有成對的線索詞[程祥徽、田小琳 ’89]，因此我們在探勘成對線索詞時，將排除這兩種語篇連貫關係。以下是探勘步驟： 1. 設定抽取線索詞之範圍及位置下圖為線索詞所連結的分句或長句的示意圖： T1 ‧‧‧ T12 ‧‧‧ Ti C1 T1 ‧‧‧ T12 ‧‧‧ Ti C2 T1 ‧‧‧ T12 ‧‧‧ Ti Cm ‧‧‧ T1 ‧‧‧ T12 ‧‧‧ Ti C1 T1 ‧‧‧ T12 ‧‧‧ Ti C2 T1 ‧‧‧ T12 ‧‧‧ Ti Cm ‧‧‧ S1 S2 Sentences Clause Terms 圖 2-3 語篇連結示意圖我們從「現代漢語」中選出已知的線索詞組進行語料觀察，並設定以下兩項資料的抽取門檻值，分別是線索詞出現在分句內之位置及成對線索詞的平均涵蓋範圍。在計算線索詞可能出現在分句內的位置時，我們隨機選取 24 組線索詞及 1150 組例句共 2300 個分句片段。接著計算各分句的平均

(23)

詞數，並假設成對線索詞出現的位置皆在分句的前半部分，統計結果，我們以平均詞數 24 除以 2 作為觀察線索詞分布的抽取門檻值，我們的統計結果如下：表 2-4 線索詞分布位置觀察結果線索詞位置例句數百分比累計百分比 1 1942 84.43% 84.43% 2 193 8.39% 92.83% 3 49 2.13% 94.96% 4 43 1.87% 96.83% 5 27 1.17% 98.00% 6 24 1.04% 99.04% 7 8 0.35% 99.39% 8 6 0.26% 99.65% 9 1 0.04% 99.70% 10 4 0.17% 99.87% 11 2 0.09% 99.96% 12 1 0.04% 100.00% 由以上的結果，我們為求能盡量觀察更多的資料，因此在抽取候選詞組時，將抽取線索詞的分布位置門檻值設為 12。另一方面，計算成對線索詞的平均涵蓋範圍時，分為句內及句間兩種類型來分別統計。我們以人工選取句間線索詞組數 21 個，例句 625 句；句內線索詞組數 22 個，例句 1037 句。觀察之後，我們將抽取線索詞的句內及句間連結門檻值均設為 3，選取的線索詞及統計的結果分別如下表所示：表 2-5 句間線索詞連結範圍統計結果

(24)

連貫關係關聯前詞關聯後詞前詞詞性後詞詞性平均距離例句數一方面另一方面 Cbb Cbb 2.32 35 並列既然而 Cbb Cbb 2.82 33 目前未來 Nd Nd 3.09 51 承接當時現在 Nd Nd 3.26 19 或或 Caa Caa 2.76 46 選擇或更 Caa D 2.76 33 不只也 Da D 2.75 20 不但也 Cbb D 3.22 25 遞進不僅而 Cbb Cbb 2.92 24 雖然但是 Cbb Cbb 3.28 32 雖然不過 Cbb Cbb 3.09 33 轉折雖然還 Cbb D 2.79 34 由於因此 Cbb Cbb 2.78 49 由於所以 Cbb Cbb 3.28 36 因果由於於是 Cbb Cbb 3.05 21 如果將 Cbb D 2.5 28 即使也 Cbb D 2.97 31 假設即使都 Cbb D 2.83 29 不論也 Cbb D 2.58 24 只要就 Cbb D 2.97 30 條件只要都 Cbb D 2.74 27 總計資料 2.89 625

(25)

表 2-6 句內線索詞連結範圍統計結果連貫關係關聯前詞關聯後詞前詞詞性後詞詞性平均距離例句數一方面一方面 Cbb Cbb 1.23 80 並列既也 Cbb D 2.45 22 目前未來 Nd Nd 1.97 29 承接首先其次 Cbb Cbb 1.98 22 或者或 Caa Caa 2.64 32 或是或是 Caa Caa 2.38 47 選擇或是或 Caa Caa 2.63 57 不但也 Cbb D 2.38 58 不但而 Cbb Cbb 2.43 69 遞進不僅而 Cbb Cbb 2.27 60 雖然但 Cbb Cbb 1.98 53 雖然但是 Cbb Cbb 3.54 39 轉折雖然還 Cbb D 3.89 37 由於因此 Cbb Cbb 2.79 33 因為因此 Cbb Cbb 2.98 40 因果因為才 Cbb Da 2.6 58 如果則 Cbb D 2.64 58 如果可能 Cbb D 2.84 50 假設即使也 Cbb D 3.04 50 只有就 D D 2.61 46 只要可以 Cbb D 2.15 55 條件只要會 Cbb D 2.17 42 總計資料 2.53 1037 接著我們以上述兩個抽取門檻值來建立線索詞組候選資料，共抽取句間 207867 組及句內 209525 組候選詞組。 2. 設定線索詞出現位置之權重由於線索詞在分句或句子中的位置，出現在越前面的位置，就越有可能具有判斷兩片段是具有連結性的功能。因此在判斷線索詞是否具有連接功能時，必須針對出現在不同位置，給予不同的權重。例如在例句 3 中之「或是」具有連接兩個分句的功能，但在例

(26)

句 4 中則無此功能。例句3：你可以選擇今天就回家，或是(Caa)明天再回家。例句4：今天的晚餐很豐富，你可以選擇要吃便當或是(Caa)燒烤。我們藉由表 2-4 中所計算的線索詞分布數據作圖之後發現，其分布近似於函數 1₃ x ，如下圖所示： 0 0.2 0.4 0.6 0.8 1 1.2 1 2 3 4 5 6 7 8 9 10 11 12 關聯詞出現位置分配比例 1/X^3 關聯詞分配圖 2-4 線索詞分布位置由上圖之數據並進行正規化使其權重值介於 1 於 0 之間。設線索 詞在分句中出現的位置共有 j 個，由線索詞出現在分句內之位置的觀 察結果，設1≤ j≤12。則： 正規化常數為 D， 1 1.2 12 1 3 = =

∑

= n n D (2.1) 若線索詞出現在第 j 個位置，則其權重 ₃ 2 . 1 1 j w_j = (2.2)

(27)

3. 計算線索詞組之連結強度 k 我們可定義詞彙之間的共現度為

(

)

。其中是給定的關聯前詞，則是的共現關聯後詞，根據線索詞連結範圍觀察結果所設之門檻值，其出現位置共區分為兩種，第一種為出現在所在分句片段的次三分句片段範圍內；第二種出現在所在長句片段的次 三長句片段範圍內，且出現位置在距離 d 之內，依據線索詞出現位 置的觀察結果設 d 為[1,12]。我們以 d T T_h, _i, T_h i T T_h h T h T

(

T ,h Ti

)

這對詞彙一起出現在語篇片段之間的頻率的標準差倍數，作為其連結強度[Smadja ‘93]，其公式如下：

σ

f

k

_i

=

i

−

_(2.3) 其中共現關聯後詞出現在詞窗 [1,12]的頻率定義為： Ti fi j j j i i

f

w

f

∑

=

12 1 , (2.4) 其平均頻率 f 以及標準差σ 的計算公式如下：

(

)

∑

= =

−

=

n i i n i i

f

n

f

n

f

1 2 1

1 ;

1 _σ

(2.5) 4. 線索詞組篩選我們配合k值排序並以人工觀察，篩選出句內線索詞組 406 組，句間線索詞組 82 組。

(28)

2.4.4 k 值觀察 我們利用所篩選之線索詞組分別觀察，k 值對於抽取出的各種語篇 連貫關係線索詞組正確率的影響。我們的觀察指標有： 1. 正確詞組累計 當 k 值由小到大變化時，可以抽取出的正確線索詞組數量的變化 趨勢。 2. 涵蓋例句累計 當 k 值由小到大變化時，可以抽取出的正確線索詞組所涵蓋之 例句數量的變化趨勢。 3. 詞組平均正確率 當 k 值由小到大變化時，可以抽取出的正確線索詞組與全部詞 組的平均比例變化趨勢。 4. 詞組平均涵蓋率 當 k 值由小到大變化時，可以抽取出的正確線索詞組所涵蓋之 例句數量與全部詞組所涵蓋的數量之平均比例的變化趨勢。 由圖 2-5 及圖 2-6 可以看出，k 值對於句內之線索詞組有較好的鑑別 度。在 k 值為 0.8 時，線索詞組平均正確率及詞組平均涵蓋率可達 92% 及 94%，其數量累計分別為 76%及 93%，且其變化趨勢已呈現一收斂狀 態。反觀句間線索詞的情形則明顯的鑑別度較差，在 k 值為 0.8 時，線 索詞組數量累計可達 87%及 90%，但平均正確率及詞組平均涵蓋率卻分

(29)

別只剩 63%及 65%，且其變化趨勢尚呈現起伏的波動狀態。我們根據所收集的涵蓋資料量推論，由於句間大部分皆使用單一線索詞作為語篇結 構的連結，因此在例句數量不足的情況之下，使得 k 值的變化趨勢波動 幅度變大，甚至無法收歛。 0 20 40 60 80 100 120 0 5 10 15 20 25 30 K值變化百分比正確詞組累計涵蓋例句累計詞組平均正確率詞組平均涵蓋率圖 2-5 句內線索詞組 K 值變化圖 0 20 40 60 80 100 120 0 5 10 15 K值變化百分比正確詞組累計涵蓋例句累計詞組平均正確率詞組平均涵蓋率 圖 2-6 句間線索詞組 k 值變化圖 k 值除了在詞組擴充時可作為門鑑值以自動濾除可能錯誤的詞組之

(30)

外，亦可應用在語篇標記時，用來判斷出現詞組中之任一詞彙或單一線索詞與未知線索詞的可能連接強度。 2.4.5 單一線索詞探勘 中文語篇的線索詞可分為成對及單一兩種形式，有些成對線索詞因語氣的輕重不同，有時也可單獨出現，例如：例句5：他不但吃米飯(A)，也吃牛排(B)。藉助「不但…也」這對線索詞組，可將例句中之(A)及(B)兩個片段判定為遞進關係，若改寫成：例句6：他吃米飯(A)，也吃牛排(B)。則因「也」這個線索詞的單獨出現，而變成並列關係。而中文線索詞在書寫的過程中，常會省略關聯前詞，而單用關聯後詞，如例句 7 也可改寫為例句 8 的形式：例句7：如果我們這麼做，可能會導致環境的破壞。例句8：我們這麼做，可能會導致環境的破壞。另外，也有某些情況會省略關聯後詞，而單用關聯前詞，如例句 9 也可改寫為例句 10 的形式：例句9：因為情勢如此變化，所以我們不得不做這樣的決定。例句10：因為情勢如此變化，我們不得不做這樣的決定。除此之外，解證及目的這兩種語篇的線索詞都是單獨出現，例如：例句11：同時也談到科學的發現不能設計或預期，也就是說 (A)，我們應該努力創造良好的科學研究條件與環境 (B)，真正培養努力鑽研的科學家，這才能使科學方面經常有若干新的創獲。

(31)

藉由「也就是說」，我們可以將例句中之(A)及(B)這兩個分句片段判定為解證關係。因此，在語篇連貫關係辨識的過程中，除了成對的線索詞組之外，也有必要進行單一線索詞的收集及探勘工作。單一線索詞主要分為三類： 1. 成對線索詞組的省略由於人們在使用語言有時會為了增進溝通效率或因應語氣的輕重不同而有簡省詞彙的趨向，而在語篇線索詞的使用上也具有這樣的特性，因此，我們假設成對線索詞皆可分別單獨使用。 2. 語篇線索詞特性解證及目的兩種語篇的線索詞都是單獨出現[程祥徽與田小琳 ‘89]，因此，我們也收集了屬於這兩個語篇的單一線索詞。 3. 特殊語篇線索詞

我們由已知的線索詞，透過 HOWNET[Dong and Dong, ‘99]中的 DEF 欄位，進行語料的觀察發現，還有一些線索詞可以幫助我們判斷語篇片段之間的關係，但是卻未被語言學者提出，例如：我們發現當動作句賓動詞(VE)出現在分句片段末尾位置時，具有連接兩個語篇片段成為解證關係的特性，例如：例句12：關於公司的前景，張總經理表示，未來將以生物科技搭配醫療器具的生產為主。由以上三種來源，我們以人工的方式進行辨識篩選，以達成探勘的目的，共收集了 309 個單一線索詞，其中第一類線索詞有 65 個，第二類有 60 個，第三類有 184 個。使用單一線索詞來辨識語篇連貫關係時，還需要考慮連結方向、涵

(32)

蓋範圍以及出現位置等三個問題。因此，我們設計了以下屬性： 1. 連結方向此屬性分為兩種情況：若由線索詞向後連結次一片段，則將此值設為 1，若為向前連結前一片段，則設為-1。如下圖所示：圖 2-7 連結方向示意圖 2. 出現位置線索詞出現的位置可分為兩種，一為出現在語篇片段的前半部份，並在我們所設定的位置門檻值內的位置，我們將此值設定為 0；另外則為出現在語篇片段末尾，我們將此值設定為 1。至於出現於中間位置的線索詞，我們則忽略不計。 3. 適用片段種類可同時使用在句內及句間的線索詞，則此值設定為 1；反之若只能使用在句內，則設定為 0。至於單一線索詞的涵蓋範圍，我們則不另外設定屬性標示。我們的假設是，單一線索詞的連結涵蓋範圍，為鄰近的前一或次一單獨語篇片段或具有某些語篇連貫關係的語篇段落。如果我們能設計良好的語篇標記優先順序及合併規則，則涵蓋範圍的問題將自動解決，例如：

(33)

例句13：他不但是個品學兼優的好學生(A)，而且還熱心助人 (B)，所以我們班的同學都很喜歡他(C)。在例句 9 裡的三個語篇片段中，我們先以成對線索詞「不但…而且」合併(A)、(B)兩個語篇片段，成為新的語篇片段群(AB)，然後再依我們的假設使用「所以」這個單一線索詞向前合併(AB)，如此我們便不需要去設定可能錯誤的涵蓋門檻值，但是這個方法的正確率，取決於對各種語篇連貫關係標示的涵蓋率，及合併規則的正確率。 2.4.6 輔助特徵探勘 我們為了提高語篇辨識的涵蓋率，因此參考程祥徽與田小琳[‘89]及 Tomohide 與 Sadao[‘05]的研究，設定了如下四種輔助特徵： a. 當具有時間詞(Nd)詞性的詞彙，例如：「今天…明天」，出現在連續的語篇片段時，則可判定這些語篇片段具有「承接關係」，例如：例句14：今天我預習了國、英、數三個基本科目，明天我將繼續把理化、生物等科目也預習一遍。 b. 當具有數詞定詞(Neu)詞性的詞彙，例如：「第一…第二」，出現在連續的語篇片段時，則可判定這些語篇片段具有「並列關係」，例如：例句15：第一、我們要振興經濟，第二、我們要防止舞弊… c. 語篇片段的末尾若出現標點符號「：」，則可判定其次一語篇片段為「解證關係」，例如：例句16：IPv6 具備下列各項特性：1.較大的位址空間，2. 整合認證及安全的機制，3. 較佳的路由效率及最佳化。 d. 若相似的語篇片段連續出現時，則可以將這些語篇片段判定為

(34)

「並列關係」，例如：

(35)

第三章語篇辨識及標記

3.1 名詞定義與標記符號說明

實驗過程中所需使用之相關名詞說明如下： 1. 語篇片段：分成長句及分句語篇片段。 2. 句間關係：存在於當語篇片段單位為長句時。 3. 句內關係：存在於當語篇片段單位為分句時。 4. 語篇段落：內含數個語篇片段，並至少已合併一個或以上之語篇連貫關係的長句群或分句群稱之。 5. 待處理文本：分成句內關係比對的長句和句間關係比對的整篇文章。我們在剖析的過程中，依據所制定的各種比對及合併的原則，將輸入的文本自動標記出相應的語篇連貫關係，因此每一個語篇段落都標記有語篇連貫關係之類型。若某語篇段落內含兩個或以上之語篇片段時，則依規則，標記為樹狀結構，而段落與段落間的結構關係，則不予辨識，若某一段落只有單一片段則不予標記，以下為語篇連貫關係符號表：

(36)

表 3-1 語篇連貫關係標記符號表符號適用關係說明 @ 全部以“@”置於語篇之間，做為分隔語篇段落的界線。 ( ) 全部語篇的組合成分為複雜結構，以“(”、“)”標示其結構的左右邊界。｜全部分隔在同一層次上的成分結構。 D#, 全部以”D”作為開頭的數字，為語篇連貫關係之編號，如表 3-2 所示。 [] 全部以“[”、“]”標示語篇片段的左右邊界。 C# 句內以”C”作為開頭的數字，為分句語篇片段在整個長句裡的排列順序。 S# 句間以”S”作為開頭的數字，為長句語篇片段在整個文章裡的排列順序。 Theme 全部以 Theme 標示語篇連貫關係中的第一個語篇片段。 Rheme 全部以 Rheme 標示語篇連貫關係中的其他語篇片段。表 3-2 語篇連貫關係符號表關係編號連貫關係符號 1 並列 Coordinate 2 承接 Continue 3 選擇 Option 4 遞進 Forward 5 轉折 Disjunctive 6 因果 Cause and Effect 7 條件 Conditions 8 解證 Elaboration 9 目的 Goal 10 其他 Other 例句 1 經過電腦標記產生的句內語篇連貫關係結構為例句 2，其中每一個語篇片段皆以“|”分開：例句1：立委或輿論如果將關切重點放在蔡英文是否聰明抑或生澀，以及致電目的是關切審查程序抑或實質內容關說，可能模糊了焦點或偏離主題，對台灣經濟發展無

(37)

甚幫助。例句2：D1,([C1:立委或輿論如果將關切重點放在蔡英文是否聰明抑或生澀，]|D7,([C2:以及致電目的是關切審查程序抑或實質內容關說，]|[C3:可能模糊了焦點或偏離主題，]))@[C4:對台灣經濟發展無甚幫助。] 例句 3 經過電腦標記產生的句間語篇連貫關係結構為例句 4，其中每一個語篇片段皆以“|”分開：例句 3：行政院副院長蔡英文一通關切環評進展的電話，竟然引發多名環評委員發表聲明，譴責行政院高層干預中部科學園區環評審查。然而，中部科學園區、國光石化及台塑大煉鋼廠案所涉及的環境評估、經濟發展及社會觀感，及其背後關鍵的政府基本政策與選擇，遲早政府必須對外說清楚、講明白。例句 4：D5,([S1:行政院副院長蔡英文一通關切環評進展的電話，竟然引發多名環評委員發表聲明，譴責行政院高層干預中部科學園區環評審查。]|[S2:然而，中部科學園區、國光石化及台塑大煉鋼廠案所涉及的環境評估、經濟發展及社會觀感，及其背後關鍵的政府基本政策與選擇，遲早政府必須對外說清楚、講明白。])

3.2 辨識及標記執行步驟

我們使用中央研究院所開發之線上中文斷詞系統1，進行文本之斷詞及詞性標記的工作。並將語篇辨識及標記的工作分為三個階段，分別依線索詞及輔助特徵的優先順序進行比對，其整體步驟如下表所示： 1 請參閱網址：http://ckipsvr.iis.sinica.edu.tw/

(38)

表 3-3 語篇連貫關係辨識及標記步驟階段步驟執行動作適用關係 成對線索詞組比對 1 以二字組為單位進行成對關鍵詞比對。全部 2 將比對後具有語篇連貫關係之二字組合併。全部一 3 判斷是否已合併完成，並進行語篇連貫關係標記。全部 單一線索詞比對 1 進行向前連結之單一關鍵詞比對及合併。全部 2 進行向後連結之單一關鍵詞比對及合併。句內二 3 判斷是否已合併完成，並進行語篇連貫關係標記。全部 輔助特徵及特殊單一線索詞比對 1 進行連續 Nd 及 Neu 詞彙之比對及合併。全部 2 進行解證關係標點符號之比對及合併。全部 3 進行相似句之比對及合併。句內三 4 進行特殊線索詞之比對及合併。全部執行上述步驟時，我們將比對之線索詞分布位置門檻值及語篇連貫關係連結範圍門檻值設為 3。此門檻值之限制並不包括第三階段之特殊單一線索詞之比對工作，以下分別說明各階段之流程。 3.2.1 成對線索詞組比對 由於成對線索詞組本身即具有排除語篇連貫關係歧義性，及明顯合併範圍和方向之特性，因此我們將其列為第一優先比對的特徵，此階段分為三個步驟，茲詳細說明如下：步驟 1：以二字組為單位進行成對線索詞比對。假設某待處理文本所含之語篇片段數量為，語篇連結門檻值為，則我們可據此產生一個長度為的輸入陣列及之比對結果矩陣，若為句間比對，則以每一長句第一分句為輸入之比對片段。將陣列輸入系統，並依序增加值進行成對線索詞比對，其演 n d n n×d d

(39)

算法如下圖所示：

輸入：由待處理文本所形成之長度為的陣列 InputContextArr[n n]

輸出：內含以 bi-gram 為單位比對後之n×d結果矩陣。IPKResultMir[ n,d]

1. FOR i=1 TO Min(n−1,d)

2. FOR j=1 TO n 3. 分別挑選第 j 個語篇片段及第 j+i 個語篇片段的詞彙進行比對。 4. 若比對成功，則以命中之語篇編號及i,j 之值產生合併字串，填入結果矩陣。 5.輸出結果矩陣。圖 3-1 成對線索詞比對演算法步驟 2：將比對後具有語篇連貫關係之二字組合併。我們將合併之過程分為兩個部份，第一個部分稱為縱向合併，其遞增變數為門檻值，此部分主要是處理同一片段的合併問題。第二個部分稱為橫向合併，其遞增變數為n，此部分主要是處理相鄰片段的合併問題，我們將依循以下規則： d 規則 1：同一片段若同時與兩個以上之片段形成語篇連貫關係時，只保留距離最小者。規則 2：相鄰片段若形成相同的語篇連貫關係時，合併成為同一語篇在同一階層。規則 3：相鄰片段若形成不同之語篇連貫關係時，以向左合併為原則，合併成為不同語篇不同階層。其演算法如下圖所示：

(40)

圖 3-2 成對線索詞合併演算法

輸入：成對線索詞比對結果矩陣 IPKResultMir[3,n] 輸出：成對線索詞合併結果陣列 MergerResultArr[n] &&Merge_Step1

1. FOR i=1 TO Min(n-1,d)

2. FOR j=1 TO Min(n-1,d) 3. 依序比對 IPKResultMir[j,i]的合併段落，取距離最小者，並置入 MergerResultArr[i] &&Merge_Step2 4. FOR i=1 TO n 5. 若 MergerResultArr[i]及MergerResultArr[i+1]為不同語篇，則 6. 合併成為不同語篇不同階層，填入MergerResultArr[i] 7. 否則，若 MergerResultArr[i]及 MergerResultArr[i+1]為相同語篇，則 8. 合併成為同一語篇在同一階層，填入MergerResultArr[i] 9.輸出結果陣列MergerResultArr[n] 步驟 3：判斷是否已合併完成，並進行語篇連貫關係標記。若輸入文本已合併為單一語篇段落，則對照語篇連貫關係符號表進行語篇標記後跳出比對流程，若尚未合併為單一語篇段落，則繼續第二階段之比對工作。如例句 4 為已合併之單一語篇段落，例句 5 為標記後之結果：例句4：D3,([C1:想在黑白分明的領域中取得「兼顧」的可能，]|D5,([C2:或者說是政策的妥協點，]|[C3:其實是不切實際的幻想。])) 例句5：Option:(Theme:[ C1:想在黑白分明的領域中取得「兼顧」的可能，]| Rheme:Disjunctive:(Theme:[ C2:或者說是政策的妥協點，]| Rheme:[ C3:其實是不切實際的幻想。])) 3.2.2 單一線索詞比對 此階段所指的「單一線索詞」是不含第二章所指之特殊線索詞的子

(41)

集合，包括成對線索詞組的省略詞，及解證與目的關係中的一般線索詞共 244 個，其屬性值為(-1,0,0)、(-1,0,1)、(1,0,0)。根據我們的觀察，若在句內省略前詞單用後詞，則其連結方向大部分為向前連結，反之亦然。但若在句間則為單用後詞居多，如例句 6：例句6：雲林縣此舉，除了財政拮据之外，還夾雜著對大規模企業「本縣拉屎，他處下蛋」的忿懣與積怨，因此高舉防治污染大旗，以環境保護為名義徵稅。然而，純就租稅體制而言，雲林縣此舉並不符合稅制的基本邏輯。單一線索詞比對的另外一個問題就是會出現複合語篇線索詞的情況，如例句 7 所示：例句7：他會這麼做(A)，多少也因為還愛著你(B)。在(B)中出現兩個單一線索詞，一個是表示並列關係的「也」，另外一個為表示因果關係的「因為」。綜上所述，我們將依循以下規則進行第二階段各步驟之比對及合併：規則 4：若比對單一線索詞時，同一語篇片段出現兩個以上之候選線索詞，則依以下優先順序決定： Cbb> Caa>Cab>Cba>D>Da>Dk>P 規則 5：單一線索詞連結時須避免將內含輔助特徵及特殊線索詞之語篇片段合併。如例句 8 中所出現之線索詞「或」，不應合併(A)，因其包含了特殊線索詞「宣示」。例句8：我們建議政府儘快明白宣示(A)，或為政治、經濟問題(B)，國家永續發展問題，何者才是政府的最大關切？規則 6：若向前合併之單一線索詞單獨出現在第一分句，則為句間線索詞，不與句內連結。如例句 10 之線索詞「然而」。規則 7：若向後合併之單一線索詞單獨出現在第一分句，則為

(42)

句內線索詞，不與句間連結，如例句 9 之線索詞「即使」。例句9：即使真的應將污染性企業產值列入分配因素考量，亦不應只涵蓋石化工業，高污染產業還有很多。單一線索詞比對共分為 3 個步驟，茲分別說明如下：步驟 1：進行向前連結之單一關鍵詞比對及合併我們優先比對使用率較高的關聯後詞，及解證與目的關係中的一般線索詞，其演算法如下圖所示： 輸入：第一階段輸出之合併結果陣列 MergerResultArr[n] 由待處理文本所形成之長度為的陣列n InputContextArr[n] 輸出：單一線索詞比對及合併結果陣列 MergerResultArr2[n] &&Map_Step1 1.若為句內關係比對，則 2. KeyWordArr[]Å關連詞屬性值為(-1,0,0)及(-1,0,1)之單一線索詞集合 3.若為句間關係比對，則 4. KeyWordArr[]Å關連詞屬性值為(-1,0,1)之單一線索詞集合 5. FOR i= 2 TO n 6. 從InputContextArr[i]中，提取候選詞彙與 KeyWordArr[]進行比對 7. 若比對成功，則 8. 若有兩個或以上之候選詞命中，則依規則 4 篩選 &&進行向前合併流程 9. 檢查是否 InputContextArr[BackSearchC]中是否含有輔助特徵的關鍵詞 10. 若無，則以向左合併為原則，填入 MergerResultArr2[BackSearchC] 11. 檢查是否已合併前一語篇片段或段落，若是，則跳出 12.輸出結果陣列MergerResultArr2[n] 圖 3-3 向前合併線索詞比對及合併演算法步驟 2：進行向後連結之單一關鍵詞比對及合併此步驟為比對其他向後連結之單一線索詞，但句間不作此項比對流程，其演算法如下圖所示：

(43)

圖 3-4 向後合併線索詞比對及合併演算法 輸入：步驟 1 輸出之合併結果陣列 MergerResultArr2[n] 由待處理文本所形成之長度為的陣列n InputContextArr[n] 輸出：單一線索詞比對及合併結果陣列 MergerResultArr3[n] &&Map_Step2 1.若為句內關係比對，則 2. KeyWordArr[]Å關連詞屬性值為(1,0,1)及(1,0,0)之單一線索詞集合 3.若為句間關係比對，則 4. 跳過此步驟 5. FOR i= (n-1) TO 1 STEP -1 6. 從 InputContextArr[i]中，提取候選詞彙與 KeyWordArr[]進行比對 7. 若比對成功，則 8. 若有兩個或以上之候選詞命中，則依規則 4 篩選 &&進行向後合併流程

9. FOR j = i+1 TO Min(n,i+d)

10. 檢查 InputContextArr[BackSearchC]中是否含有輔助特徵的關鍵詞 11. 若無，則合併後填入 MergerResultArr2[BackSearchC] 12. 若已合併後一語篇段落，則跳出 13.輸出結果陣列MergerResultArr3[n] 步驟 3：判斷是否已合併完成，並進行語篇連貫關係標記 3.2.3 輔助特徵及特殊單一線索詞比對 此階段我們總共設定了四種輔助特徵及兩種特殊線索詞比對，共分為 4 個步驟：步驟 1：進行連續 Nd 及 Neu 詞彙之比對及合併根據我們的觀察，當文本中有某些具有特定詞性的詞彙，連續出現於語篇片段中，則通常這些語篇之間都具有特定的結構關係，因此，我們設定了兩種詞性進行比對。第一種是承接關係的時間連續性，我們利用詞性標記裡的時間詞來輔助我們辨識並標記此種關

(44)

係；第二種是並列關係的數詞標示慣例，其演算法如下：圖 3-5 連續特定詞性詞彙之比對及合併演算法 輸入：第二階段之結果陣列 MergerResultArr3[n] 由待處理文本所形成之長度為的陣列n InputContextArr[n] 輸出：第三階段之結果陣列 MergerResultArr4[n] 1. 若比對連續時間詞，則KeyWorÅ"Nd" 2. 若比對連續數詞定詞，則KeyWordÅ"Neu" 3. FOR i=1 TO n 4. 若 MergerResultArr3[i]尚未合併為語篇段落，則 5. 若 i >1 則 6. 從InputContextArr[i]及 InputContextArr[i-1]取出候選詞性進行比對 7. 若出現連續連續的KeyWord，則 8. StartPointÅi 9. MergerStrÅ進行語篇合併 10. 否則 11. 從 InputContextArr[i]及 InputContextArr[i+1]取出候選詞性進行比對 12. 若出現連續連續的 KeyWord，則 13. StartPointÅi 14. MergerStrÅ進行語篇合併 15. 若 i==n 或次一比對語篇已合併，則 16. EXIT &&搜尋並列句群第一分句應合併的位置 17.FOR i = StartPoint TO 1 STEP -1

18. 若MergerResultArr3[i]中的語篇段落包含 InputContextArr[StartPoint]，則 19. MergerResultArr4[i]Å(MergerStr 與 MergerResultArr3[i]進行合併) 20.若已合併完成，則 21. 輸出結果陣列MergerResultArr4[n] 22.否則 23. 繼續步驟 2

(45)

步驟 2：進行解證關係標點符號之比對及合併某些標點符號也具有輔助語篇標記的功能，因此我們以引號(：) 作為輔助解證關係的辨識及標記工作，其演算法請參閱步驟 4。步驟 3：進行相似句之比對及合併我們採用鄭守益與梁婷[‘05]的中文句子相似度計算模組，此模組以聚合規則相似度和組合規則相似度來計算中文句子的相似程度。使用兩個句子中所含的詞彙之同義或近義詞，並以改良式編輯距離計算的方法，設計新的權重配置比例、候選句篩選原則，來計算聚合語義的相似度。同時，也使用全域匹配(Global Alignment)及局部匹配(Local Alignment)的策略，求取兩句在詞性序列性質上的結構相似度。我們從實驗語料庫中抽出 3000 對分句進行測試，其結果如下：表 3-4 中文相似句實驗範例編號前分句後分句 Sim 1 刀魚說生命的顏色是白色的蚯蚓說生命的顏色是紅色的 1.00 2 久之則漸似矣久之則愈似矣 1.00 3 法名傳綮字雪個 1.00 4 能捉的都被捉了該殺的都被殺了 1.00 5 自一以分萬自萬以治一 1.00 6 錯開順序顛倒方向 1.00 7 有一點不凡有一點叛逆 1.00 8 第一是人文之美第二是人格之美 1.00 9 先是綠色的葉片後是白色的花朵 0.84 10 從以前的希特勒、史達林到近代的馬可仕、哈珊 0.77 由上表觀察，編號 1~8 為並列例句，9~10 為承接例句。我們在實驗中亦發現，相似度大的句子幾乎都為並列結構，只有極少數例句為承接。因此，本系統將相似度高的分句優先判定為並列，本步驟不適用於比對句間關係。

(46)

另外，由下圖之結果我們將相似值(Sim)的門檻值訂為 0.48，這個數值可以達到資料涵蓋率 80.45%，正確率 83.88%。 0.00% 10.00% 20.00% 30.00% 40.00% 50.00% 60.00% 70.00% 80.00% 90.00% 100.00% 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Sim值變化百分比涵蓋資料比例累計正確率圖 3-6 中文相似句測試圖本步驟之演算法如下所示：

(47)

輸入：上一步驟之結果陣列 MergerResultArr4[n] 由待處理文本所形成之長度為的陣列n InputContextArr[n] 輸出：本步驟結果陣列 MergerResultArr5[n] 相似度比對門檻值 SimÅ0.48 1.FOR i=1 TO n 2. 若 MergerResultArr3[i]尚未合併為語篇段落，則 3. 若 i >1 則 4. 從InputContextArr[i]及 InputContextArr[i-1]取出候選詞性進行比對 5. 若出現連續連續的KeyWord，則 6. StartPointÅi 7. MergerStrÅ進行語篇合併 8. 否則 9. 從InputContextArr[i]及 InputContextArr[i+1]取出候選詞性進行比對 10. 若出現連續連續的 KeyWord，則 11. StartPointÅi 12. MergerStrÅ進行語篇合併 13. 若i==n 或次一比對語篇已合併，則 14. EXIT &&搜尋並列句群第一分句應合併的位置 15.FOR i = StartPoint TO 1 STEP -1

16. 若MergerResultArr4[i]中的語篇段落包含 InputContextArr[StartPoint]，則 17. MergerResultArr5[i]Å(MergerStr 與 MergerResultArr4[i]進行合併) 18.若已合併完成，則 19. 輸出結果陣列MergerResultArr5[n] 20.否則 21. 繼續步驟 4 圖 3-7 相似的語篇片段比對演算法步驟 4：進行特殊線索詞之比對及合併我們在語料的觀察中發現，有些線索詞的詞性與一般研究中所發現的線索詞並不一樣，例如本研究提出兩種特殊線索詞。這兩種線索詞的共同特性是，都出現在語篇片段的末尾，涵蓋範圍比一般的線索詞要大；不同之處則在於連結的方向，一個向前，一個往後。因此，我們將分為兩個階段來比對這兩種線索詞，並將涵蓋範圍擴

(48)

大 3 個語篇分段或段落。第一種為列舉線索詞，此種線索詞的連結方向往前，所連結之語篇連貫關係為並列，屬性值為：(-1,1,0)，僅適用於句內關係的比對，共收錄 5 筆資料。如例句 10 中的「等等」，即可將(C)、(D)、 (E)三個語篇片段合併為並列關係。例句10：環保局秘密提前啟用本垃圾場(A)，將垃圾灰燼進場掩埋(B)，原承諾之八十三年元月十五日啟用前對南港居民做簡報(C)，提出污染防治保證書(D)，及有效管理辦法及罰則等等(E)，均未兌現(F)。第二種為動詞線索詞，此種線索詞的連結方向往後，所連結之語篇連貫關係為解證，屬性值為：(1,1,1)，共收錄 57 筆資料。如例句 11 中的「宣示」，即可將(B) 與(C)、(D)、(E)、(F) 五個語篇片段合併為解證關係。例句11：西方人士說(A)，這份文件宣示(B)，一個歐洲關係新時代已開始(C)，各國將不再相互仇恨(D)，轉而建立夥伴關係(E)，並伸出友誼之手(F)。本步驟演算法如下：

(49)

圖 3-8 特殊線索詞比對及合併演算法 輸入：上一步驟之結果陣列 MergerResultArr5[n] 由待處理文本所形成之長度為的陣列 InputContextArr[n n] 輸出：本步驟結果陣列 MergerResultArr6[n] &&Process_Step1 1. KeyWordArr[]Å關連詞屬性值為(-1,1,0)之單一線索詞集合 2.FOR i=1 TO n 3. 從 InputContextArr[i]取出語篇片段與 KeyWordArr[]進行比對 4. 若比對成功，則

5. FOR j=i+1 TO Min(n,i+d)

6. 若MergerResultArr5[j]尚未合併成段落，則

7. MergerStrÅ將 MergerResultArr5[j]與 MergerStr 合併為[其他關係] MergerResultArr6[i]Å MergerStr與MergerResultArr5[i]合併為並列關係

&&Process_Step2

8. KeyWordArr[]Å關連詞屬性值為(1,1,1)之單一線索詞集合

9.FOR i=1 TO n

10. 從InputContextArr[i]取出語篇片段與 KeyWordArr[]進行比對

11. 若比對成功，則

12. FOR j=i+1 TO Min(n,i+d)

13. 若 MergerResultArr5[j]尚未合併成段落，則

14. MergerStrÅ將 MergerResultArr5[j]與 MergerStr 合併為[其他關係]

&&搜尋解證句群第一分句應合併的位置 15. FOR k= i TO 1 STEP -1 16. 若 MergerResultArr5[k]中的語篇段落包含 InputContextArr[i]，則 17. MergerResultArr6[k]Å(MergerStr 與 MergerResultArr5[k]合併為解 證關係) 18.輸出結果陣列MergerResultArr6[n]

(50)

3.3 標記範例與說明

本研究之標記結果可分為可完全標記及無法完全標記兩種情形，茲 說明如下： 3.3.1 可完全標記之情況 例句12：尤其是除了金融與企業行為的管理以外，更是有許多限制與控管是針對個人而來的，例如公司董事與經理人赴大陸投資行為、企業投資的檢舉獎金，以及開放大陸人士來台灣觀光的管理等等。例句 12 經過斷句及 POS 標記處理後，我們將得到如下資料：圖 3-9 例句 12 斷句及 POS 標記結果接著我們進行語篇標記，其標記流程如下：表 3-5 例句 12 語篇標記流程階段編號特徵編號關連詞合併段落一合併段落二連貫關係 2 2 以及 Caa [C3] [C4] 並列 2 2 例如 P [C2] D1,([C3]|[C4] ) 解證標記流程 2 2 更 D [C1] D8,([C2]|D1,([ C3]|[C4])) 遞進

C1：尤其(D) 是(SHI) 除了(P) 金融(Na) 與(Caa) 企業(Na) 行為(Na) 的(DE) 管理(Na) 以外

(Ng) ，(COMMACATEGORY)

C2：更(D) 是(SHI) 有(V_2) 許多(Neqa) 限制(Na) 與(Caa) 控管(VC) 是(SHI) 針對(P) 個(Nf)

人(Na) 而(Cbb) 來(VA) 的(T) ，(COMMACATEGORY)

C3：例如(P) 公司(Nc) 董事(Na) 與(Caa) 經理人(Na) 赴(VCL) 大陸(Nc) 投資(VC) 行為

(Na) 、 (PAUSECATEGORY) 企業 (Na) 投資 (Na) 的 (DE) 檢舉 (VC) 獎金 (Na) ， (COMMACATEGORY)

C4；以及(Caa) 開放(VC) 大陸(Nc) 人士(Na) 來(VA) 台灣(Nc) 觀光(VA) 的(DE) 管理(Na)

(51)

由上述之標記過程，我們可以得到樹狀結構之語篇標記結果如下：

Forward:(Theme:[C1]| Rheme:Elaboration:(Theme:[C2]| Rheme:Coordinate:(Theme:[C3]| Rheme:[C4]))) 圖 3-10 例句 12 語篇標記結果經過語篇符號轉換後，我們將獲得如下之標記結果： 遞進[Forward]:([C1:尤其是除了金融與企業行為的管理以外，]|解證[Elaboration]:([C2: 更是有許多限制與控管是針對個人而來的，]|並列[Coordinate]:([C3:例如公司董事與經 理人赴大陸投資行為、企業投資的檢舉獎金，]|[C4:以及開放大陸人士來台灣觀光的管 理等等。]))) 圖 3-11 例句 12 語篇標記轉換結果我們將之轉換成樹狀圖，如下所示：遞進 C1:尤其是除了金融與企 業行為的管理以外 C2:更是有許多限制與控 管是針對個人而來的 C3:例如公司董事與經理人赴大陸 投資行為、企業投資的檢舉獎金 C4:以及開放大陸人士來 台灣觀光的管理等等解證並列圖 3-12 例句 12 語篇標記樹狀結構

(52)

3.3.2 未能完全標記之情況

例句13：自從雲林縣提出課徵碳稅的構想後，已引起中央與地

方政府間的立場對立，財政部長呂桔誠公開表示，不會准予「雲林縣碳稅自治條例」依法備查的同意權。

例句 13 經過斷句及 POS 標記處理後，我們將得到如下資料：

C1：自從(P) 雲林縣(Nc) 提出(VC) 課徵(VC) 碳(Na) 稅(Na) 的(DE) 構想(Na) 後(Ng) ，

(COMMACATEGORY)

C2：已(D) 引起(VC) 中央(Nc) 與(Caa) 地方(Na) 政府(Na) 間(Ng) 的(DE) 立場(Na) 對立

(VH) ，(COMMACATEGORY)

C3：財政部長(Na) 呂桔誠(Nb) 公開(VHC) 表示(VE) ，(COMMACATEGORY)

C4：不會(D) 准予(VE) 「(PARENTHESISCATEGORY) 雲林縣(Nc) 碳(Na) 稅(Na) 自治(VA) 條

例(Na) 」(PARENTHESISCATEGORY) 依法(D) 備查(VH) 的(DE) 同意權(Na) 。 (PERIODCATEGORY) 圖 3-13 例句 13 斷句及 POS 標記結果接著我們進行語篇標記，其標記流程如下：表 3-6 例句 13 語篇標記流程階段編號特徵編號關聯前詞關連後詞合併段落一合併段落二連貫關係 1 1 自從 P 已 D [C1] [C2] 承接標記流程 3 7 表示 VE [C3] [C4] 解證由上述之標記過程，我們可以得到樹狀結構之語篇標記結果如下：

Continue:(Theme:[C1]| Rheme:[C2])@Elaboration:(Theme:[C3]| Rheme:[C4])

圖 3-14 例句 13 語篇標記結果

(53)

承接[Continue]:([C1:自從雲林縣提出課徵碳稅的構想後，]|[C2:已引起中央與地方政府 間的立場對立，])@ 解證[Elaboration]:([C3:財政部長呂桔誠公開表示，]|[C4:不會准予 「雲林縣碳稅自治條例」依法備查的同意權。]) 圖 3-15 例句 13 語篇標記轉換結果我們將之轉換成樹狀圖，如下所示： C3:財政部長呂桔誠公開表示 解證 C4:不會准予「雲林縣碳稅自治條 例」依法備查的同意權 C1:自從雲林縣提出課徵碳稅的構 想後承接 C2:已引起中央與地方政 府間的立場對立圖 3-16 例句 13 語篇標記樹狀結構

(54)

第四章實驗設計與分析

4.1 實驗語料使用

我們從各家主要的平面媒體電子報，收集 100 篇社論來檢驗系統標記的效能，每篇的字數平均約為 1500 字，內容均為政治、經濟及民生議題，詳細數量及來源如下表所示：表 4-1 實驗語料明細表文章來源篇數長句數分句數平均字數工商社論 23 536 2423 1548 中時社論 35 1067 3856 1527 自由社論 2 55 214 1558 經濟日報社論 21 522 2348 1548 聯合報社論 19 554 2085 1424 總計 100 2734 10926 依據 2.1 節的切分規則，我們將上述語料共切分為句內 10926 個分句，句間 2734 個長句。

4.2 實驗結果

我們將系統的標記效能定義為：表 4-2 可能的標記情況應標記不應標記正確標記 a none 錯誤標記 b c 未標記 d e

(55)

系統正確率 P= c b a a + + (4.1) 系統召回率 R= d b a a + + (4.2) 系統篩檢正確率 FP= e c e d + + (4.3) 在我們的實驗中，句內標記正確率可達到 91%，召回率是 95%，篩檢正確率是 98%。另外，句間標記正確率可達到 86%，召回率是 93%，篩檢正確率是 95%。 91% 95% 98% 86% 93% 95% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% P R FP 句內標記句間標記圖 4.1 標記結果

(56)

表 4-3 標記情況統計表標記類別適用關係數量百分比句內 2570 33.16% a 句間 755 37.62% 句內 67 0.86% b 句間 56 2.79% 句內 183 2.36% c 句間 68 3.39% 句內 72 0.93% d 句間 4 0.20% 句內 4859 62.69% e 句間 1124 56.00% 句內 8634 100.00% 總計句間 14693 100.00% 由表 4-4 可以看出，社論類的文章使用最多的語篇是遞進與轉折，其比例分別是句內 20.27%、27.35%以及句間 13.11%、36.69%，次多者句內和句間有所不同，句內為並列與條件，比例分別為 17.20%、 14.05%，而句間則為解證與因果，比例分別為 20.53%、9.53%。相對於句間大量使用解證，句內則較少使用，而句內較常使用的條件語篇，在句間則很少使用。

(57)

表 4-4 語篇數量分佈統計表語篇編號語篇種類適用關係數量百分比句內 442 17.20% 1 並列句間 65 8.61% 句內 99 3.85% 2 承接句間 57 7.55% 句內 85 3.31% 3 選擇句間 18 2.38% 句內 521 20.27% 4 遞進句間 99 13.11% 句內 703 27.35% 5 轉折句間 277 36.69% 句內 192 7.47% 6 因果句間 70 9.27% 句內 361 14.05% 7 條件句間 14 1.85% 句內 136 5.29% 8 解證句間 155 20.53% 句內 31 1.21% 9 目的句間 0 0% 句內 2570 100% 總計句間 755 100% 為了觀察各種表層特徵在系統進行辨識時，所使用的情形，我們將第 2 章所歸納的特徵表列如下：

以語料為基礎的中文語篇連貫關係自動標記

國 立 交 通 大 學

資 訊 科 學 與 工 程 研 究 所

碩 士 論 文

以語料為基礎的中文語篇連貫關係自動標記

Corpus-Based Coherence Relation Tagging in Chinese

Discourse

研 究 生：鄭守益

指導教授：梁婷 博士

以語料為基礎的中文語篇連貫關係自動標記

研究生：鄭守益 指導教授：梁婷

國立交通大學資訊科學與工程研究所

摘要

Corpus-Based Coherence Relation Tagging in Chinese

Discourse

Student

:

Shou-Yi

Cheng

Advisor

:

Tyne

Liang

Institute of Computer Science and Engineering

ABSTRACT

誌 謝

目 錄

表 目 錄

圖 目 錄

第一章 諸論

1.1 研究動機

1.2 相關研究

1.3 系統概觀

第二章 以文本為主的語篇研究

2.1 切分片段

2.2 語篇連貫關係分類

2.3 語料使用

2.4 語篇線索詞研究

∑

(

)

(

)

σ

f

f

k

=

−

f

w

f

∑

=

(

)

∑

∑

−

=

=

f

f

n

f

n

f

1

;

1

σ

第三章 語篇辨識及標記

3.1 名詞定義與標記符號說明

3.2 辨識及標記執行步驟

3.3 標記範例與說明

第四章 實驗設計與分析

4.1 實驗語料使用

4.2 實驗結果

國立交通大學

資訊科學與工程研究所

碩士論文

研究生：鄭守益

指導教授：梁婷博士

研究生：鄭守益指導教授：梁婷

誌謝

目錄

表目錄

圖目錄

第一章諸論

第二章以文本為主的語篇研究

_σ

第三章語篇辨識及標記

第四章實驗設計與分析