• 沒有找到結果。

小句重心選取…

在文檔中 中文主題詞辨識與其應用 (頁 24-30)

第三章 語句主題詞萃取

3.2 小句重心選取…

小句重心選取是將重心理論加以改進以適用於中文語句重心的選取。重心理 論的原則如下,設目前的第i小句重心為Ci,前一小句之重心為Ci-1,再前一小句

重心為Ci-2。則依據Ci, Ci-1, Ci-2之間的關係,共有下列四種情形:

Ci-1=Ci-2 Ci-1≠Ci-2

Ci=Ci-1 延續 Continue

平順遞移 Smooth-Shift Ci≠Ci-1 保留

Retain

粗糙遞移 Rough-Shift 重心模型(Centering Model) [Grosz et al., ‘95]

第一種情形是Ci=Ci-1且Ci-1=Ci-2時,表示Ci延續前面兩小句的重心。

第二種情形是Ci-1=Ci-2但Ci≠Ci-1時,表示小句重心準備遞移,但尚不知是「平 順遞移」或是「粗糙遞移」,須待下小句決定,故「保留」。

第三種情形是Ci-1≠Ci-2但Ci=Ci-1時,表示小句重心由Ci-2「平順遞移」至 Ci-1=Ci

第四種情形是Ci-1≠Ci-2且Ci≠Ci-1時,表示小句重心「粗糙遞移」,由Ci-2遞移 至Ci-1後又馬上遞移至Ci

由於「粗糙遞移」的情形較少,而在中文小句中,若遇Ci-1≠Ci-2,而Ci-1想帶 出Ci,兩者並沒有重心候選詞重複或者有零指代與代名詞時,則會誤判為「粗糙 遞移」(狀況3.3),因此我們根據此重心模型加以改進,將「粗糙遞移」的條件 限制較為嚴格一些,同時將「平順遞移」的條件放寬。詳細情形請參考後面的狀 況4 敘述。

當小句重心候選詞有多個時,以重心模型分成以下四種狀況:

狀況1. Ci-1=Ci-2

狀況1.1 ∃C∈Can(Ci), C=Ci-1,則Ci=C=Ci-1

狀況1.2 C(3rd-anaphor)∈Can(Ci) OR C(Zero-anaphor)∈Can(Ci),則Ci=Ci-1

其中Can(Ci)表示Ci的重心候選詞集合,在狀況1 中我們加入了第三人稱代名 詞的辨識與零指代辨識。

狀況1.1 表示有一個候選詞C與前一小句重心Ci-1相同,則Ci「延續」前一小 句重心。

狀況1.2 則表示此小句含有第三人稱代名詞或者零指代,即小句有延續上小 句論述的情形,則Ci「延續」上小句之重心。

狀況2. Ci-1=Ci-2, 且

狀況2.1 ∀C∈Can(Ci), C≠Ci-1且C(3rd-anaphor)∉Can(Ci) AND C(Zero-anaphor)∉Can(Ci),則Ci=Can(Ci)。

狀況2.2 前一小句沒有重心(標示為E),或者此小句為長句中的第一小句,

則Ci=Can(Ci)。

狀況2.1 即是非狀況 1 的情形,Ci所有候選詞均與前一小句重心Ci-1不一致,

且無第三人稱代名詞與零指代情形,則「保留」Ci所有候選詞Can(Ci),以待下一 小句決定為「平順遞移」或者「粗糙遞移」,再行決定Ci

狀況2.2 前小句沒有重心(即沒有重心候選詞的小句),或者沒有前小句可參 考(例如在長句的第一小句時),則「保留」此小句候選詞以待下小句決定。

設前小句重心Ci-1未決定,即前小句為「保留」情形時,此時需根據本小句與 前小句之關連,判斷是「平順遞移」抑或「粗糙遞移」,我們分成以下幾種狀況 來討論:

狀況3. Ci-1≠Ci-2, 且

狀況3.1:∃Ck∈Can(Ci-1), ∃Cj∈Can(Ci), Ck =Cj,則Ci=Ci-1 =Ck =Cj。 狀況3.2:C(3rd-anaphor)∈Can(Ci) OR C(Zero-anaphor)∈Can(Ci) 則Ci=Ci-1=C,

where Freq(C)=MaxFreq( Can(Ci-1) )。

狀況3.3:∀Ck∈Can(Ci-1), ∀Cj∈Can(Ci), CkCj,且C(3rd-anaphor) Can(C

i) AND C(Zero-anaphor)∉Can(Ci),則

Ci =Ci-1 =C , where Freq(C)=MaxFreq(Can(Ci), Can(Ci-1))。

MaxFreq(Ti…Tk):計算Ti…Tk,k個詞彙於此文章中出現之頻率,並取其頻率 最高者。若為第一、第二人稱代名詞,其頻率視為0。

在狀況3.1 中,Ci-1與Ci兩小句重心的候選詞中有在兩句都出現者,則取其為 兩句重心;若有多個候選詞在兩句中都出現,則取其於此文章中出現頻率最高 者。重心由Ci-2平順遞移至Ci-1與Ci

狀況3.2 中,由於本小句有第三人稱代名詞或零指代,則取前小句重心候選 詞Can(Ci-1)中出現於此文章最高頻的候選詞當作兩句重心。重心由Ci-2平順遞移至 Ci-1=Ci

狀況3.3 中,Ci-1與Ci皆有多個候選詞,且第i小句不含代名詞或零指代,Ci-1與 Ci之候選詞亦無重複時,則兩小句重心Ci=Ci-1=MaxFreq( Can(Ci),Can(Ci-1)) ,即 從兩小句的候選詞中挑選文章詞頻之最高者。重心由Ci-2平順遞移至Ci-1與Ci

狀況4. Ci-1≠Ci-2, 且

Can(Ci-1)={C1}, Can(Ci)={C2},C1≠C2,則Ci=C2

狀況4 中,Ci-1與Ci候選詞均只有1 個,各為C1與C2,且C1≠C2,則為「粗糙 遞移」。

與重心理論不同的是,在狀況4 中,我們將「粗糙遞移」的狀況限制的很嚴 謹,並將原本應視為「粗糙遞移」的狀況視為是「平順遞移」(狀況3.3)。這是 因為若Ci-1已為「保留」狀況,且此時Ci-1想帶出Ci,Ci才是重點,兩小句既無重 複的候選詞亦無代名詞與零指代,這種情形按照原始的重心模型(即將狀況3.3 視為「粗糙遞移」),便會誤判是「粗糙遞移」,如以下兩個小句:

例4a. 從外國的經驗來看,

Can =外國, 經驗,Centeroriginal=經驗,Centerimproved=台鐵 例4b. 台鐵主要有兩條新的出路:捷運化與觀光化。

Can = 台鐵, 出路, 捷運,Centeroriginal =台鐵,Centerimproved =台鐵

Centeroriginal代表原始重心模型選取的重心,Centerimprove則是我們的改良法所 選取的。4a小句的候選詞為「外國」與「經驗」,由於是第一小句,依狀況 2.2,

保留所有候選詞。4b小句候選詞為「台鐵」、「出路」、「捷運」,並未含有零指代 與代名詞,且候選詞亦未與4a小句重複,此為狀況 3.3。若按照原始重心模型,

兩小句將獨立各自選取重心,因此4a小句選取「經驗」,4b小句選取「台鐵」結 果如Centeroriginal所示。

但4a小句很明顯地是想帶出後面的主題:「台鐵兩條新出路」,而不是真正想 講述外國的經驗,縱使4a小句標示為「經驗」不能當成錯誤,但因此視為是「粗 糙遞移」並不適當。且比起「經驗」,若能將4a小句和 4b小句一起標示為「台鐵」, 更為恰當且更能幫助之後長句主題詞的辨識。因此我們將狀況3.3 改為「平順遞 移」,兩小句一起選出共同的重心「台鐵」,如Centerimproved

「粗糙遞移」在語篇當中原本就較少出現,即使判定為「平順遞移」影響亦 不大,且此舉將更有助於之後的長句主題詞辨識,因此我們認為將狀況3.3 改為

「平順遞移」並不會造成太多「粗糙遞移」誤判為「平順遞移」。

另外,在MaxFreq( )計算詞頻之時,我們會特別對「的」後面的名詞候選詞 加權1.5 倍。常見「的」在中文上的用法可分為兩種,一種是形容詞修飾,即形 容詞+「的」+名詞,另一種是所有格用法。

例6a: 炙熱(VH) 的(DE) 陽光(Na) (形容詞修飾用法)

例6b: 小明(Nb) 的(DE) 課本(Na) (所有格用法)

小句#5 為狀況 3.3,「情況」雖在「的」後有被加權,但仍未超越「台鐵」,前 一句候選詞「限制」亦被加權但亦超越「台鐵」,因此「台鐵」成為#4 與#5 的重 心。

在文檔中 中文主題詞辨識與其應用 (頁 24-30)

相關文件