小句重心選取…

第三章語句主題詞萃取

3.2 小句重心選取…

小句重心選取是將重心理論加以改進以適用於中文語句重心的選取。重心理論的原則如下，設目前的第i小句重心為Ci，前一小句之重心為Ci-1，再前一小句

重心為Ci-2。則依據Ci, Ci-1, Ci-2之間的關係，共有下列四種情形：

Ci-1＝Ci-2 Ci-1≠Ci-2

Ci＝Ci-1 延續 Continue

平順遞移 Smooth-Shift Ci≠Ci-1 保留

Retain

粗糙遞移 Rough-Shift 重心模型(Centering Model) [Grosz et al., ‘95]

第一種情形是Ci=Ci-1且Ci-1＝Ci-2時，表示Ci延續前面兩小句的重心。

第二種情形是Ci-1＝Ci-2但Ci≠Ci-1時，表示小句重心準備遞移，但尚不知是「平順遞移」或是「粗糙遞移」，須待下小句決定，故「保留」。

第三種情形是Ci-1≠Ci-2但Ci＝Ci-1時，表示小句重心由Ci-2「平順遞移」至 Ci-1=Ci。

第四種情形是Ci-1≠Ci-2且Ci≠Ci-1時，表示小句重心「粗糙遞移」，由Ci-2遞移至Ci-1後又馬上遞移至Ci。

由於「粗糙遞移」的情形較少，而在中文小句中，若遇Ci-1≠Ci-2，而Ci-1想帶出Ci，兩者並沒有重心候選詞重複或者有零指代與代名詞時，則會誤判為「粗糙遞移」（狀況3.3），因此我們根據此重心模型加以改進，將「粗糙遞移」的條件限制較為嚴格一些，同時將「平順遞移」的條件放寬。詳細情形請參考後面的狀況4 敘述。

當小句重心候選詞有多個時，以重心模型分成以下四種狀況：

狀況1. Ci-1＝Ci-2 且

狀況1.1 ∃C∈Can(Ci), C＝Ci-1，則Ci=C＝Ci-1。

狀況1.2 C(3rd-anaphor)∈Can(Ci) OR C(Zero-anaphor)∈Can(Ci)，則Ci=Ci-1。

其中Can(Ci)表示Ci的重心候選詞集合，在狀況1 中我們加入了第三人稱代名詞的辨識與零指代辨識。

狀況1.1 表示有一個候選詞C與前一小句重心Ci-1相同，則Ci「延續」前一小句重心。

狀況1.2 則表示此小句含有第三人稱代名詞或者零指代，即小句有延續上小句論述的情形，則Ci「延續」上小句之重心。

狀況2. Ci-1＝Ci-2, 且

狀況2.1 ∀C∈Can(Ci), C≠Ci-1且C(3rd-anaphor)∉Can(Ci) AND C(Zero-anaphor)∉Can(Ci)，則Ci=Can(Ci)。

狀況2.2 前一小句沒有重心(標示為E)，或者此小句為長句中的第一小句，

則Ci=Can(Ci)。

狀況2.1 即是非狀況 1 的情形，Ci所有候選詞均與前一小句重心Ci-1不一致，

且無第三人稱代名詞與零指代情形，則「保留」Ci所有候選詞Can(Ci)，以待下一小句決定為「平順遞移」或者「粗糙遞移」，再行決定Ci。

狀況2.2 前小句沒有重心（即沒有重心候選詞的小句），或者沒有前小句可參考（例如在長句的第一小句時），則「保留」此小句候選詞以待下小句決定。

設前小句重心Ci-1未決定，即前小句為「保留」情形時，此時需根據本小句與前小句之關連，判斷是「平順遞移」抑或「粗糙遞移」，我們分成以下幾種狀況來討論：

狀況3. Ci-1≠Ci-2, 且

狀況3.1：∃C_k∈Can(Ci-1), ∃C_j∈Can(Ci), C_k =C_j，則Ci=Ci-1 =C_k =C_j。狀況3.2：C(3rd-anaphor)∈Can(Ci) OR C(Zero-anaphor)∈Can(Ci) 則Ci=Ci-1=C,

where Freq(C)=MaxFreq( Can(Ci-1) )。

狀況3.3：∀C_k∈Can(Ci-1), ∀C_j∈Can(Ci), C_k ≠C_j，且C(3rd-anaphor) Can(C

∉ i) AND C(Zero-anaphor)∉Can(Ci)，則

Ci =Ci-1 =C , where Freq(C)=MaxFreq(Can(Ci), Can(Ci-1))。

MaxFreq(Ti…Tk)：計算Ti…Tk，k個詞彙於此文章中出現之頻率，並取其頻率最高者。若為第一、第二人稱代名詞，其頻率視為0。

在狀況3.1 中，Ci-1與Ci兩小句重心的候選詞中有在兩句都出現者，則取其為兩句重心；若有多個候選詞在兩句中都出現，則取其於此文章中出現頻率最高者。重心由Ci-2平順遞移至Ci-1與Ci。

狀況3.2 中，由於本小句有第三人稱代名詞或零指代，則取前小句重心候選詞Can(Ci-1)中出現於此文章最高頻的候選詞當作兩句重心。重心由Ci-2平順遞移至 Ci-1=Ci。

狀況3.3 中，Ci-1與Ci皆有多個候選詞，且第i小句不含代名詞或零指代，Ci-1與 Ci之候選詞亦無重複時，則兩小句重心Ci=Ci-1=MaxFreq( Can(Ci),Can(Ci-1)) ，即從兩小句的候選詞中挑選文章詞頻之最高者。重心由Ci-2平順遞移至Ci-1與Ci。

狀況4. Ci-1≠Ci-2, 且

Can(Ci-1)={C1}, Can(Ci)={C2}，C1≠C2，則Ci=C2。

狀況4 中，Ci-1與Ci候選詞均只有1 個，各為C1與C2，且C1≠C2，則為「粗糙遞移」。

與重心理論不同的是，在狀況4 中，我們將「粗糙遞移」的狀況限制的很嚴謹，並將原本應視為「粗糙遞移」的狀況視為是「平順遞移」（狀況3.3）。這是因為若Ci-1已為「保留」狀況，且此時Ci-1想帶出Ci，Ci才是重點，兩小句既無重複的候選詞亦無代名詞與零指代，這種情形按照原始的重心模型（即將狀況3.3 視為「粗糙遞移」），便會誤判是「粗糙遞移」，如以下兩個小句：

例4a. 從外國的經驗來看，

Can =外國, 經驗，Centeroriginal=經驗，Centerimproved=台鐵例4b. 台鐵主要有兩條新的出路：捷運化與觀光化。

Can = 台鐵, 出路, 捷運，Centeroriginal =台鐵，Centerimproved =台鐵

Centeroriginal代表原始重心模型選取的重心，Centerimprove則是我們的改良法所選取的。4a小句的候選詞為「外國」與「經驗」，由於是第一小句，依狀況 2.2，

保留所有候選詞。4b小句候選詞為「台鐵」、「出路」、「捷運」，並未含有零指代與代名詞，且候選詞亦未與4a小句重複，此為狀況 3.3。若按照原始重心模型，

兩小句將獨立各自選取重心，因此4a小句選取「經驗」，4b小句選取「台鐵」結果如Centeroriginal所示。

但4a小句很明顯地是想帶出後面的主題：「台鐵兩條新出路」，而不是真正想講述外國的經驗，縱使4a小句標示為「經驗」不能當成錯誤，但因此視為是「粗糙遞移」並不適當。且比起「經驗」，若能將4a小句和 4b小句一起標示為「台鐵」，更為恰當且更能幫助之後長句主題詞的辨識。因此我們將狀況3.3 改為「平順遞移」，兩小句一起選出共同的重心「台鐵」，如Centerimproved。

「粗糙遞移」在語篇當中原本就較少出現，即使判定為「平順遞移」影響亦不大，且此舉將更有助於之後的長句主題詞辨識，因此我們認為將狀況3.3 改為

「平順遞移」並不會造成太多「粗糙遞移」誤判為「平順遞移」。

另外，在MaxFreq( )計算詞頻之時，我們會特別對「的」後面的名詞候選詞加權1.5 倍。常見「的」在中文上的用法可分為兩種，一種是形容詞修飾，即形容詞＋「的」＋名詞，另一種是所有格用法。

例6a：炙熱(VH) 的(DE) 陽光(Na) （形容詞修飾用法）

例6b：小明(Nb) 的(DE) 課本(Na) （所有格用法）

小句#5 為狀況 3.3，「情況」雖在「的」後有被加權，但仍未超越「台鐵」，前一句候選詞「限制」亦被加權但亦超越「台鐵」，因此「台鐵」成為#4 與#5 的重心。

在文檔中中文主題詞辨識與其應用 (頁 24-30)

第三章 語句主題詞萃取

3.2 小句重心選取…

第三章語句主題詞萃取