輔助特徵及特殊單一線索詞比對

第三章語篇辨識及標記

3.2 辨識及標記執行步驟

3.2.3 輔助特徵及特殊單一線索詞比對

此階段我們總共設定了四種輔助特徵及兩種特殊線索詞比對，共分為 4 個步驟：

步驟 1：進行連續 Nd 及 Neu 詞彙之比對及合併

根據我們的觀察，當文本中有某些具有特定詞性的詞彙，連續出現於語篇片段中，則通常這些語篇之間都具有特定的結構關係，

因此，我們設定了兩種詞性進行比對。第一種是承接關係的時間連續性，我們利用詞性標記裡的時間詞來輔助我們辨識並標記此種關

係；第二種是並列關係的數詞標示慣例，其演算法如下：

圖 3-5 連續特定詞性詞彙之比對及合併演算法 輸入：第二階段之結果陣列 MergerResultArr3[n]

由待處理文本所形成之長度為的陣列n InputContextArr[n] 輸出：第三階段之結果陣列 MergerResultArr4[n]

1. 若比對連續時間詞，則KeyWorÅ"Nd"

2. 若比對連續數詞定詞，則KeyWordÅ"Neu"

3. FOR i=1 TO n

4. 若 MergerResultArr3[i]尚未合併為語篇段落，則 5. 若 i >1 則

6. 從InputContextArr[i]及 InputContextArr[i-1]取出候選詞性進行比對 7. 若出現連續連續的KeyWord，則

8. StartPointÅi

9. MergerStrÅ進行語篇合併 10. 否則

11. 從 InputContextArr[i]及 InputContextArr[i+1]取出候選詞性進行比對 12. 若出現連續連續的 KeyWord，則

18. 若MergerResultArr3[i]中的語篇段落包含 InputContextArr[StartPoint]，則 19. MergerResultArr4[i]Å(MergerStr 與 MergerResultArr3[i]進行合併) 20.若已合併完成，則

21. 輸出結果陣列MergerResultArr4[n]

22.否則

23. 繼續步驟 2

步驟 2：進行解證關係標點符號之比對及合併

某些標點符號也具有輔助語篇標記的功能，因此我們以引號(：) 作為輔助解證關係的辨識及標記工作，其演算法請參閱步驟 4。

步驟 3：進行相似句之比對及合併

我們採用鄭守益與梁婷[‘05]的中文句子相似度計算模組，此模組以聚合規則相似度和組合規則相似度來計算中文句子的相似程度。使用兩個句子中所含的詞彙之同義或近義詞，並以改良式編輯距離計算的方法，設計新的權重配置比例、候選句篩選原則，來計算聚合語義的相似度。同時，也使用全域匹配(Global Alignment)及局部匹配(Local Alignment)的策略，求取兩句在詞性序列性質上的結構相似度。我們從實驗語料庫中抽出 3000 對分句進行測試，其結果如下：

表 3-4 中文相似句實驗範例

編號前分句後分句 Sim

1 刀魚說生命的顏色是白色的蚯蚓說生命的顏色是紅色的 1.00

2 久之則漸似矣久之則愈似矣 1.00

3 法名傳綮字雪個 1.00

4 能捉的都被捉了該殺的都被殺了 1.00

5 自一以分萬自萬以治一 1.00

6 錯開順序顛倒方向 1.00

7 有一點不凡有一點叛逆 1.00

8 第一是人文之美第二是人格之美 1.00

9 先是綠色的葉片後是白色的花朵 0.84

10 從以前的希特勒、史達林到近代的馬可仕、哈珊 0.77

由上表觀察，編號 1~8 為並列例句，9~10 為承接例句。我們在實驗中亦發現，相似度大的句子幾乎都為並列結構，只有極少數例句為承接。因此，本系統將相似度高的分句優先判定為並列，本步驟不適用於比對句間關係。

另外，由下圖之結果我們將相似值(Sim)的門檻值訂為 0.48，這個數值可以達到資料涵蓋率 80.45%，正確率 83.88%。

0.00%

10.00%

20.00%

30.00%

40.00%

50.00%

60.00%

70.00%

80.00%

90.00%

100.00%

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Sim值變化

百分比

涵蓋資料比例累計正確率

圖 3-6 中文相似句測試圖

本步驟之演算法如下所示：

輸入：上一步驟之結果陣列 MergerResultArr4[n]

由待處理文本所形成之長度為的陣列n InputContextArr[n] 輸出：本步驟結果陣列 MergerResultArr5[n]

相似度比對門檻值 SimÅ0.48

1.FOR i=1 TO n

2. 若 MergerResultArr3[i]尚未合併為語篇段落，則 3. 若 i >1 則

4. 從InputContextArr[i]及 InputContextArr[i-1]取出候選詞性進行比對 5. 若出現連續連續的KeyWord，則

6. StartPointÅi

7. MergerStrÅ進行語篇合併 8. 否則

9. 從InputContextArr[i]及 InputContextArr[i+1]取出候選詞性進行比對 10. 若出現連續連續的 KeyWord，則

16. 若MergerResultArr4[i]中的語篇段落包含 InputContextArr[StartPoint]，則 17. MergerResultArr5[i]Å(MergerStr 與 MergerResultArr4[i]進行合併) 18.若已合併完成，則

19. 輸出結果陣列MergerResultArr5[n]

20.否則

大 3 個語篇分段或段落。

第一種為列舉線索詞，此種線索詞的連結方向往前，所連結之語篇連貫關係為並列，屬性值為：(-1,1,0)，僅適用於句內關係的比對，共收錄 5 筆資料。如例句 10 中的「等等」，即可將(C)、(D)、

(E)三個語篇片段合併為並列關係。

例句

10

：環保局秘密提前啟用本垃圾場

(A)

，將垃圾灰燼進場掩埋

(B)

，原承諾之八十三年元月十五日啟用前對南港居民做簡報

(C)

，提出污染防治保證書

(D)

，及有效管理辦法及罰則等等

(E)

，均未兌現

(F)

。

第二種為動詞線索詞，此種線索詞的連結方向往後，所連結之語篇連貫關係為解證，屬性值為：(1,1,1)，共收錄 57 筆資料。如例句 11 中的「宣示」，即可將(B) 與(C)、(D)、(E)、(F) 五個語篇片段合併為解證關係。

例句

11

：西方人士說

(A)

，這份文件宣示

(B)

，一個歐洲關係新時代已開始

(C)

，各國將不再相互仇恨

(D)

，轉而建立夥伴關係

(E)

，並伸出友誼之手

(F)

。

本步驟演算法如下：

圖 3-8 特殊線索詞比對及合併演算法 輸入：上一步驟之結果陣列 MergerResultArr5[n]

由待處理文本所形成之長度為的陣列 InputContextArr[n n] 輸出：本步驟結果陣列 MergerResultArr6[n]

&&Process_Step1

1. KeyWordArr[]Å關連詞屬性值為(-1,1,0)之單一線索詞集合 2.FOR i=1 TO n

3. 從 InputContextArr[i]取出語篇片段與 KeyWordArr[]進行比對 4. 若比對成功，則

5. FOR j=i+1 TO Min(n,i+d)

6. 若MergerResultArr5[j]尚未合併成段落，則

7. MergerStrÅ將 MergerResultArr5[j]與 MergerStr 合併為[其他關係]

MergerResultArr6[i]Å MergerStr與MergerResultArr5[i]合併為並列關係

&&Process_Step2

8. KeyWordArr[]Å關連詞屬性值為(1,1,1)之單一線索詞集合 9.FOR i=1 TO n

10. 從InputContextArr[i]取出語篇片段與 KeyWordArr[]進行比對 11. 若比對成功，則

12. FOR j=i+1 TO Min(n,i+d)

13. 若 MergerResultArr5[j]尚未合併成段落，則

14. MergerStrÅ將 MergerResultArr5[j]與 MergerStr 合併為[其他關係]

&&搜尋解證句群第一分句應合併的位置 15. FOR k= i TO 1 STEP -1

16. 若 MergerResultArr5[k]中的語篇段落包含 InputContextArr[i]，則 17. MergerResultArr6[k]Å(MergerStr 與 MergerResultArr5[k]合併為解

證關係)

18.輸出結果陣列MergerResultArr6[n]

在文檔中以語料為基礎的中文語篇連貫關係自動標記 (頁 43-50)

第三章 語篇辨識及標記

3.2 辨識及標記執行步驟

3.2.3 輔助特徵及特殊單一線索詞比對

10

(A)

(B)

(C)

(D)

(E)

(F)

11

(A)

(B)

(C)

(D)

(E)

(F)

第三章語篇辨識及標記