• 沒有找到結果。

英文摘要

2. 相關研究

多語言多文件摘要的研究,著重於如何解決不同語言間型態及結構的差異 性,並決定文件的相似度,以偵測出不同文件中相異及相同的部份,進而根據這 些資訊決定摘要內容。[3], [4], [28]嘗試由單字、語句與文件三個不同角度的分析 比較,去除重複的資訊,並降低語言的障礙,而達到多語文件分析統整的目的。

Figure 13 為其提出之多語多文件自動摘要系統架構。

此架構中,第一步驟乃是分別針對各個不同的語言計算語句的相似度,並利 用分群的方法以達到從不同語言文件中抽取事件群(Event)的目的。一個事件群,

便代表圍繞相同人、地、時、物所發生的事件。接著,多語新聞分群器(Multilingual

News Cluster)以各個語言文件所分析得到的事件群當輸入,將語意相同的事件群 連結,以達到多語架構下事件群的分群。

[4], [28]中對於中英文雙語事件群的連結有深入的探討。Figure 14 為其中英 文混合語句分群架構。其基本想法為中英文語句各自分群後,再利用群中中英文 語句的對應,以建立群間連結關係。

Figure 14: 中英文混合語句分群架構

他們提出五種中英文語句對應的策略:

„ 策略一:完全不考慮位置及字詞歧義性的問題

對於存在於英文語句與中文語句中所有名詞及動詞,利用中英字典翻 譯,並參考字詞於同義詞詞林[27]及 WordNet[17]中的關係,將所有相似的 字詞對個數加總即為相似度。

„ 策略二:採取先佔原則,即每個字詞只能產生一個相似連結

針對每個詞,考慮其對應到其他語言的詞間相似個數。如Figure 15 所 示,C2的比對對象為所有E1至En

„ 策略三:採取先佔原則,並考慮位置關係

同策略二,然比對的範圍縮為一個設定的Window 內。如 Figure 16 所 示,C2 比對的對象為 E1至E3

Figure 15: 策略二單一字詞相似比對示意圖

Figure 16: 策略三單一字詞相似比對示意圖

„ 策略四:以沒有歧義性的詞優先產生連結,並決定鄰近詞的位置關係 優先以翻譯沒有歧義性的詞產生連結,如Figure 17 中,C2與E5為沒有歧義 詞。針對相鄰詞C3,則考慮E3, E4, E6與E7

Figure 17: 策略四單一字詞相似比對示意圖

„ 策略五:沒有歧義性的詞優先產生連結,並決定鄰近詞的區間位置關係 以沒有歧義性的詞優先連結,並以兩兩無歧義詞作為比較區間。如Figure 18 中,C2的比對對象為E2至E5

Figure 18: 策略五單一字詞相似比對示意圖

不同於[3], [4], [28],分別針對不同語言產生事件群,再利用語句對應的方式 連結不同語言的事件群;[6]直接利用翻譯軟體將不同的語言先翻譯為英文,在 同一語言的架構下,進行事件群的分群。其困難在於解決翻譯時所導入的雜訊及 錯誤,對分群時所造成的影響。解決的方法乃是利用WordNet[17],透過同義詞、

上位詞及下位詞等關係計算語句的相似度。Figure 19 為哥倫比亞大學 Newsblaster 系統所提出的多語多文件摘要架構。

Figure 19: Columbia Newsblaster 多語言摘要系統架構

本計畫中,我們的方法類似於[4], [28]所提及的方法,即直接計算中英文語 句間的相似度,並沒有事先將英文翻譯成中文,或將中文翻譯成英文。不同於[4], [28],我們所提出的方法沒有利用查字典的方式來比對中英文詞,乃是事先利用 中英雙語平行語料庫,建立中英文詞群。每個詞群可視為語料庫中所導出之概 念,詞群中的中英文詞可視為相關或相對應的翻譯;所有詞群的集合,即為一雙 語概念空間(Bilingual Concept Space)。對於測試文件中中英文語句的比對,我們 分別將中英文語句對應至雙語概念空間中,並以詞群作為概念空間中的維度,以 描述中英文語句為概念空間的向量表示式。透過這樣的轉換,便可以越過語言的 隔閡,以達到計算中英語句相似度的目的。

3. 研究方法

多文件自動摘要中最重要的研究議題在於找出不同文件中相異及相同的部 份,透過分群的方法,將相似度高的語句聚集在一起。同一語句群中,所涵蓋的 資訊可視為相同;該語句群並可視為多文件中所提及的一個重要概念。同樣地,

跨語言多文件自動摘要的研究中,重要的議題在於如何計算任兩相同或相異語言 所構成語句間相似度,以便跨越語言的隔閡,達到將相似度高的語句聚集的目的。

本章提出利用中英平行語料庫15(Chinese-English Parallel Corpus),透過單字/

詞分群以找出相關的中英詞群集。同一中英詞群集中,所包含的中文詞或英文詞 即可視為相對應的翻譯。中英詞群集的集合,我們稱為該中英平行語料庫所分析 出來的概念空間(Concept Space)。換句話說,透過概念群(Concept Cluster)的對 應,便可將任一語句對應到概念空間上,並以不同的概念群當成向量空間的維 度,進而得到該語句位於概念空間中的向量表示式(Vector Representation)。有了 向量表示式,接著便可計算任兩相異語言所構成語句間相似度。

3.1 中英雙語混合式文件自動摘要架構

Figure 20:為我們所提出之中英雙語混合式文件自動摘要架構,共包含五個 模組: 1) 前處理(Pre-processing);2) 階層式概念空間對應(Hierarchical Concept Mapping);3) 相似矩陣計算(Similarity Matrix Computation);4) 以主題相關地圖 (Text Relationship Map)為基礎之多文件摘要(T.R.M. Multi-Doc Summarization);

5) 概念空間建構(Concept Space Training)。其中,概念空間建構除包含前處理模 組外,另有詞分群(Word Clustering)模組。

15 平行語料庫為一中英對照之語料庫,且每個中文語句都有其相對應之英文語句,因此可由字 出現於語句中的相對位置,學習該字出現在另一語言的相對應翻譯。

3.2 概念空間建構

概念空間建構利用中英雙語平行語料庫,透過單字/詞分群以找出相關的中 英詞群集。同一中英詞群集中,所包含的中文詞或英文詞即可視為相對應的翻譯。

3.2.1 前處理(Pre-processing)

前處理對中英雙語平行語料庫進行斷詞切字的工作,並計算每個中英文詞於 相對應的段落16中所出現的頻率給予其特徵值,同時建構 Word-By-Paragraph 的 矩陣作為詞分群模組的輸入。此步驟中,我們分別利用中央研究院資訊科學所詞 庫小組所開發的中文斷詞系統[23]及 LT POS[12]進行中文與英文斷詞及詞性標 記 工 作 。 對 於 英 文 斷 詞 結 果 , 同 時 去 除 停 用 詞(Stop-Word) 並 利 用 Porter’s Stemming[18]還原字根。

Figure 20: 中英雙語混合式文件自動摘要架構

16 本計畫以段落(Paragraph)為一有意義的處理單位,亦可為語句(Sentence)或文件(Document)。

C-Doc E-Doc Event-related Documents

T.R.M.

Multi-Doc Summarization

Pre-processing

Word Clustering Bilingual

Concept-base

C-E

相關文件