2.1 自動投影片的發展
過去學者(e.g. Li, 1999; Radev and McKeown, 1998)指出,簡報內 容通常包含圖片、表格以及簡要清晰的文字,將簡報資訊傳達給聽眾。
因此過去的研究,主要以文件摘要為基礎來生成投影片( e.g. Mani, et al., 2000)。而摘要則強調文句語法的正確性。因此,也有學者提出應 由自然語言處理及多媒體來補強。
Shibata and Kurohashi (2005) 提 議 以 自 然 語 言 處 理 (Natural Language Processing, NLP)來協助獲取文件的摘要投影片。他們能夠 擷取出文章中的主題與非主題部份,來做為投影片的項目。很明顯地,
此方法過分倚賴自然語言處理的技術,因此研究者本身需對所處理的 語言有深厚的知識與瞭解,否則光靠現有語言學的模組是無法處理的 很好(以英文而言,斷句仍無法達到百分之百正確,更不用說是中 文)。
Masum et. al. 2005 提 出 自 動 產 生 簡 報 (Auto Report to Presentation, ARP)的系統,此系統利用使用者所 指定的查詢字 (Query),透過網路的搜尋引擎能夠得到許多網頁,最後從這些網頁 來產生摘要。但此系統需要使用者輸入主題詞(Keyphrase),且頇要透 過網路,以及不符合我們論文所提出的要求(輸入 PDF 產生投影片)。
Utiyama and Hasida (1999)提議使用 GDA 標籤集來標注原始文件 的語義,並藉由機器推論彼此間的相依及共同參照關係來產生投影片。
8
Masao and Koiti (1999)也將一般的文字檔案半自動的標上 GDA 標籤,
並試著從名詞片語、動詞片語或文法來獲得文件主題。但由於使用 GDA 方法,均需由人工介入對文件加入標籤,若不熟其語法(e.g. GDA 的 tagset)、或本身並不熟悉文章內容(例如研究生)就可能無法產生具 資訊性的投影片。
AutoBrief (Green, et al. 2004)為一實驗性的智慧型多媒體展示系 統,它被用於運輸排程的簡報產生,希望能產生方便使用者討論不同 排程方案的簡報。但此系統強調的是如何彙集不同資料來源將之整合 表達成具高資訊傳達性的簡報,尤其強調圖形的呈現優於文字,故其 研究偏重於圖形設計的探討。例如此系統關心同一份數據資料是要用 長條圖、圓餅圖、或折線圖來呈現;不同時間點(或不同地點)但相同 產品的數據比較,是要以同一長條堆疊來呈現,或不同長條並列來表 示;或關心在有限的範圍內如何有智慧的呈現大部份的資料點等議題。
它將「投影片產生」表示成一個規劃(planning)的問題。
2.2 潛藏語意分析(LSA)
本論文是基於 Yeh et al. 2005 的研究,在他們的研究中 SVD 分解 的矩陣是以字詞-句子為單位。其缺點是字詞(相對於句子)通常太過簡 略,欲從其中抽取出共有主題並不容易。所以 Yeh, et al. 2005 所使用 的 權 重 公 式aij = Gj ∗ Lij , 本 論 文 改 為 以 字 詞 - 句 子 計 數 矩 陣 (term-by-sentence matrix) ,除此之外,本論文提議將字詞-句子的矩 陣修改為段落-句子(paragraph by sentence)的矩陣,但此句子是以名詞 來代替句子,因此除了名詞以外的字詞並不會被記錄在矩陣當中,原 始的字詞-句子的矩陣,以分群的概念來看,有著相同主題的句子,
其句子本身的字詞應該也會是同一群的文字,如此才能夠擷取出共有
9
主題;而本論文所提出段落-句子的矩陣,其基本想法也類似字詞-句 子,以研究者撰寫論文的角度來看,研究者在每個段落中只會敘述一 種主題,因此若在一篇文件當中有許多段落,而當有句子同時出現在 不同段落,就能知道這些句子其實是在敘述同一種主題,也就能擷取 到共有主題的句子。
潛藏語意分析是以數學統計為基礎的摘要法,利用一向量空間來 表達字詞與文件之間的潛在語意關係,在從文件中找出深層的隱藏語 意,也能夠解決一詞多義(Polysemy)與多詞一義(synonymy)的問題。
但在一般應用當中,被創造出來的向量空間非常龐大,因此才需要進 行奇異值分解方式(singular value decomposition)來縮減此向量空間的 大小,透過奇異值分解不但能將維度縮減,也更能夠表現出該文件的 概念意義。
潛藏語意分析的流程如下:
(1) 將詞彙 W 與文件 D 表示成一向量空間Aw∗d,w 與 d是詞 彙 W 與文件 D 的大小,假設 w≥ d,其中向量空間 A 每一個元素 表示詞彙 W 在文件 D 中出現的次數。
(2) 接著對 A 進行 SVD 分解表示為Aw∗d = USVT。因此得到 三個矩陣分別為 U、S、V。其中 U 是 w*R 的左奇異值矩陣,S 是 R*R 的奇異值對角矩陣,而 V 是 R*d 的右奇異值矩陣。
(3) 進行維度縮減,以避免資料中雜訊的影響時,可以取 S 中前 K 大的奇異值,並移除剩餘的。
(4) 最後所新形成的矩陣A′ = U′S′V′ T,可用來求句子間的相 似度,A′中的每一列代表句子在語意空間中的向量,故A′中列 i(第 i 個句子)及列 j(第 j 個句子)間的相似度可由計算其內積求得,亦
10
即是
A A
T中元素(i,j)的值。儘 管 LSA 在 一 些 論 文 中 的 效 果 , 比 LDA(Latent Dirichlet Allocation,LDA)或機率式潛藏語意分析(Probabilistic Latent Semantic Analysis)還要來的不好,但是 Tuomo et al. (2008)在他們的論文中證明 LSA 的效果稍微好過 LDA 和 PLSA,因此 LSA 的領域還是可以有發 展空間。
2.3 NTU 摘要法
在中文自動摘要方面,Chen, et. al. 1998 提出鑑別詞的計算應以 名詞與動詞為主。原因是如果將文章中的冠詞、副詞、以及介係詞等 詞彙都予以刪除,讀者仍然能夠知道這篇文章所要表達的概念,因此 說明了眾多的詞性中,唯有名詞與動詞才是最重要的。
最後作者依據(1)詞彙的重要性(Word importance) 與詞彙的重複 性(Word frequency)(2)詞彙的共現性(Word co-occurrence)(3)詞彙的距 離(Word distance)的三種統計值,再結合位置、首次出現、線索詞等 資訊來計算每句子的分數,將萃取力(Extraction Strength, ES)最高的挑 選出來,成為最後的摘要結果。
𝐸𝑆 𝑆𝑖 = 𝐶𝑆(𝑛𝑖𝑗)/𝑚
𝑚
𝑗 =1
𝐶𝑆 𝑛 是名詞 n 的連接詞強度(Connective Strength, CS),此公 式是 Jelinek 所提出的修正版。
𝐶𝑆 𝑛 = 𝑆𝑁𝑁 𝑛 + 𝑆𝑁𝑉 𝑛
𝑆𝑁𝑉是名詞與其它名詞的強度與𝑆𝑁𝑁是名詞與其它動詞的強 度。
11
𝑆𝑁𝑉 𝑛𝑖 = 𝐼𝐷𝐹 𝑛𝑖 ∗ 𝐼𝐷𝐹 𝑣𝑖 ∗ 𝑓(𝑛𝑖, 𝑣𝑖) 𝑓 𝑛𝑖 ∗ 𝑓 𝑣𝑖 ∗ 𝐷(𝑛𝑖, 𝑣𝑖)
𝑗
𝑆𝑁𝑁 𝑛𝑖 = 𝐼𝐷𝐹 𝑛𝑖 ∗ 𝐼𝐷𝐹 𝑛𝑖 ∗ 𝑓(𝑛𝑖, 𝑛𝑖) 𝑓 𝑛𝑖 ∗ 𝑓 𝑛𝑖 ∗ 𝐷(𝑛𝑖, 𝑛𝑖)
𝑗
Chen, et. al. 1998 認為詞彙的相關統計值如下:
(1)詞彙的重要性與詞彙的重複性
作者認為在計算詞彙重要性時,若使用傳統的 TF,是會有風險 的。原因是,當詞彙在許多文件中都有出現時,那麼詞彙的鑑別力將 會減弱,而當訓練資料的數量夠大時,IDF 值具有相當高的穩定性,
因此才可以計算詞彙的重要性,其中 IDF 值愈大,表示愈重要。IDF 可以使用下列的數學式計算求得。
IDF 𝑤 = log((𝑃 − 𝑂(𝑤))/𝑂(𝑤)
𝑃是某一文件集合的文件總數,𝑂(𝑤)是包含詞𝑤的文件總數 (重複性)。
(2) 詞彙的共現性
由於作者認為概念一致的文件資料,作者使用的詞組必然趨向某 一個語意範疇。以統計的角度,表示該語意範疇的詞彙一起出現的機 率比較大。判斷那些詞組屬於同樣的語意範疇則是利用大規模的語料 庫計算詞的共現程度。使用共現資訊(Mutual Information,簡稱 MI) 計算詞的共現,其數學式如下所示:
MI 𝑤i, 𝑤j = log 𝑃(𝑤i, 𝑤j) 𝑃(𝑤i)𝑃(𝑤j)
共現資訊的含義是,當詞𝑤i與詞𝑤j頻繁一起在語料庫出現,其聯 合機率𝑃(𝑤i, 𝑤j)會大於𝑃(𝑤i)𝑃(𝑤j),因MI 𝑤i, 𝑤j 此會大於 0;當詞𝑤i與
12
詞𝑤j出現的方式是背道而馳時,MI 𝑤i, 𝑤j 會甚小於 0,舉例來說,若 詞𝑤i機率為 0.8、詞𝑤j機率為 0.9,當詞𝑤i與詞𝑤j頻繁在一起時,聯合 機率𝑃(𝑤i, 𝑤j)為 0.8,其 MI 為log 0.9∗0.80.8 = log 1.11 = 0.515;當詞 𝑤i與詞𝑤j出現背道而馳時,聯合機率𝑃(𝑤i, 𝑤j)為 0.2,其 MI 為 log 0.9∗0.80.2 = log 0.277 = −1.848。
(3) 詞彙的距離
作者認為詞的位置也很重要。基於文件是有生命的文字組合的觀 點,相關的詞組其出現的距離不會太長。因為,若相隔太遠,彼此之 間的影響效果就大打折扣,就應該不會是作者的用意。引入距離的因 素,比較能夠確實反應撰寫行為。距離的計算可採用如下的方式,首 先為每一個名詞與動詞設定一個編號,且假如編號總共有五個,詞彙 𝑤i與𝑤j的距離𝐷(𝑤i, 𝑤j)可以用以下的方式計算:
𝐷 𝓍, 𝓎 = ABS(𝐶 𝑤i − 𝐶(𝑤j))
ABS為絕對值函數,𝐶 𝑤i 代表詞彙𝑤i的編號,如 C(消息) = 4,
而 C(計畫) = 7,所以 D(消息,計畫) =3。