文獻探討 - 使用潛語意分析法為基自動投影片產生

2.1 自動投影片的發展

過去學者(e.g. Li, 1999; Radev and McKeown, 1998)指出，簡報內容通常包含圖片、表格以及簡要清晰的文字，將簡報資訊傳達給聽眾。

因此過去的研究，主要以文件摘要為基礎來生成投影片( e.g. Mani, et al., 2000)。而摘要則強調文句語法的正確性。因此，也有學者提出應由自然語言處理及多媒體來補強。

Shibata and Kurohashi (2005) 提議以自然語言處理 (Natural Language Processing, NLP)來協助獲取文件的摘要投影片。他們能夠擷取出文章中的主題與非主題部份，來做為投影片的項目。很明顯地，

此方法過分倚賴自然語言處理的技術，因此研究者本身需對所處理的語言有深厚的知識與瞭解，否則光靠現有語言學的模組是無法處理的很好(以英文而言，斷句仍無法達到百分之百正確，更不用說是中文)。

Masum et. al. 2005 提出自動產生簡報 (Auto Report to Presentation, ARP)的系統，此系統利用使用者所指定的查詢字 (Query)，透過網路的搜尋引擎能夠得到許多網頁，最後從這些網頁來產生摘要。但此系統需要使用者輸入主題詞(Keyphrase)，且頇要透過網路，以及不符合我們論文所提出的要求(輸入 PDF 產生投影片)。

Utiyama and Hasida (1999)提議使用 GDA 標籤集來標注原始文件的語義，並藉由機器推論彼此間的相依及共同參照關係來產生投影片。

Masao and Koiti (1999)也將一般的文字檔案半自動的標上 GDA 標籤，

並試著從名詞片語、動詞片語或文法來獲得文件主題。但由於使用 GDA 方法，均需由人工介入對文件加入標籤，若不熟其語法(e.g. GDA 的 tagset)、或本身並不熟悉文章內容(例如研究生)就可能無法產生具資訊性的投影片。

AutoBrief (Green, et al. 2004)為一實驗性的智慧型多媒體展示系統，它被用於運輸排程的簡報產生，希望能產生方便使用者討論不同排程方案的簡報。但此系統強調的是如何彙集不同資料來源將之整合表達成具高資訊傳達性的簡報，尤其強調圖形的呈現優於文字，故其研究偏重於圖形設計的探討。例如此系統關心同一份數據資料是要用長條圖、圓餅圖、或折線圖來呈現；不同時間點(或不同地點)但相同產品的數據比較，是要以同一長條堆疊來呈現，或不同長條並列來表示；或關心在有限的範圍內如何有智慧的呈現大部份的資料點等議題。

它將「投影片產生」表示成一個規劃(planning)的問題。

2.2 潛藏語意分析(LSA)

本論文是基於 Yeh et al. 2005 的研究，在他們的研究中 SVD 分解的矩陣是以字詞-句子為單位。其缺點是字詞(相對於句子)通常太過簡略，欲從其中抽取出共有主題並不容易。所以 Yeh, et al. 2005 所使用的權重公式a_ij = G_j ∗ L_ij ，本論文改為以字詞 - 句子計數矩陣 (term-by-sentence matrix) ，除此之外，本論文提議將字詞-句子的矩陣修改為段落-句子(paragraph by sentence)的矩陣，但此句子是以名詞來代替句子，因此除了名詞以外的字詞並不會被記錄在矩陣當中，原始的字詞-句子的矩陣，以分群的概念來看，有著相同主題的句子，

其句子本身的字詞應該也會是同一群的文字，如此才能夠擷取出共有

主題；而本論文所提出段落-句子的矩陣，其基本想法也類似字詞-句子，以研究者撰寫論文的角度來看，研究者在每個段落中只會敘述一種主題，因此若在一篇文件當中有許多段落，而當有句子同時出現在不同段落，就能知道這些句子其實是在敘述同一種主題，也就能擷取到共有主題的句子。

潛藏語意分析是以數學統計為基礎的摘要法，利用一向量空間來表達字詞與文件之間的潛在語意關係，在從文件中找出深層的隱藏語意，也能夠解決一詞多義(Polysemy)與多詞一義(synonymy)的問題。

但在一般應用當中，被創造出來的向量空間非常龐大，因此才需要進行奇異值分解方式(singular value decomposition)來縮減此向量空間的大小，透過奇異值分解不但能將維度縮減，也更能夠表現出該文件的概念意義。

潛藏語意分析的流程如下:

(1) 將詞彙 W 與文件 D 表示成一向量空間A_w∗d，w 與 d是詞彙 W 與文件 D 的大小，假設 w≥ d，其中向量空間 A 每一個元素表示詞彙 W 在文件 D 中出現的次數。

(2) 接著對 A 進行 SVD 分解表示為A_w∗d = USV^T。因此得到三個矩陣分別為 U、S、V。其中 U 是 w*R 的左奇異值矩陣，S 是 R*R 的奇異值對角矩陣，而 V 是 R*d 的右奇異值矩陣。

(3) 進行維度縮減，以避免資料中雜訊的影響時，可以取 S 中前 K 大的奇異值，並移除剩餘的。

(4) 最後所新形成的矩陣A^′ = U^′S^′V^{′ T}，可用來求句子間的相似度，A^′中的每一列代表句子在語意空間中的向量，故A^′中列 i(第 i 個句子)及列 j(第 j 個句子)間的相似度可由計算其內積求得，亦

即是

A   A 

^T中元素(i,j)的值。

儘管 LSA 在一些論文中的效果，比 LDA(Latent Dirichlet Allocation,LDA)或機率式潛藏語意分析(Probabilistic Latent Semantic Analysis)還要來的不好，但是 Tuomo et al. (2008)在他們的論文中證明 LSA 的效果稍微好過 LDA 和 PLSA，因此 LSA 的領域還是可以有發展空間。

2.3 NTU 摘要法

在中文自動摘要方面，Chen, et. al. 1998 提出鑑別詞的計算應以名詞與動詞為主。原因是如果將文章中的冠詞、副詞、以及介係詞等詞彙都予以刪除，讀者仍然能夠知道這篇文章所要表達的概念，因此說明了眾多的詞性中，唯有名詞與動詞才是最重要的。

最後作者依據(1)詞彙的重要性(Word importance) 與詞彙的重複性(Word frequency)(2)詞彙的共現性(Word co-occurrence)(3)詞彙的距離(Word distance)的三種統計值，再結合位置、首次出現、線索詞等資訊來計算每句子的分數，將萃取力(Extraction Strength, ES)最高的挑選出來，成為最後的摘要結果。

𝐸𝑆 𝑆_𝑖 = 𝐶𝑆(𝑛_𝑖𝑗)/𝑚

𝑚

𝑗 =1

𝐶𝑆 𝑛 是名詞 n 的連接詞強度(Connective Strength, CS)，此公式是 Jelinek 所提出的修正版。

𝐶𝑆 𝑛 = 𝑆𝑁𝑁 𝑛 + 𝑆𝑁𝑉 𝑛

𝑆𝑁𝑉是名詞與其它名詞的強度與𝑆𝑁𝑁是名詞與其它動詞的強度。

𝑆𝑁𝑉 𝑛_𝑖 = 𝐼𝐷𝐹 𝑛_𝑖 ∗ 𝐼𝐷𝐹 𝑣_𝑖 ∗ 𝑓(𝑛_𝑖, 𝑣_𝑖) 𝑓 𝑛_𝑖 ∗ 𝑓 𝑣_𝑖 ∗ 𝐷(𝑛_𝑖, 𝑣_𝑖)

𝑗

𝑆𝑁𝑁 𝑛_𝑖 = 𝐼𝐷𝐹 𝑛_𝑖 ∗ 𝐼𝐷𝐹 𝑛_𝑖 ∗ 𝑓(𝑛_𝑖, 𝑛_𝑖) 𝑓 𝑛_𝑖 ∗ 𝑓 𝑛_𝑖 ∗ 𝐷(𝑛_𝑖, 𝑛_𝑖)

𝑗

Chen, et. al. 1998 認為詞彙的相關統計值如下：

(1)詞彙的重要性與詞彙的重複性

作者認為在計算詞彙重要性時，若使用傳統的 TF，是會有風險的。原因是，當詞彙在許多文件中都有出現時，那麼詞彙的鑑別力將會減弱，而當訓練資料的數量夠大時，IDF 值具有相當高的穩定性，

因此才可以計算詞彙的重要性，其中 IDF 值愈大，表示愈重要。IDF 可以使用下列的數學式計算求得。

IDF 𝑤 = log((𝑃 − 𝑂(𝑤))/𝑂(𝑤)

𝑃是某一文件集合的文件總數，𝑂(𝑤)是包含詞𝑤的文件總數 (重複性)。

(2) 詞彙的共現性

由於作者認為概念一致的文件資料，作者使用的詞組必然趨向某一個語意範疇。以統計的角度，表示該語意範疇的詞彙一起出現的機率比較大。判斷那些詞組屬於同樣的語意範疇則是利用大規模的語料庫計算詞的共現程度。使用共現資訊(Mutual Information，簡稱 MI) 計算詞的共現，其數學式如下所示：

MI 𝑤_i, 𝑤_j = log 𝑃(𝑤_i, 𝑤_j) 𝑃(𝑤_i)𝑃(𝑤_j)

共現資訊的含義是，當詞𝑤_i與詞𝑤_j頻繁一起在語料庫出現，其聯合機率𝑃(𝑤_i, 𝑤_j)會大於𝑃(𝑤_i)𝑃(𝑤_j)，因MI 𝑤_i, 𝑤_j 此會大於 0；當詞𝑤_i與

詞𝑤_j出現的方式是背道而馳時，MI 𝑤_i, 𝑤_j 會甚小於 0，舉例來說，若詞𝑤_i機率為 0.8、詞𝑤_j機率為 0.9，當詞𝑤_i與詞𝑤_j頻繁在一起時，聯合機率𝑃(𝑤_i, 𝑤_j)為 0.8，其 MI 為log _0.9∗0.8^0.8 = log 1.11 = 0.515；當詞 𝑤_i與詞𝑤_j出現背道而馳時，聯合機率𝑃(𝑤_i, 𝑤_j)為 0.2，其 MI 為 log _0.9∗0.8^0.2 = log 0.277 = −1.848。

(3) 詞彙的距離

作者認為詞的位置也很重要。基於文件是有生命的文字組合的觀點，相關的詞組其出現的距離不會太長。因為，若相隔太遠，彼此之間的影響效果就大打折扣，就應該不會是作者的用意。引入距離的因素，比較能夠確實反應撰寫行為。距離的計算可採用如下的方式，首先為每一個名詞與動詞設定一個編號，且假如編號總共有五個，詞彙 𝑤_i與𝑤_j的距離𝐷(𝑤_i, 𝑤_j)可以用以下的方式計算：

𝐷 𝓍, 𝓎 = ABS(𝐶 𝑤_i − 𝐶(𝑤_j))

ABS為絕對值函數，𝐶 𝑤_i 代表詞彙𝑤_i的編號，如 C(消息) = 4，

而 C(計畫) = 7，所以 D(消息,計畫) =3。

在文檔中使用潛語意分析法為基自動投影片產生 (頁 15-20)