相關研究

第二章相關研究

文本分類研究者主要探討分類模型及文本表示。分類模型相關研究以實用機器學習領域相關分類模型。文本表示主要探討文本與關鍵詞的權重關係與表示方式。我們分別對主題-關鍵詞的權重計算以及文本表示方式進行探討。

學術網路是社群網路的一種型態，主要探討學術領域中的學者彼此之間的關聯性。Shou-de Lin and Hans Chalupsky[2003]利用學者發表著作中的引述論文，

從中利用論文彼此之間的引述關係探討學者彼此間的合作關係以及主題。Rosen et al,[2004] 提出作者-主題模型，透過詞彙與作者之間的關聯性從中找出學者的研究主題。每位學者之間可以依據詞彙與主題之間建立關係。Tang et al. [2008]

利用共同作者及研討會議提出 Author-Conference-Topic 模型。每位學者彼此之間可以透過主題以及研討會關係建立貣一個小型網路關係。

2.1 主題-關鍵詞

主題-關鍵詞是指各個主題中具有代表性的詞彙。以資訊擷取(information retrieval)為例，關鍵詞有資訊(information)、擷取(retrieval)、索引(indexing)、查詢(query)...等。相對於解碼器(decoder)、像素(pixel) 壓縮(compression)...等更具代表性。主題關鍵詞的表示方式分為向量空間表示及機率模型。

向量空間表示中 Deerwester et al. [1990]利用以向量空間模型為基礎的 Latent Semantic Analysis(LSA)來表示主題與關鍵詞，其中主題與關鍵詞利用每個關鍵詞在各主題出現的次數表示，接著利用 Singular Value Decomposition(SVD) 降低向量維度，去除主題中不相關的詞彙。最後將文檔與關鍵詞權重利用向量空間表示主題與關鍵詞的關係。Hofmann[1999]提出 PLSI(probabilistic Latent Semantic Indexing)，此方法以 Deerwester et al. [1990]提出的 LSA 為基礎。有別於 LSA 使用關鍵詞出現在各主題的頻率次數，PLSI 使用 TF-IDF（Term Frequency–Inverse Document Frequency）計算關鍵詞對於主題的重要性，最後利用 random mapping method 決定使用分群或投影以得到主題關鍵字關係。

在機率模型中，Blei et al. [2003]利用 Jensens 不等式建立機率模型，模型中有參數值和下限值。再藉由 Variational EM 演算法得到最佳主題與關鍵詞近似機率。在步驟 E(Expectation)計算出最佳的參數值。在步驟 M(Maximization)中算出最大的下限值。藉由上述方法不斷計算得到最佳的主題與關鍵詞機率分佈。

Griths and Steyvers[2004]利用 Gibbs sampling 算出文檔中的主題多項式分佈。其中利用 Markov chain Monte Carlo(MCMC) 近似反覆計算主題關鍵詞機率，從收斂的 Markov chain 中取得主題與關鍵字的近似機率分佈樣本。利用公式(1)算出主題與關鍵詞分佈。 _mj表示詞彙 m 分配給主題 j 的頻率數；表示每個主題與詞彙的機率分佈。

mj ^mj

_m _{m j} (1)

2.2 主題模型

主題模型是指在一個具有詳細且具有意義的文檔中找出文檔所表示的主題和可能隱含的相關主題。主題模型分為監督式以及非監督式兩種，監督式方法需要人工標記，藉由事先主題關鍵詞以產生訓練語料，由於需要大量人工處理，

在不同領域的詞彙，也頇要重新標記，所以處理費時，但其正確率較高。非監督式方式不需要大量人工標記，易於應用在不同領域，但正確率較低。

Yiming Yang[1999]利用人工標記每篇文檔的主題，再計算每個詞彙出現在各文檔的次數，得到個文字所屬的主題可能性，最後依據各詞彙的分佈判斷測式語料所對應的主題。在實驗中，使用 7,789 篇路透社新聞為訓練語料，對 3,309 篇測詴語料判斷主題，得到正確率為 93%。非監督式主題辨識方法中，利用向量空間模型(Vector Space Model)來探討的主題模型是很常用的表示方法。將主題與詞彙表示為向量，再藉由向量空間的轉換以找出主題與詞彙的分群結果。Lagus et al.[1999]將詞彙以向量空間表示，利用 random mapping method [Kaski, 1998]不斷將高維度空間降維至低維度空間，最後藉由低維度空間對應到主題。Berry et al.

[1998]利用向量空間投影方式，首先建立主題與詞彙向量空間，使用 LSA 降低向量空間維度，在將詞彙投影至各個主題空間，找出投影後所對應的主題。LSA 分類再[Schutze et al, 1995] [Chen L et al, 2003]中應用得到深入的研究。

非監督式主題模型除了以向量空間模型為基礎外，另外還有被廣泛應用的生成機率模型(generative probabilistic model)。其中以 LDA(Latent Dirichlet

Allocation)為代表的系列模型。LDA 是一個藉由潛在主題生成文檔與詞彙的過程。

的如下圖 1 所示。α 表示文檔集合中隱含主題間的相對強弱，表示所有隱含主題的機率分佈，θ 表示隱含主題的比重，z 表示目的檔分配在每個詞彙上的隱含主題，w 表示目的檔的詞彙向量表示法。α 及利用 Dirichlet distribution 計算分佈情形。

圖 1: LDA 模型

Blei et al. [2003]使用 Dirichlet distribution 計算主題-關鍵詞以及文檔-主題多項式分佈，再從主題-關鍵詞以及文檔-主題多項式分佈中找出關鍵詞與主題。再

藉由 Variational EM 演算法的到最佳近似機率。由於使用 Variational EM 會發生局部極值的問題，所以在後來的研究中都是使用 Gibbs sampling 已取得最佳近似解。其中利用觀察詞 w 在主題 z 上的抽樣機率 p(w|z)當作近似解。藉由 Gibbs sampling 不斷抽樣取出，最終取出主題-關鍵詞及文檔-主題分佈。Rosen et al.

[2004]提出作者-主題模型，首先利用 LDA 計算詞彙與主題對應關係，接著利用作者-詞彙的機率分佈考慮每個詞彙所對應的作者。最後利用上述兩個模型分別對文檔中各個詞彙找出對應的主題與作者建立作者-主題模型。Tang et al. [2008]

利用共同作者及研討會議提出 Author-Conference-Topic 模型。首先利用共同作者對主題機率分佈在透過主題與研討會分佈及主題與關鍵詞分佈找出作者與研討會的機率對應。在利用作者與研討會共同找出主題機率。最後利用上述的模型建立 Author-Conference-Topic 模型。

表 1:相關研究比較 [Lagus et

al, 1999]

[Shiau Yang et al,2010]

在文檔中台灣資訊研究者的學術網路 (頁 11-14)

第二章 相關研究

2.1 主題-關鍵詞

第二章相關研究