自動化文獻內容探勘在主題分析之應用

第二章文獻分析

第二節自動化文獻內容探勘在主題分析之應用

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

析法之人工統計。而內容分析是一項以訊息的實質內容作為主要研究對象的研究方法，並嘗試由文獻搜尋文獻內涵的基本資訊，以符合研究宗旨與目的(王梅玲，

1996)。然而主題分析為資訊處理過程中相當重要的關鍵程序，它是瞭解文獻內容、標示文獻主題、組織相關文獻，並提供資料查詢關鍵詞的基本方法。所以利用主題分析檢視已經發表的文獻，可以探究在不同的時間與環境下，學科領域研究的趨勢以及研究典範的變遷(吳美美，1999)。因此，本研究將以自動化文獻內容探勘技術，探索整體數位學習領域期刊論文之研究主題，試圖歸納較為完整的數位學習領域研究主題分析架構。

第二節自動化文獻內容探勘在主題分析之應用

近年來隨著大量數據資訊的累積，引發進階統計技術的需求，資料探勘（data mining）技術可以從大量資料中，探勘其隱而未顯、潛在有用的資訊或知識(Baker

& Yacef, 2009)。其中資料分群（data clustering）的相關理論與演算法應用廣泛，

也受到普遍的重視。本研究利用 CATAR 文獻內容探勘工具中的資料分群技術進行文獻之自動分群歸類。以期刊論文的標題、摘要、引用書目資料作為文件之屬性，利用 Dice、Cosine 相似測度測量文件之間的相似度，最後再採用完全鏈結 (complete-link)演算法，進行多階段群聚主題歸類分析。因此群集分析主要目的在於分析資料彼此的相似程度，藉由分析所找的群集結果，推論出有意義、隱含及有價值的資訊(曾憲雄等人，2005)。

資料的分群是希望儘量把相似的資料歸在同一群，並把不相似的資料儘量分在不同群 (翁慈宗，2009)。而衡量相似度的計算方式有非常多種，採用不同的方式來計算相似度時，得到的結果很有可能大不相同，而只能在參考一些指標(門檻值)後，主觀地判定最佳的分群數目。在了解上述群集分析的概念與目的後，

為了更清楚掌握文件集進行相似度計算與資料剖析的有效性，因此有必要針對分群技術作更進一步的探討。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

一、自動化文獻內容探勘之分群技術

群集分析(cluster analysis)主要的目地是將資料集合中的資料記錄，加以歸類成數個群集(cluster)，使得每個群集中的資料集間相似程度高於與其它群集中資料集的相似程度(曾憲雄等人，2005)。

(一)群集分析在資料探勘過程中所扮演的角色如下：1.資料精簡：將原本大量的資料加以分群成數個群集，並從每一個群集中挑選具有代表性的資料記錄來進行後續的處理；2.推斷假設的產生：推斷出所關注資料中可能存在的某些特性或現象；3.推斷假設的驗證：對推斷假設作有效性的驗證；4.歸屬預測：分群結果應用於未知分類之資料記錄，預測資料所歸屬的群集。

(二)群集分析五個主要的循序工作項目流程

就群集分析五個主要的循序工作項目如圖 2-1 所示，說明如下：1.資料的表示：找出代表性資料維度來表示資料點；2.相似度的計算與測量：計算資料點間相似的程度；3.分群法的採用：挑選適當的分群演算法；4.評估分群的結果：對群集分析的結果進行評估；5.群集的解釋：領域專家對分群歸類結果做進一步解釋。

圖 2- 1 群集分析主要的循序工作項目 二、分群技術相關演算法

分群是資料探勘（Data mining）領域中一項非常重要的技術，它可以在大量的資料中，找出資料的分布狀況並找到其隱藏的意義，進行主題歸類及檢測其集合間相互的關係(Cheong & Lee, 2008；Jain, Murty & Flynn, 1999；Tseng, Lin & Lin, 2007)。目前常用的分群法中主要分成階層式與非階層式兩種，而階層式分群法還可以再細分為凝聚(agglomeravive)與分裂(divisive)兩種形式(Garai & Chaudhuri,

資料的表

示與轉換相似度計算分群法分群結果

與評估

群集的解釋與分析

資料集合分群結果

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

2004)。分群在規則分析與組織、決策制訂、機器學習、資料探勘與文件擷取等的研究領域非常實用(Boinee, De Angelis & Milotti, 2003)。

分群技術的目的是在分析資料的內容，將性質相似的資料群聚在一起，而讓不同的群聚與群聚間資料相異性大。分群技術與傳統的分類（Classification）最大不同是，分群技術不預先設定分類所代表的意義，而把資料先以分群技術將性質內容相近的資料聚集成一群群的群聚後，再分析定義各群聚的意義(Han &

Kamber, 2006)。

目前分群技術大致上可以分為以下幾類：（1）將資料庫內的資料分為 K 群的切割式分群演算法（Partition clustering algorithms）；（2）將資料庫內的資料以樹狀架構整理的階層式群聚演算法（Hierarchical clustering algorithms）；（3）資料庫內的資料在分類時，將密度高於一個門檻值的鄰居區域（Neighborhood）聚集成一個分群的密度基礎分群演算法（Density-based clustering algorithms）；（4）

將資料空間量化成許多格子（Grid cells）的格子基礎分群演算法（Grid-based clustering algorithms），其每一個格子內皆可以隱藏許多資訊，因而大量的減少群聚的時間。

其中階層式群聚演算法可將分群結果以一種樹狀的架構呈現，可分成凝聚法

（Agglomerative）及分裂法（Divisive），如圖 2-2 所示。凝聚法是由下而上

（Bottom-up）凝聚而成，演算法一開始先將資料庫內每筆資料表示成一個群聚，

接著依資料屬性的相似度開始做合併，每次合併兩個相似度最高的群聚，直到所設定的終止群聚數目為止。而分裂法與凝聚法相反，它是為由上而下（Top-down）

分裂，演算法一開始將資料庫內所有的資料視為同一個群聚，然後將資料相似度低的分裂呈不同群聚，直到群聚數目為所設定之終止數目為止(Han & Kamber, 2006)。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

凝聚法 ( Agglomerative ) a

d c

分裂法 ( Divisive ) Step 0

Step 0 Step 1

Step 1 Step 2

Step 2

Step 3

Step 4

a b

d e

c d e

a b c d e

圖 2- 2 凝聚式與分裂式的階層群聚演算法

資料來源：Han, J., & Kamber, M. (2006).

Data mining: concepts and techniques: Morgan Kaufmann.

階層式群聚演算法的距離評估方式有四種如圖 2-3 所示：第一種是 Centroid linkage 係以一群聚的重心點代表一個群聚，計算兩個群聚的重心點的距離作為相似程度的評量；第二種是 Average linkage，它是計算兩群聚內所有資料點的距離平均數來代表兩群聚的距離；第三種為 Complete linkage，它是計算兩群聚最遠的兩資料點的距離來表示相似程度；最後一種為 single linkage，它是以兩群聚間最近的兩資料點的距離來代表群聚相似程度(Manning, Raghavan & Schütze, 2009)。

(a) single-link : maximum similarity (b) complete-link : minimum similarity

( c ) centroid : average inter-similarity ( d ) group-average : average of similarity

圖 2- 3 階層式群聚演算距離量測方法

資料來源：Manning, C. D., Raghavan, P., & Schütze, H. (2009).

An Introduction to Information Retrieval,p381.

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

階層式群聚法的特色在於分群後，其結果可以用一樹狀結構表示。分群結果較為相近的兩群，其連結點亦較為低層，使用者可以依其需求，在分群數量階層上畫分出所需的群數，常見的有 Agglomerative Single-Link Clustering Algorithm 與 Agglomerative Complete-Link Clustering Algorithm，差別在於 Single-Link 是取兩分群間的所有群集距離最短來進行群聚，而 Complete-Link 則是以兩分群間兩兩群集距離最長來進行群聚 (Jain, et al., 1999; Kantardzie & Srivastava, 2005)。

綜上所述，本研究對於「文件歸類」採用「階層凝聚歸類法」（Hierarchical Agglomerative Clustering）(Jain, et al., 1999)，在聚類過程中反覆將最相似的文件或類別群聚在更大的類別中，如此逐漸由下而上的將所有文件組織起來。特別是其中的完全鏈結法（complete link），可將彼此相似度較高的文件歸在同一群組(曾元顯、林瑜一，2011)。以下就本研究所使用之 CATAR 文獻內容探勘工具，其相關演算法分述如下：

(一)分群技術之向量相似度測度方法

文件相似度測度一般有兩種方法：距離測度法和相似性函數法(張宇，

2009)。

1.相似性函數：相似性函數是用函數的方法來表徵兩向量相似的程度，根據向量中元素的不同，相似性函數可分為二元向量的相似性函數和一般向量的相似性函數。

2.一般向量的相似性函數：一般向量的相似性函數較距離測度應用更為廣泛，

如餘弦係數法、相關係數法、廣義 Dice 係數法、廣義 Jaccard 係數法等。

(1)餘弦係數法：餘弦係數用來度量兩組向量之間夾角的大小，亦稱為相和係數，運算式如下：

‧

product、dice coefficient、cosine coefficient、jaccard coefficient，其值介於 0 與 1 之間(Salton, 1975)，如表 2-2 所示：

表 2- 2 相似性衡量方式

Similarity Measure Sim(x,y)

Evaluation for Binary Term Vectors

Evaluation for Weighted Term Vectors

Dice cofficient

Y

‧

Similarity Measure Sim(x,y)

Evaluation for Binary Term Vectors

Evaluation for Weighted Term Vectors

Cosine coefficient

Y

Jaccard coefficient

Y

資料來源：Salton, G. (1975). A theory of indexing, volume 18 of Regional conference series in applied mathematics. Society for Industrial and Applied Mathematics.

綜觀上述分群相關技術之應用，以下介紹本研究所採用之主題分析相關演算法：

1.文件關聯相似度計算：書目對（Bibliographic coupling）以及共現字 Co-word）

(Moed, 2005)。

(1) Dice 係數(Salton, 1989) - 書目對（Bibliographic coupling）

∑ ∑

現象與趨勢(Persson, 1994; White & McCain, 1998)。另外，在群聚分析之後，也可以依據群聚歸類的結果，了解各研究主題之間的關係，進而全盤了解領域的知

‧

(2) Cosine coefficients - 共現字（Co-word）

由餘弦係數得知，若兩文件的維度皆相同，當兩向量平行，則其夾角為 0，

2.階層凝聚歸類 Hierarchical agglomerative clustering( HAC)

階層凝聚歸類可將所有文件歸入越來越大的類別中，直到所有的文件屬於同一類。即由下而上先將每一份文件視為一個單一群集，然後再依據相似度門檻進行群集合併（或凝聚），直到所有被合併、凝聚成一個包含所有文件的單一集群為止。因此自下向上的層次聚類被稱為層次凝聚歸類或 HAC。階層凝聚歸類法的特色在於歸類後，其結果可以用一樹狀結構表示(Manning, et al., 2009)。

3.完全鏈結法(Complete-link)- 相似度組成摘要的方法

針對相似文件歸類方式，主要採 Complete-link，即每個詞彙，都單獨視為一類，兩個類別之間的相似度，若超過某個門檻值，就結合並歸成同一類，如此重複歸類，兩個類別之間的相似度，定義為跨類別元素之間相似度最低者，易產生多數個索引典類別（thesaurus class），但每類僅有少數個詞彙(Salton, 1989)。

4.CATAR 類別描述詞自動擷取

CATAR 類別描述詞擷取採用相關係數(correlation coefficient)方法，如以下公式 2-6 所示：

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

其中 TP、FP、FN、TN 分別代表(參見表 2-3)：詞彙 T 出現在類別 C 中的篇 數（TP）、T 在其他類別中的篇數（FP）、C 不包含 T 的篇數（FN）以及其他類 別也沒出現詞彙 T 的篇數（TN）(Tseng, 2002)。

表 2- 3 詞彙 T 與類別 C 之關係

Term T

Yes NO

Cluster C Yes TP FN

No FP TN

此公式的意義在於當詞彙 T 只出現在類別 C 中的每一篇文件，而在其他類 別都不出現時（亦即 FP=FN=0），則 C 與 T 具有最大正相關，有最高值+1；反 之（TP=TN=0），為最大負相關，有最低值-1。因此，此一係數可反映詞彙 T 在

在文檔中數位學習領域文獻計量與主題分析 - 政大學術集成 (頁 25-33)

第二章 文獻分析

第二節 自動化文獻內容探勘在主題分析之應用

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

資料的表

示與轉換 相似度計算 分群法 分群結果

與評估

群集的解 釋與分析

資料集合 分群結果

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

資料來源：Han, J., & Kamber, M. (2006).

Data mining: concepts and techniques: Morgan Kaufmann.

資料來源：Manning, C. D., Raghavan, P., & Schütze, H. (2009).

An Introduction to Information Retrieval,p381.

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

Similarity Measure Sim(x,y)

Evaluation for Binary Term Vectors

Evaluation for Weighted Term Vectors

Dice cofficient

Y

‧

Similarity Measure Sim(x,y)

Evaluation for Binary Term Vectors

Evaluation for Weighted Term Vectors

Cosine coefficient

Y

Jaccard coefficient

Y

資料來源：Salton, G. (1975). A theory of indexing, volume 18 of Regional conference series in applied mathematics. Society for Industrial and Applied Mathematics.

∑ ∑

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

Term T

Yes NO

Cluster C Yes TP FN

No FP TN

第二章文獻分析

第二節自動化文獻內容探勘在主題分析之應用

立政治大學

立政治大學

示與轉換相似度計算分群法分群結果

群集的解釋與分析

資料集合分群結果

立政治大學

立政治大學

立政治大學

立政治大學