• 沒有找到結果。

自動化文獻內容探勘在主題分析之應用

第二章 文獻分析

第二節 自動化文獻內容探勘在主題分析之應用

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

析法之人工統計。而內容分析是一項以訊息的實質內容作為主要研究對象的研究 方法,並嘗試由文獻搜尋文獻內涵的基本資訊,以符合研究宗旨與目的(王梅玲,

1996)。然而主題分析為資訊處理過程中相當重要的關鍵程序,它是瞭解文獻內 容、標示文獻主題、組織相關文獻,並提供資料查詢關鍵詞的基本方法。所以利 用主題分析檢視已經發表的文獻,可以探究在不同的時間與環境下,學科領域研 究的趨勢以及研究典範的變遷(吳美美,1999)。因此,本研究將以自動化文獻內 容探勘技術,探索整體數位學習領域期刊論文之研究主題,試圖歸納較為完整的 數位學習領域研究主題分析架構。

第二節 自動化文獻內容探勘在主題分析之應用

近年來隨著大量數據資訊的累積,引發進階統計技術的需求,資料探勘(data mining)技術可以從大量資料中,探勘其隱而未顯、潛在有用的資訊或知識(Baker

& Yacef, 2009)。其中資料分群(data clustering)的相關理論與演算法應用廣泛,

也受到普遍的重視。本研究利用 CATAR 文獻內容探勘工具中的資料分群技術進 行文獻之自動分群歸類。以期刊論文的標題、摘要、引用書目資料作為文件之屬 性,利用 Dice、Cosine 相似測度測量文件之間的相似度,最後再採用完全鏈結 (complete-link)演算法,進行多階段群聚主題歸類分析。因此群集分析主要目的 在於分析資料彼此的相似程度,藉由分析所找的群集結果,推論出有意義、隱含 及有價值的資訊(曾憲雄等人,2005)。

資料的分群是希望儘量把相似的資料歸在同一群,並把不相似的資料儘量分 在不同群 (翁慈宗,2009)。而衡量相似度的計算方式有非常多種,採用不同的 方式來計算相似度時,得到的結果很有可能大不相同,而只能在參考一些指標(門 檻值)後,主觀地判定最佳的分群數目。在了解上述群集分析的概念與目的後,

為了更清楚掌握文件集進行相似度計算與資料剖析的有效性,因此有必要針對分 群技術作更進一步的探討。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

一、自動化文獻內容探勘之分群技術

群集分析(cluster analysis)主要的目地是將資料集合中的資料記錄,加以歸類 成數個群集(cluster),使得每個群集中的資料集間相似程度高於與其它群集中資 料集的相似程度(曾憲雄等人,2005)。

(一)群集分析在資料探勘過程中所扮演的角色如下:1.資料精簡:將原本大 量的資料加以分群成數個群集,並從每一個群集中挑選具有代表性的資料記錄來 進行後續的處理;2.推斷假設的產生:推斷出所關注資料中可能存在的某些特性 或現象;3.推斷假設的驗證:對推斷假設作有效性的驗證;4.歸屬預測:分群結 果應用於未知分類之資料記錄,預測資料所歸屬的群集。

(二)群集分析五個主要的循序工作項目流程

就群集分析五個主要的循序工作項目如圖 2-1 所示,說明如下:1.資料的表 示:找出代表性資料維度來表示資料點;2.相似度的計算與測量:計算資料點間 相似的程度;3.分群法的採用:挑選適當的分群演算法;4.評估分群的結果:對 群集分析的結果進行評估;5.群集的解釋:領域專家對分群歸類結果做進一步解 釋。

圖 2- 1 群集分析主要的循序工作項目 二、分群技術相關演算法

分群是資料探勘(Data mining)領域中一項非常重要的技術,它可以在大量 的資料中,找出資料的分布狀況並找到其隱藏的意義,進行主題歸類及檢測其集 合間相互的關係(Cheong & Lee, 2008;Jain, Murty & Flynn, 1999;Tseng, Lin & Lin, 2007)。目前常用的分群法中主要分成階層式與非階層式兩種,而階層式分群法 還可以再細分為凝聚(agglomeravive)與分裂(divisive)兩種形式(Garai & Chaudhuri,

資料的表

示與轉換 相似度計算 分群法 分群結果

與評估

群集的解 釋與分析

資料集合 分群結果

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

2004)。分群在規則分析與組織、決策制訂、機器學習、資料探勘與文件擷取等 的研究領域非常實用(Boinee, De Angelis & Milotti, 2003)。

分群技術的目的是在分析資料的內容,將性質相似的資料群聚在一起,而讓 不同的群聚與群聚間資料相異性大。分群技術與傳統的分類(Classification)最 大不同是,分群技術不預先設定分類所代表的意義,而把資料先以分群技術將性 質內容相近的資料聚集成一群群的群聚後,再分析定義各群聚的意義(Han &

Kamber, 2006)。

目前分群技術大致上可以分為以下幾類:(1)將資料庫內的資料分為 K 群 的切割式分群演算法(Partition clustering algorithms);(2)將資料庫內的資料以 樹狀架構整理的階層式群聚演算法(Hierarchical clustering algorithms);(3)資 料庫內的資料在分類時,將密度高於一個門檻值的鄰居區域(Neighborhood)聚 集成一個分群的密度基礎分群演算法(Density-based clustering algorithms);(4)

將資料空間量化成許多格子(Grid cells)的格子基礎分群演算法(Grid-based clustering algorithms),其每一個格子內皆可以隱藏許多資訊,因而大量的減少群 聚的時間。

其中階層式群聚演算法可將分群結果以一種樹狀的架構呈現,可分成凝聚法

(Agglomerative)及分裂法(Divisive),如圖 2-2 所示。凝聚法是由下而上

(Bottom-up)凝聚而成,演算法一開始先將資料庫內每筆資料表示成一個群聚,

接著依資料屬性的相似度開始做合併,每次合併兩個相似度最高的群聚,直到所 設定的終止群聚數目為止。而分裂法與凝聚法相反,它是為由上而下(Top-down)

分裂,演算法一開始將資料庫內所有的資料視為同一個群聚,然後將資料相似度 低的分裂呈不同群聚,直到群聚數目為所設定之終止數目為止(Han & Kamber, 2006)。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

凝聚法 ( Agglomerative ) a

b

d c

e

分裂法 ( Divisive ) Step 0

Step 0 Step 1

Step 1 Step 2

Step 2

Step 3

Step 3

Step 4

Step 4

a b

d e

c d e

a b c d e

圖 2- 2 凝聚式與分裂式的階層群聚演算法

資料來源:Han, J., & Kamber, M. (2006).

Data mining: concepts and techniques: Morgan Kaufmann.

階層式群聚演算法的距離評估方式有四種如圖 2-3 所示:第一種是 Centroid linkage 係以一群聚的重心點代表一個群聚,計算兩個群聚的重心點的距離作為 相似程度的評量;第二種是 Average linkage,它是計算兩群聚內所有資料點的距 離平均數來代表兩群聚的距離;第三種為 Complete linkage,它是計算兩群聚最 遠的兩資料點的距離來表示相似程度;最後一種為 single linkage,它是以兩群聚 間最近的兩資料點的距離來代表群聚相似程度(Manning, Raghavan & Schütze, 2009)。

(a) single-link : maximum similarity (b) complete-link : minimum similarity

( c ) centroid : average inter-similarity ( d ) group-average : average of similarity

圖 2- 3 階層式群聚演算距離量測方法

資料來源:Manning, C. D., Raghavan, P., & Schütze, H. (2009).

An Introduction to Information Retrieval,p381.

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

階層式群聚法的特色在於分群後,其結果可以用一樹 狀結構表示。分群結果 較為相近的兩群,其連結點亦較為低層,使用者可以依其需求,在分群數量階層 上畫分出所需的群數,常見的有 Agglomerative Single-Link Clustering Algorithm 與 Agglomerative Complete-Link Clustering Algorithm,差別在於 Single-Link 是 取兩分群間的所有群集距離最短來進行群聚,而 Complete-Link 則是以兩分群 間兩兩 群集距離最長來進行群聚 (Jain, et al., 1999; Kantardzie & Srivastava, 2005)。

綜上所述,本研究對於「文件歸類」採用「階層凝聚歸類法」(Hierarchical Agglomerative Clustering)(Jain, et al., 1999),在聚類過程中反覆將最相似的文件 或類別群聚在更大的類別中,如此逐漸由下而上的將所有文件組織起來。特別是 其中的完全鏈結法(complete link),可將彼此相似度較高的文件歸在同一群組(曾 元顯、林瑜一,2011)。以下就本研究所使用之 CATAR 文獻內容探勘工具,其相 關演算法分述如下:

(一)分群技術之向量相似度測度方法

文件相似度測度一般有兩種方法:距離測度法和相似性函數法(張宇,

2009)。

1.相似性函數:相似性函數是用函數的方法來表徵兩向量相似的程度,根據 向量中元素的不同,相似性函數可分為二元向量的相似性函數和一般向量的相似 性函數。

2.一般向量的相似性函數:一般向量的相似性函數較距離測度應用更為廣泛,

如餘弦係數法、相關係數法、廣義 Dice 係數法、廣義 Jaccard 係數法等。

(1)餘弦係數法:餘弦係數用來度量兩組向量之間夾角的大小,亦稱為相和 係數,運算式如下:

product、dice coefficient、cosine coefficient、jaccard coefficient,其值介於 0 與 1 之間(Salton, 1975),如表 2-2 所示:

表 2- 2 相似性衡量方式

Similarity Measure Sim(x,y)

Evaluation for Binary Term Vectors

Evaluation for Weighted Term Vectors

Dice cofficient

Y

Similarity Measure Sim(x,y)

Evaluation for Binary Term Vectors

Evaluation for Weighted Term Vectors

Cosine coefficient

Y

Jaccard coefficient

Y

資料來源:Salton, G. (1975). A theory of indexing, volume 18 of Regional conference series in applied mathematics. Society for Industrial and Applied Mathematics.

綜觀上述分群相關技術之應用,以下介紹本研究所採用之主題分析相關演算 法:

1.文件關聯相似度計算:書目對(Bibliographic coupling)以及共現字 Co-word)

(Moed, 2005)。

(1) Dice 係數(Salton, 1989) - 書目對(Bibliographic coupling)

∑ ∑

現象與趨勢(Persson, 1994; White & McCain, 1998)。另外,在群聚分析之後,也 可以依據群聚歸類的結果,了解各研究主題之間的關係,進而全盤了解領域的知

(2) Cosine coefficients - 共現字(Co-word)

由餘弦係數得知,若兩文件的維度皆相同,當兩向量平行,則其夾角為 0,

2.階層凝聚歸類 Hierarchical agglomerative clustering( HAC)

階層凝聚歸類可將所有文件歸入越來越大的類別中,直到所有的文件屬於同 一類。即由下而上先將每一份文件視為一個單一群集,然後再依據相似度門檻進 行群集合併(或凝聚),直到所有被合併、凝聚成一個包含所有文件的單一集群 為止。因此自下向上的層次聚類被稱為層次凝聚歸類或 HAC。階層凝聚歸類法 的特色在於歸類後,其結果可以用一樹狀結構表示(Manning, et al., 2009)。

3.完全鏈結法(Complete-link)- 相似度組成摘要的方法

針對相似文件歸類方式,主要採 Complete-link,即每個詞彙,都單獨視為一 類,兩個類別之間的相似度,若超過某個門檻值,就結合並歸成同一類,如此重 複歸類,兩個類別之間的相似度,定義為跨類別元素之間相似度最低者,易產生 多數個索引典類別(thesaurus class),但每類僅有少數個詞彙(Salton, 1989)。

4.CATAR 類別描述詞自動擷取

CATAR 類別描述詞擷取採用相關係數(correlation coefficient)方法,如以下公 式 2-6 所示:

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

其中 TP、FP、FN、TN 分別代表(參見表 2-3):詞彙 T 出現在類別 C 中的篇 數(TP)、T 在其他類別中的篇數(FP)、C 不包含 T 的篇數(FN)以及其他類 別也沒出現詞彙 T 的篇數(TN)(Tseng, 2002)。

表 2- 3 詞彙 T 與類別 C 之關係

Term T

Yes NO

Cluster C Yes TP FN

No FP TN

此公式的意義在於當詞彙 T 只出現在類別 C 中的每一篇文件,而在其他類 別都不出現時(亦即 FP=FN=0),則 C 與 T 具有最大正相關,有最高值+1;反 之(TP=TN=0),為最大負相關,有最低值-1。因此,此一係數可反映詞彙 T 在

此公式的意義在於當詞彙 T 只出現在類別 C 中的每一篇文件,而在其他類 別都不出現時(亦即 FP=FN=0),則 C 與 T 具有最大正相關,有最高值+1;反 之(TP=TN=0),為最大負相關,有最低值-1。因此,此一係數可反映詞彙 T 在