文件分群

三研究方法

3.3 文件分群

圖 3-3 二元向量空間模型

3.3 文件分群

本步驟之目的在於找出文件間之關聯以提供後續分析使用。而為了讓相似的文件群集在一起且文件中的知識分佈情況以視覺化的方式呈現給使用者。因此本研究將選擇自我組織圖(self-organizing map)作為分群之方法，原因為其具有頗佳的分群效能，能將高維度資料間之拓樸關係呈現於二維之平面上，且使得每一個相鄰的群組具有某種程度的相關性。這點有利於我們去發掘資料間之關聯。

3.3.1 自我組織圖(SOM)訓練

自我組織圖演算法由 Kohonen [11]在 1982 所提出，為一種非監督式學習網路模式。其以特徵映射的方式，將任意維度的特徵向量，映射至低維的的特徵映射圖上，如一維向量方式或二維矩陣方式排列形成之拓樸映射圖，並依據目前的輸入向量在神經元間彼此相互競爭，優勝者則為優勝神經元，其可獲得調整鏈結權重向量的機會，而最後再輸出層的神經元會依據輸入向量的特徵以有意義的拓樸結構展現在輸出空間中。此拓樸結構可以反映出輸入向量的特徵且顯示出文件彼此間的關聯情形。

自我組織圖的網路架構主要由輸入層、輸出層兩個部分組成，如圖 3-4 所示。

輸入層為網路的輸入變數，為一向量值。輸出曾代表著訓練後分群結果，每一神經元代表一個群組，神經元間之排列可以式一維、二維甚至多維，但通常以 N×N 個神經元所形成的二維矩形較為常用。輸入層之神經元與輸出層所有神經元間均有鏈結關係，其強度以權值向量表示，當網路訓練完後，其輸出神經原相鄰近者會具有相似的權值向量。

圖 3-4 自我組織圖架構

自我組織圖主要概念為模仿人類大腦結構，即大腦中具有相似性質的腦細胞會聚集在一起的特性，將一群未知或未經標記的資料，透過 SOM 演算法，尋找出彼此間相似的特性，再將這些具有某種相似特性的資料聚集成一類。而自我組織圖具有以下特性：

I. 維度縮減(dimensionality reduction)

自我組織圖是模擬人類大腦特徵映射之特性，可將任意維度之輸入向量，

以低維度之輸出神經元陣列對映資料間的分佈關係，常以一維或二維的拓樸網路來表示，如此可易於了解文見間之群集關係。

II. 拓樸維持(topology preservation)

輸出層

(神經元陣列，代表分群)

輸入層

(資料向量，代表輸入變數)

由於自我組織圖可以將高維度資料彼此間所具有的關係映射於低維度的特徵空間中，使低維度之網路拓樸仍具有高維度資料間之關係與群集關係，

以利於資料之視覺化。

以下為自我組織圖的基本名詞與兩層結構之介紹：

I. 輸入層：此層為網路的資料輸入來源，通常為訓練資料之特徵向量，其神經元的數目依據輸入向量的維度而定。

II. 輸出層：此層為網路的輸出變數，即訓練範例的分群結果，通常為 N×N 個 神經元形成的矩形。

III. 網路鏈結：輸入層中每個神經元透過此鏈結與輸出層中的神經元連結，每一鏈結皆依其權重來表達神經元之間的關聯。

IV. 學習速率α(t)：影響神經元突觸權重之調整速度，一般介於數值 0 到 1 之間，

並隨著訓練週期或時間的增加而逐漸降低。

V. 鄰近中心：優勝神經元，即輸入層中的輸入向量與輸出層中距離最短的神經元。以該神經元為中心，在鄰近半徑區域內的神經元之所有神經元之鏈結權重均會進行調整。

VI. 鄰近半徑：決定鄰近區域之大小，一開始可取較大的半徑值，隨著訓練週期或時間的增加，逐漸縮小此鄰近半徑，鄰近區域也隨之變小。如圖 3-5 所示。

圖 3-5 a.鄰近區域

鄰近半徑

鄰近中心(優勝神經元) 鄰近區域

圖 3-5 b.鄰近區域縮小示意圖

自我組織圖演算法的主要目標就是以這種映射方式，將輸入向量映射到特徵圖上。其學習過程步驟如下：

 Step1：設定網路參數

設定訓練所需的參數，如輸入層神經元數、輸出層神經元數、輸入文件向量 筆數、學習速率α(t)、學習次數 T，並以亂數設定鏈結權重向量 wi。

 Step2：自訓練文件向量中隨機挑選一文件向量 dj行訓練。

 Step3：計算 d_j與所有神經元鏈結權重向量 w_i間之歐基里德距離，挑選最小 的神經元 c，該神經元即為優勝神經元，其滿足下列公式，

(3.2) 其中 w_i為第 i 個神經元的權重向量，M 為輸出神經元總數。

 Step4：更新鏈結權重的向量。

鏈結權重向量調整的法則是將優勝神經元 c 與其鄰近區域內的神經元皆進 行調整，更新鏈結權重向量如下：

(3.3) 第 n 次

第 n+1 次 第 n+2 次

其中 N_c為優勝神經元 c 之鄰近區域內的神經元集合，此鄰近區域將隨著訓 練週期的增加而遞減，α(t)為訓練時間為 t 時的學習速率參數。

 Step5：重複 Step2~ Step4 直到所有的文件向量都經過一次訓練。

 Step6：停止檢查條件。

令 t=t+1，假如 t 達到了預先設定的總學習次數 T 時，則訓練完成；否則就 減少學習速率α(t)，並縮減鄰近區域的範圍，回到 Step2 繼續執行訓練。

訓練完成後，每一神經元即代表一資料(文件)群集，且藉由一標記(labeling)過程，我們可以得知屬於該群集之文件為何。下圖 3-6 為 SOM 演算法之訓練步驟。

圖 3-6 SOM 訓練步驟

3.3.2

標記(labeling)

經過自我組織圖的訓練後，我們將針對神經元進行標記過程，並產生文件群集圖(document cluster map, DCM)。所謂的標記處理即將先前文件於訓練完成之

自我組織圖之優勝神經元標示出來，以便知道哪些文件與文件之間的相似度是高的。文件群集圖之標記方法如下：

在 DCM 中，概念上每一個神經元即代表一些文件的集合，且標記於此神經元內的文件具有高度字詞同時出現(co-occurrence)的特性，因此被標記在同一個神經元或鄰近神經元上的文件彼此間有一定程度的相似程度。

產生 DCM 所使用的方法為計算文件向量與各神經元鏈結權重向量的距離。

我們將第 j 筆文件向量 d_j與所有神經元的鏈結向量進行比較，假設第 j 筆文件向 量與第 i 個神經元的鏈結權重向量的距離最小，則將此文件向量標記至此神經元 上。

最後將所有文件向量之標記神經元記錄下來，即是文件群集圖。透過這個過程，我們可以將相似度高的文件標示於同一或鄰近神經元上，如此則可以獲得文件之群集，也就是達成分群的目的，並獲得文件間之關聯。

同樣的，經關鍵字標記後，每一神經元皆會被某些關鍵字所標記，這些被標記在同一神經元的關鍵字便構成一關鍵字群集，再將所有文件向量之標記神經元記錄下來，即是關鍵字群集圖(keyword cluster map, KCM)。在 KCM 中每一神經元內所包含的是一些字詞的群集，且這些字詞為其對應之文件中的常用字詞，因此這些字詞在其被標記的神經元之鏈結權重向量中占有一定程度的權重值。

在文檔中應用自我組織圖於社會網路文字訊息之情感分析 (頁 22-27)

三 研究方法

3.3 文件分群

3.3 文件分群

標記(labeling)

三研究方法