分群與標記 - 應用文本探勘技術於公開來源情報分析

多資料分群方法，如常用之 k-means、k-nearest neighbors 等。本研究將選擇自我 組織圖(self-organizing map)作為關聯性分析之方法，原因為其具有頗佳的分群效能，且能將高維度資料間之拓樸關係呈現於二維的平面上。這點有利於我們去發掘資料間之關聯。

A. 自我組織圖訓練

自我組織圖演算法由 Kohonen[36]在 1982 所提出，為一種非監督式學習網路模式。其能將文件分佈以視覺化方式呈現，把需要分析的文件進行自我組織圖訓

一神經元代表一分群，神經元間之排列可以是一維、二維甚至多維，但通常以 NN 個的神經元所形成的二維矩形較為常用，不過實際上可依需求改為圓形、

三角型、六角型或任意形狀。輸入層之神經元與輸出層所有神經元間均有鏈結關係，其強度以權值向量表示。

圖 3-4 自我組織圖架構

自我組織圖基本原理為模仿人類大腦結構，即大腦中具有相似功能的腦細胞會聚集在一起的特性，與特徵映射的特性所發展出來的方法。自我組織圖具有以下之特性：

I. 維度縮減(dimensionality reduction)

自我組織圖模擬大腦特徵映射之特性，將原先以高維度特徵向量表示的資料重新以低維度的方式表現，即把任意維度的輸入向量，映射在低維度的輸出神經元陣列中，同常以一維或二維的拓樸網路來表示，如此可易於了解文件間之群集關係。

II. 拓樸維持(topology preservation)

自我組織圖能將高維度資料所具有之關係映射於低維的特徵空間中，使低維度的網路拓樸得以保有原本資料之對應關係。

以下介紹自我組織圖的基本名詞：

I. 輸入層：為網路的輸入變數，也就是訓練範例的向量，其神經元的數目依輸入向量維度而定。

II. 輸出層：為網路的輸出變數，即訓練範例的分群結果，通常為 N×N 個神 輸入層

(資料向量，代表輸入變數) 輸出層

(神經元陣列，代表分群)

經元形成的矩形。

III. 網路鏈結：輸入層中每個神經元與輸出層中每個神經元之鏈結，每一鏈結皆依其權重表達神經元間之關連。

IV. 學習速率α(t)：影響神經元突觸權重之調整速度，一般為介於 0 到 1 之 數值，會隨著訓練週期或時間增加而逐漸降低。

V. 鄰近中心：即優勝神經元，以該神經元為中心，在鄰近半徑區域內的神經元之突觸權重皆會進行調整。

VI. 鄰近半徑：決定鄰近區域之大小，一開始可取較大的半徑值，隨著訓練週期或時間增加臨近半徑會逐漸縮小。

圖 3-5 a.鄰近區域示意圖

圖 3-5 b.鄰近區域縮小示意圖

自我組織圖的主要概念是透過計算文件向量與神經元突觸權重向量的距離來映射文件至神經元上。根據文件在特徵向量上的相似程度，訓練出一個能表現

第 n 次 第 n+1 次 第 n+2 次 鄰近區域鄰近半徑鄰近中心 (優勝神經元)

整體性的特徵圖，特徵圖由多個排列成矩形的神經元組成，每個神經元具有一特

Step2.4：重複 Step2.1~ Step2.3 直到所有的文件向量都經過一次訓練。

Step3：檢查停止條件。

令 t=t+1，假如 t 達到了預先設定的總學習次數 T 時，則訓練完成；否則就 減少學習速率α(t)，並縮減鄰近區域的範圍，回到 Step2 繼續執行訓練。

B. 標記(labeling)

經過自我組織圖的訓練後，將對神經元進行標記處理，並產生文件分群圖 (document cluster map, DCM)。所謂的標記處理即將先前文件於訓練完成之自我組織圖之優勝神經元標示出來，如此便可以知道那些文件與文件間是相似的。我們將文件分群圖之標記方法敘述如下：

在 DCM 中，概念上每一個神經元即代表一些文件的集合，且標記於此神經元內的文件具有高度字詞同時出現(co-occurrence)的特性，因此被標記在同一或鄰近神經元上的文件彼此間有一定程度的語意相似程度。

產生 DCM 所使用的方法為計算文件向量與各神經元突觸權重向量的距離。

我們將第 j 筆文件向量 dj與所有神經元的突觸權重向量進行比較。假設第 j 筆文 件向量與第 i 個神經元的突觸權重向量距離為最小，則將此文件向量標記至此神 經元上。

我們將所有文件向量之標記神經元記錄下來，便可得到 DCM。先前提過本文的文件向量是依各文件所包含的關鍵字來表示，因此具有多數相同關鍵字的文件在理論上表示其相似程度很高，所以在標記的過程當中有很大的機會會被標記在同一個神經元上，也就是說被標記在同一個神經元上的文件在語意上具有較高的相似程度。因此包含相同字詞的文件會被標記在同一個或相鄰的神經元上。此外，由於神經元數目通常會小於文件數目，所以會有多份文件被標記在同一神經元上。因此一個神經元便構成一文件群集。透過這個過程，可以將相關的文件標示於同一或鄰近神經元上，如此則可獲得文件之群集而完成分群，並獲得文件間之關聯。

在文檔中應用文本探勘技術於公開來源情報分析 (頁 24-29)