Self-Organizing Map (SOM)

第二章文件分群相關研究工作

第一節 Self-Organizing Map (SOM)

SOM 是種非監督式學習 (Unsupervised Learning) 的類神經網路模型，由 Kohonen 於 1984 提出。與監督式學習 (Supervised Learning) 的類神經網路模型不同的是，SOM 不需額外的訓練資料。SOM 將多維空間的資料對應到二維的平面上，並且在二維的平面上維持多維空間中空間距離的關係。亦即，在多維空間上相近的資料，在二維空間上會被群聚在相近的點上，進而達成分群的目的。圖 2 是其網路拓樸 (Network Topology) 示意圖。SOM 應用在文件分群上主要分成幾個步驟：

K 個輸出點 (Output Node)

Kohonen’s Layer

N 個輸入點 (Input Node) 圖 2：SOM 的 Network Topology[Roussinov01]

1. 初始化輸入點 (Input Node)：

套用向量空間模型 (Vector Space Model) 將每筆文件量化，使其成為一個座落在關鍵字空間中的向量。而每個向量，就代表一個輸入點，稱為輸入向量 (Input Vector)。

2. 建立及初始化輸出點 (Output Node)：

通常輸出點是以一個矩形平面排列，所以，需設定矩形長寬以決定輸出點總個數。而每個輸出點都有一個模型向量 (Model Vector)，此向量的維度需與輸入向量的維度相同，此向量可視為輸入向量所在空間中的一點，其起始值可用亂數決定。

3. 進行學習 (Learning) 過程：

以下所描述的，為一次完整循環 (Iteration) 的過程，要反覆進行數次，

直到整個 SOM 收斂，或者超過某一循環次數門檻限制才停止。

一個循環要依序用所有輸入向量對所有輸出點模型向量做調整，調整過程如下：

A. 選擇勝利點 (Winner Node)：計算輸入向量跟所有輸出點模型向量的距離，模型向量與輸入向量最近的輸出點為勝利點。最 常被使用的距離計算公式如方程式 1。其中， m 代表在第 t 次調整模型向量時，某一輸出點 i 的模型向量。

X X

)

i(t

∑

⁽ ⁽ ⁾^- ⁽ ⁽ ⁾⁾⁾²

)) ( , (

i j

i t Dim j Dim t

Similarity X m = X m

方程式 1：以 Euclidean Distance 為相似度定義

B. 調整模型向量：根據 0 方程式 2 來調整模型向量的值：

)) ( -( )

( )

(t _i t h_c₍ _),_i_,_t _i t

i m X m

m + = + _X ×

0 方程式 2：Model Vector Update

0 方程式 2 中，h 控制了分群過程中模型向量學習速度的快慢及影響鄰近區域點 (Neighborhood Node) 的能力。一般的定義如方程式 3 所示，為第個輸出點在第 t 次調整模型向量時，將輸入向量的勝利點 帶入後，所得的函數值。其中 r 、

分別為勝利點及第i個輸出點在矩形平面的座標向量。

t i c( X),,

t i

hc_{( X}_),_,

i )

c(x _c











 −

−

= ( ) exp 2 ₂ ( )

2 ,

( t t

h_c _i _t ^c ⁱ

α ^rσ ^r

方程式 3：h_c_{( X}_),_i_,_t

在方程式 3 中，α(t)介在 0~1 之間，是個單調遞減 (Monotonically Decreasing) 的函數，它影響了學習速度的快慢。σ(t)亦為一單調遞減的函數，它牽涉到勝利點影響鄰近區域點的能力。經此調整後，所有的模型向量，都會有不同程度向輸入向量移動的趨

勢。但在不同的應用中，有較為簡易的定義法，例如方程

式 4：

t i

hc_{( X}_),_,



 − <

= otherwise

R if

h _c _i _t α ^c ⁱ

, 0

), (

, ), (

r r

方程式 4：另一種h_c_{( X}_),_i_,_t定義法

在方程式 4 裡，只有與距離勝利點距離在範圍 R 內的鄰近區域點，才會被調整值。

4. 指定群聚：

在學習過程完成後，每個輸出點的模型向量，就是分群的依據。方法如下：計算每個輸入向量與所有輸出點模型向量的距離，把該輸入向量指派給距離最近的輸出點。將所有代表文件的輸入向量指派完後，即可得到一個依照文件相似度分群的 2D 地圖。

5. 標記 (Label) 群聚區域：

由於輸出點的模型向量是分群的依據，因此可做為群聚標記時的參考。

而 Roussinov (2001)提到一種適合文件分群工作的群聚標記法如下：從每個輸出點的模型向量中，選出一個值最大的座標軸相對應的關鍵字，來代表該點。若相鄰的輸出點擁有一樣的關鍵字，則合併為同一個群聚。

在文檔中目標導向之SOM應用於文件分群 (頁 15-18)

第二章 文件分群相關研究工作

第一節 Self-Organizing Map (SOM)

∑

第二章文件分群相關研究工作