• 沒有找到結果。

Self-Organizing Map (SOM)

第二章 文件分群相關研究工作

第一節 Self-Organizing Map (SOM)

SOM 是種非監督式學習 (Unsupervised Learning) 的類神經網路模型,由 Kohonen 於 1984 提出。與監督式學習 (Supervised Learning) 的類神經網路模型 不同的是,SOM 不需額外的訓練資料。SOM 將多維空間的資料對應到二維的 平面上,並且在二維的平面上維持多維空間中空間距離的關係。亦即,在多維 空間上相近的資料,在二維空間上會被群聚在相近的點上,進而達成分群的目 的。圖 2 是其網路拓樸 (Network Topology) 示意圖。SOM 應用在文件分群上 主要分成幾個步驟:

K 個輸出點 (Output Node)

Kohonen’s Layer

N 個輸入點 (Input Node) 圖 2:SOM 的 Network Topology[Roussinov01]

1. 初始化輸入點 (Input Node):

套用向量空間模型 (Vector Space Model) 將每筆文件量化,使其成為一 個座落在關鍵字空間中的向量。而每個向量,就代表一個輸入點,稱為 輸入向量 (Input Vector)。

2. 建立及初始化輸出點 (Output Node):

通常輸出點是以一個矩形平面排列,所以,需設定矩形長寬以決定輸出 點總個數。而每個輸出點都有一個模型向量 (Model Vector),此向量的 維度需與輸入向量的維度相同,此向量可視為輸入向量所在空間中的一 點,其起始值可用亂數決定。

3. 進行學習 (Learning) 過程:

以下所描述的,為一次完整循環 (Iteration) 的過程,要反覆進行數次,

直到整個 SOM 收斂,或者超過某一循環次數門檻限制才停止。

一個循環要依序用所有輸入向量對所有輸出點模型向量做調整,調整過 程如下:

A. 選擇勝利點 (Winner Node):計算輸入向量 跟所有輸出點模型 向量的距離,模型向量與輸入向量 最近的輸出點為勝利點。最 常被使用的距離計算公式如方程式 1。其中, m 代表在第 t 次調整模型向量時,某一輸出點 i 的模型向量。

X X

)

i(t

( ( )- ( ( )))2

)) ( , (

j

i j

i t Dim j Dim t

Similarity X m = X m

方程式 1:以 Euclidean Distance 為相似度定義

B. 調整模型向量:根據 0 方程式 2 來調整模型向量的值:

)) ( -( )

( )

1

(t i t hc( ),i,t i t

i m X m

m + = + X ×

0 方程式 2:Model Vector Update

0 方程式 2 中,h 控制了分群過程中模型向量學習速度的快 慢及影響鄰近區域點 (Neighborhood Node) 的能力。 一般 的定義如方程式 3 所示,為第 個輸出點在第 t 次調整模型向量 時,將輸入向量 的勝利點 帶入後,所得的函數值。其中 r 、

分別為勝利點及第i個輸出點在矩形平面的座標向量。

t i c( X),,

X

t i

hc( X),,

i )

c(x c

ri





 −

= ( ) exp 2 2 ( )

2 ,

),

( t t

hc i t c i

α rσ r

X

方程式 3:hc( X),i,t

在方程式 3 中,α(t)介在 0~1 之間,是個單調遞減 (Monotonically Decreasing) 的函數,它影響了學習速度的快慢。σ(t)亦為一單調 遞減的函數,它牽涉到勝利點影響鄰近區域點的能力。經此調整 後,所有的模型向量,都會有不同程度向輸入向量 移動的趨

勢。但在不同的應用中, 有較為簡易的定義法,例如方程

式 4:

X

t i

hc( X),,



 − <

= otherwise

R if

t

h c i t α c i

, 0

), (

, ), (

r r

X

方程式 4:另一種hc( X),i,t定義法

在方程式 4 裡,只有與距離勝利點距離在範圍 R 內的鄰近區域 點,才會被調整值。

4. 指定群聚:

在學習過程完成後,每個輸出點的模型向量,就是分群的依據。方法如 下:計算每個輸入向量與所有輸出點模型向量的距離,把該輸入向量指 派給距離最近的輸出點。將所有代表文件的輸入向量指派完後,即可得 到一個依照文件相似度分群的 2D 地圖。

5. 標記 (Label) 群聚區域:

由於輸出點的模型向量是分群的依據,因此可做為群聚標記時的參考。

而 Roussinov (2001)提到一種適合文件分群工作的群聚標記法如下:從每 個輸出點的模型向量中,選出一個值最大的座標軸相對應的關鍵字,來 代表該點。若相鄰的輸出點擁有一樣的關鍵字,則合併為同一個群聚。

相關文件