第二章 文件分群相關研究工作
第一節 Self-Organizing Map (SOM)
SOM 是種非監督式學習 (Unsupervised Learning) 的類神經網路模型,由 Kohonen 於 1984 提出。與監督式學習 (Supervised Learning) 的類神經網路模型 不同的是,SOM 不需額外的訓練資料。SOM 將多維空間的資料對應到二維的 平面上,並且在二維的平面上維持多維空間中空間距離的關係。亦即,在多維 空間上相近的資料,在二維空間上會被群聚在相近的點上,進而達成分群的目 的。圖 2 是其網路拓樸 (Network Topology) 示意圖。SOM 應用在文件分群上 主要分成幾個步驟:
K 個輸出點 (Output Node)
Kohonen’s Layer
N 個輸入點 (Input Node) 圖 2:SOM 的 Network Topology[Roussinov01]
1. 初始化輸入點 (Input Node):
套用向量空間模型 (Vector Space Model) 將每筆文件量化,使其成為一 個座落在關鍵字空間中的向量。而每個向量,就代表一個輸入點,稱為 輸入向量 (Input Vector)。
2. 建立及初始化輸出點 (Output Node):
通常輸出點是以一個矩形平面排列,所以,需設定矩形長寬以決定輸出 點總個數。而每個輸出點都有一個模型向量 (Model Vector),此向量的 維度需與輸入向量的維度相同,此向量可視為輸入向量所在空間中的一 點,其起始值可用亂數決定。
3. 進行學習 (Learning) 過程:
以下所描述的,為一次完整循環 (Iteration) 的過程,要反覆進行數次,
直到整個 SOM 收斂,或者超過某一循環次數門檻限制才停止。
一個循環要依序用所有輸入向量對所有輸出點模型向量做調整,調整過 程如下:
A. 選擇勝利點 (Winner Node):計算輸入向量 跟所有輸出點模型 向量的距離,模型向量與輸入向量 最近的輸出點為勝利點。最 常被使用的距離計算公式如方程式 1。其中, m 代表在第 t 次調整模型向量時,某一輸出點 i 的模型向量。
X X
)
i(t
∑
( ( )- ( ( )))2)) ( , (
j
i j
i t Dim j Dim t
Similarity X m = X m
方程式 1:以 Euclidean Distance 為相似度定義
B. 調整模型向量:根據 0 方程式 2 來調整模型向量的值:
)) ( -( )
( )
1
(t i t hc( ),i,t i t
i m X m
m + = + X ×
0 方程式 2:Model Vector Update
0 方程式 2 中,h 控制了分群過程中模型向量學習速度的快 慢及影響鄰近區域點 (Neighborhood Node) 的能力。 一般 的定義如方程式 3 所示,為第 個輸出點在第 t 次調整模型向量 時,將輸入向量 的勝利點 帶入後,所得的函數值。其中 r 、
分別為勝利點及第i個輸出點在矩形平面的座標向量。
t i c( X),,
X
t i
hc( X),,
i )
c(x c
ri
−
−
= ( ) exp 2 2 ( )
2 ,
),
( t t
hc i t c i
α rσ r
X
方程式 3:hc( X),i,t
在方程式 3 中,α(t)介在 0~1 之間,是個單調遞減 (Monotonically Decreasing) 的函數,它影響了學習速度的快慢。σ(t)亦為一單調 遞減的函數,它牽涉到勝利點影響鄰近區域點的能力。經此調整 後,所有的模型向量,都會有不同程度向輸入向量 移動的趨
勢。但在不同的應用中, 有較為簡易的定義法,例如方程
式 4:
X
t i
hc( X),,
− <
= otherwise
R if
t
h c i t α c i
, 0
), (
, ), (
r r
X
方程式 4:另一種hc( X),i,t定義法
在方程式 4 裡,只有與距離勝利點距離在範圍 R 內的鄰近區域 點,才會被調整值。
4. 指定群聚:
在學習過程完成後,每個輸出點的模型向量,就是分群的依據。方法如 下:計算每個輸入向量與所有輸出點模型向量的距離,把該輸入向量指 派給距離最近的輸出點。將所有代表文件的輸入向量指派完後,即可得 到一個依照文件相似度分群的 2D 地圖。
5. 標記 (Label) 群聚區域:
由於輸出點的模型向量是分群的依據,因此可做為群聚標記時的參考。
而 Roussinov (2001)提到一種適合文件分群工作的群聚標記法如下:從每 個輸出點的模型向量中,選出一個值最大的座標軸相對應的關鍵字,來 代表該點。若相鄰的輸出點擁有一樣的關鍵字,則合併為同一個群聚。