• 沒有找到結果。

目標導向之 SOM (Goal-Oriented SOM, GOSOM)

第三章 目標導向文件分群模型及系統實作

第一節 目標導向之 SOM (Goal-Oriented SOM, GOSOM)

由第二章的介紹中可知,傳統 SOM 主要是藉由輸入點一次次對輸出點的 模型向量做調整,使得輸出點逐漸形成相似的群聚,最後才將每個輸入點,依 其跟所有輸出點模型向量的相似度大小,來指定其分群結果,因此,輸出點的 模型向量,具有代表分配到該輸出點內所有輸入點特徵的功能。由此可知:

若要達成「依使用者興趣為目標,引導分群過程」的目的,可從「依 使用者興趣來定義相似度」著手。因為在 SOM 中,輸出點群聚形成 的過程,正是依據相似度大小來決定的。相似度越大,越容易形成群

聚。所以,若採用具某特性的相似度函式,則分群過程就會被此特性 影響。

分群的解釋方法,必須要跟模型向量的內容有相當程度關係,因為這 代表了 SOM 的分群結果。

GOSOM 就是基於這兩個基本精神,融入目標導向分群的概念,所提出的 模型。圖 5 是 GOSOM 模型示意圖,其流程如下:

(2) Specified goals

(3)

(2)

Term Weighting

Term Weighting

Term Weighting

Term Relationship

Matrix

Relevance Feedback LSA

Clustering Labeling

SOM with modified Similarity Function

(4) Result (5) Pick up Positive Answer

GOSOM (6) Enhanced Weighting

(1)

(1)

Model VectorMatrix

User Document Vectors

圖 5:GOSOM 模型示意圖

1. 將文件經處理過所形成的文件向量,輸入到 LSA 及搭配改良相似度定 義的 SOM 中。

2. 運用 LSA,可產生詞-詞的關係矩陣,再以使用者輸入的分群目標配合 此矩陣,可將使用者分群目標代表的概念擴展到其他詞,可對所有詞 產生適當的權重。

3. 將傳統 SOM 配合改良過的相似度定義,及步驟 2 所得的詞權重,可產 生代表初步分群結果的模型向量矩陣。

4. 以步驟 2 所得的詞權重,配合本論文提出的群聚標記法,可為步驟 3 的模型向量矩陣作適當標記,產生分群結果,呈現給使用者。

5. 使用者可針對分群結果,勾選分群正確的文件,做使用者相關回饋。

6. 系統根據使用者的意見,對步驟 2 所得的詞權重作調整,再次進行分 群。

在接下來的小節內,會分別介紹 GOSOM 的四個元件:LSA、改良的相似度定 義、群聚標記、以及使用者相關回饋。

3.1.1 LSA

我們實作了一個能執行 LSA 方法的元件。在 LSA 中最主要的矩陣運算技 術,就是 SVD 分解。我們採用http://math.nist.gov/javanumerics/jama/[NIST]上 的 Jama-1.0.1 套件來實作,而其他的矩陣運算應用,也是基於此套件延伸發展 而來。

3.1.2 改良的相似度定義

在傳統應用 SOM 於文件分群的系統裡,大部分是採用向量模型空間,所 有文件都以詞為特徵,將文件化為實數的特徵向量來描述。而本研究欲達成之 目的,是要依「使用者目標」分群;也就是說,分群過程中,相似與否要從「使 用者目標」的觀點來決定。在此,「使用者目標」不是一個詞,而是一個概念 (比 如說:「使用者目標」可能為「捷運偷拍」這種模糊的概念)。因此,為了將「概 念」這種特色引入,我們使用 LSA 方法,深層分析文件中詞與詞的關係,可得 一詞–詞關係矩陣,藉此找出與「使用者目標」較相關的詞。如此,我們便可 用「依與使用者目標相關的詞分群」這種方法,在向量空間模型中達成「依使

用者目標分群」的目的。參考之前的文獻,SOM 最常將相似度定義成 Euclidean Distance (方程式 5)[Kohonen98]。

( ( )- ( ( )))2

方程式 5:以 Euclidean Distance 作為相似度定義

而這樣的相似度定義,無法強調特定目標,如:使用者的興趣或喜好。我 之間[Deerwester90]。 是一個映射方程式,將 的值域對映到 0~1,定義為

usergoal =

,

3.1.3 群聚標記 (Cluster Labeling)

在 SOM 分群過程結束後,每個輸出點會有一個模型向量,其維度與輸入點同。

而輸出點的模型向量,代表分配到該輸出點內,所有輸入點的特徵 (Feature)。

所以,若要對一個輸出點做標記,以代表分配到此輸出點的輸入點(也就是文 件),一定要參考模型向量。而將這些輸出點分群結果作適當標記 (Labeling),

有助於讓使用者瞭解該群聚文件的特性。

3.1.3.1 權重的多數決 (Weightd Majority Voting)

根據 Roussinov (2001) 所提出的適應式搜尋 (Adaptive Search) 系統中,是根據 每個輸出點的模型向量,選出其中值最高的座標軸,將其對應的字詞,當作該 輸出點代表的群聚之標記。本論文提出一融合多數決 (Majority Voting) 精神 [Mavroudi02]與權重概念的群聚標記方法,稱「權重的多數決」。方法敘述如下:

1. 首先,定義與第 i 個詞的最相關的使用者目標為:

) l (i,usergoa )

TermGoal(i R

j

usergoalmaxj

=arg

R是透過 LSA 方法得到的詞–詞關係矩陣。

2. 延續 3.1.2.中改良相似度定義時的計算公式,設第 i 個詞的權重為:

)) ,

( max

( j

i F j i usergoal

W = R

3. 接著,定義第 j 個使用者目標,在輸出點(p, q)上,對於第 i 個詞的分數:





 ≠

= i else

usergoal TermGoal

usergoal if i

Score

q p

j i

j ( ),

, ) 0 ,

(

m ,

)

,q(i

mp 表示在輸出點(p, q)的模型向量m中,第 i 個詞對應的座標軸值。

4. 有了 後,我們便可定義第 j 個使用者目標在輸出點

中的總分為:

) ,

(i usergoalj Score

) , (p q

=

×

i

i j j Score i usergoal W usergoal

SumofGoal( ) ( , )

5. 最後,依據各個使用者的目標總分來決定輸出點(p, q)的標記:

, arg max ( j)

usergoal q

p

SumofGoal usergoal

Label

j

=

舉例來說,套用「權重的多數決」決定輸出點(1,1)的步驟如下:

若輸出點的規模為 3×3,輸入向量維度及輸出點的模型向量維度皆為 7。使用者的目標有三個,分別為 Term 2、4、7。R是透過 LSA 方法

得到的詞–詞關係矩陣如圖 6、

usergoalj

R j

計算第 i 個詞的權重:

usergoalj =

=

) 1 ,

結果,輸出點(1 的標記為第三個使用者分群目標。

3.1.3.2 其他類 (Unrelated)

在前面我們提到用「權重的多數決」方式來決定一個群聚的標記。此方法 是考慮到「相對多數」的概念。但在真實應用中,還要考慮到「絕對多數」的 問題。例如:欲分群的文件,是從搜尋引擎中得到,其中可能有些不屬於使用 者指定的任一目標。若使用前述的「權重的多數決」,將會錯將這些文件,歸到 其中某目標裡。為了解決這個問題,我們採用一個「總分門檻」方法,敘述如 下:

從 LSA 方法獲得的詞–詞關係矩陣為 ,R 表示第 i 個詞與跟第 j 個詞的相關程度。

R ( ji, ) )

F 是一個映射方程式,定義為:

2 ) 1

( +

=ε ε

F

1.

將所有分群目標與所有詞的關係程度取平均值

ε

=

∑ ∑

i j

j i i

j 1 (, )

1 R

ij 分別為所有詞的個數,及使用者分群目標個數。

2.

設一總分門檻α (α=

2 1,

3

1, ..等等)。在「權重的多數決」的步驟 3 中,

若沒有任一分群目標總分 × ×

i q

p i

F(ε) m , ()

α ,則將此輸出點標記

為「其他」類,而非統計總分最高的分群目標。m 表示在輸出點 的模型向量 中,第 i 個詞對應的座標軸值。

)

,q(i

p

) ,

(p q m

3.

舉例說明:

延續前一個例子,R如圖 6、M如圖 7。決定輸出點(1,3)的步驟如下:

三個使用者目標的累計總分 依 序 分 別 為 :

3.8675、4.12、5.88。

) (usergoalj SumofGoal

設總分門檻值為α=0.5。經由上述「總分門檻」方法計算得ε=-0.057,

檢查發現:

3.8675 < 4.12 < 5.88 < 0.5×F(−0.057)×( 1.1 + 2.1 + 2.2 + 3.5 + 7.1 + 6.2 + 5.0 ) = 0.5×0.4715×27.2 = 6.4124

則表示此輸出點與三個分群目標都不太相關,應標記成「其他」類比 較適合。

3.1.4 使用者相關回饋 (User Relevance Feedback)

本論文在 3.1.2 提出的改良相似度定義,是以詞權重為基礎。因此,若能 正確地找出接近使用者觀點的詞權重值,有助於改善分群結果。在一般檢索系 統 (Retrieval System) 的使用者相關回饋策略裡,認為使用者勾選的正面答案 中,其向量的主要特徵較為重要,因此,會在計算時將這些特徵加強。所以,

基於此一精神,我們提出了依照使用者勾選的正面答案調整詞權重的使用者相 關回饋法。其演算法敘述如下:

定義:n 為使用者勾選系統分群正確文件的篇數、 為使用者相關回饋的次數、f t 為輸入向量的維度、d 為代表使用者勾選系統分群正確的第 i 篇文件的文件向

量、 為使用者勾選第 i 篇文件的系統標記、Rterm 跟 在詞–詞關係矩陣中的值、

i

) (di

k

Label (termj,termk) j

term β 為使用者相關回饋的衰退率、γ 為詞調整的

擴充程度,0≤β,γ ≤1。

步驟:

1. 計算每個詞在 d 中的重要性如方程式 8: i

a a

i a

i

term term W

importance

(

d

, ) =

d

( )×

方程式 8:每個詞在文件向量di中的重要性

di(terma)表term 在 d 中的值、W 定義如方程式 7。 a i a

2. 將所有詞根據方程式 8 算出重要性,依序由高到低排列, 取γ ×t 個 詞。

3. 對每個在步驟 2 中被挑中的termj,計算出此詞與所有詞平均關係值如 term term

Avg k Label

term , ( )) [ ( 1)] (1 )

Term6、Term1、Term4、Term7、Term2。則應取前 3 個詞:Term3、

Term5、Term6 進行測試調整。

以 Term3 為例:先計算門檻 0.157

term term

Avg R 再對所有詞進行測試,只有 Term1、Term3 通過,因此對二者與使用

者目標 Term2 的關係值進行如下調整:

第二節 目標導向文件分群系統 (Goal-Oriented Document

相關文件