• 沒有找到結果。

GA-FCM 模組

在文檔中 中 華 大 學 (頁 41-46)

我 們 結 合 基 因 演 算 法 (Genet ic Algor it hm) 與 模 糊 分 群 演 算 法 (Fuz z y C- mea ns a lgo r it hm) 建 構 G A- FC M 模 型 , 將 第 一 階 段 未 分 到 既 有 類 別 的 文 件 進 行 分 群,並 期 望 能 完 整 找 出 非 既 有 類 別 文 件 的 群 聚 架 構 , 以 下 將 分 別 針 對 GA- FCM 演 算 法 之 執 行 細 節 做 介 紹 。

(一 )特 徵 詞 擷 取

我 們 將 未 分 類 到 既 有 類 別 之 文 件 重 新 建 立 基 底 向 量,若 出 現 的 次 數 大 於 2 次 以 上 , 則 被 列 為 特 徵 詞 ,反 之 則 將 該 特 徵 詞 刪 除 ,並 重 新 計 算 文 件 之 T FIDF, 以 此 建 構 文 件 的 向 量 。

(二 )模 糊 分 群 與 參 數 設 定

由 於 本 研 究 之 目 標 是 期 望 在 分 群 過 程 中,能 夠 將 無 法 分 類 至 既 有 類 別 文 件 的 群 聚 架 構 完 整 呈 現,但 模 糊 分 群 演 算 法 本 身 無 法 自 動 找 出 最 佳 分 群 數 , 所 以 在 進 行 模 糊 分 群 之 前 必 須 設 定 欲 執 行 之 最 大 群 數

在 設 定 完 畢 後,便 可 依 照 染 色 體 解 碼 後 所 產 生 的 模 糊 程 度 值u 對cn 文 件 進 行 模 糊 分 群 , 其 中 為 N文 件 數 ,C為 群 聚 數 目 ,u 代 表 第cn n 篇 文 件 屬 於 第 c 群 的 程 度 。 並 於 模 糊 分 群 處 理 完 畢 後 評 估 該 次 分 群 的 成 效 , 並 進 行 適 應 函 數 的 計 算 , FCM 之 處 理 演 算 法 如 下 所 示 :

1) Set the initial fuzzy pseudopartition at t0 satisfying

1

1

C ( t ) cn c

, n1 2, ,...,N,

1

0

N ( t ) cn n

N

, c1 2, ,...,C

2) In these two equations, cn( t ) denotes the membership grade of node P belonging to cluster c at time t. n

3) Set the initial performance index at t 0 as Jm(t) 0.

4) Calculate the C cluster centers v1( t ),...,v( t )C for the partition by

1

1 N

( t ) m

cn n

( t ) n

c N

( t ) m cn n

( ) P

( )

v , c1,...,C,.

5) Update the partition for each node P , n

1 1

2 1

1

2 1

( t ) m

C n k

( t )

kn c ( t )

n c

P P

 

 

  

 

  

 

    

 

 

v

v

.

6) Compute the performance index

N C 2

(三 )GA-FCM 適 應 函 數 設 計

然 而 FCM 演 算 法 的 成 效 雖 可 藉 由 尋 找 中 心 點 來 避 免 局 部 最 佳 解 來 提 升 , 但 是 需 在 分 群 前 定 義 所 需 分 群 數 , 無 法 自 動 產 生 最 佳 群 數 , 故 本 研 究 利 用 Xie & Beni(1991) 提 出 的 緊 密 度 分 離 度 函 數 S(Co mpact ne ss a nd Separ at io n Va lid it y Funct io na l) 來 找 出 最 佳 群 數 。 假 設 屬 於 某 群 聚 之 文 件 和 該 群 聚 之 中 心 點 的 距 離 愈 大,則 代 表 該 群 聚 中 心 和 文 件 的 分 散 程 度 越 高;若 各 個 群 聚 和 彼 此 中 心 點 之 距 離 如 果 愈 大,則 代 表 群 和 群 之 間 分 離 度 愈 高,所 以 若 是 文 件 和 該 群 聚 中 心 距 離 愈 短 , 群 聚 和 群 聚 中 心 的 距 離 愈 大 , 則 S 值 會 愈 小 代 表 分 群 結 果 愈 好 , 其 定 義 如 下 :

' '

|| ||

min || ||

C N

2 2

cn c n

c 1 n 1

2

c c

c c

u V X

S n V V

 



其中,

C

: 代表群聚數目

N: 代表文件數目

ucn: 代表文件n屬於群聚 c 的程度

Vc: 代表第 c 群的中心點

'

Vc: 代表第c'群的中心點,cc' Xn: 代表第 n 個文件

雖 然 利 用 緊 密 度 分 離 度 函 數 S(Co mpact ness and Separat io n Va lid it y Fu nct io na l) 可 以 有 效 的 找 出 最 佳 群 數 , 但 是 該 指 標 只 考 慮 到 中 心 點 和 資 料 的 點 距 離,若 是 在 類 別 間 含 有 離 群 值 的 情 況 下 容 易 產 生 較 大 的 偏 差 進 而 影 響 到 最 佳 群 數 判 斷,故 在 適 應 函 數 設 計 方 面 我 們 結 合 了 Dis jo int 函 數 ( Lin & Hsueh, 2006) 和 緊 密 度 分 離 度 函 數 S(Co mpact ne ss a nd Separ at io n Va lid it y Fun ct io na l) 做 為 評 估 該 次 分 群 結 果 的 標 準 。

D is jo int 考 量 了 群 內 點 和 點 之 間 相 似 度 的 特 色 , 可 降 低 離 群 值 造 成 的 影 響, 如 果 文 件 在 一 個 群 聚 內 和 同 屬 於 該 群 聚 的 文 件 非 常 相 似 ,

值 將 會 相 對 的 變 小,因 此 利 用 Dis jo int 測 試 可 以 瞭 解 該 次 分 群 的 結 果 中,是 否 各 個 群 聚 的 文 件 彼 此 之 間 都 含 有 很 高 的 相 似 度,其 公 式 如 下 :

' '

( , ) ( ) /

N n 1

n n

n 1 n 1 A

d o o Disjoint

N N 1 2

 



其中,

n : 代表在A群聚內的文件 n': 代表在A群聚內的文件

N: 代表A群聚內所有的文件

( ,n n')

d o o : 代表文件 n 和文件n'間的距離(不相似度)

由 於 本 研 究 同 時 考 量 Dis jo int 函 數 與 緊 密 度 分 離 度 函 數 S(Co mpact ne ss a nd Separ at io n Va lid it y Fun ct io na l) , 而 本 研 究 之 適 應 函 值 為 愈 高 愈 好 , 故 適 應 函 數 的 公 式 如 下 :

min max

max min_ max max

1 1

ij j ij ij

ij

j j ij ij

AvgDisjoint AvgDisjoint S S

fitness

AvgDisjoint AvgDisjoint S S

   

   

   

- _ - _

_ - _ - _

C

c c 1

ij

Disjoint

AvgDisjoint σ

C

其中,

i: 染色體編號

j: 基因之世代

C: 群聚數目

σAvgDisjointij之標準差

min_AvgDisjointj: 在j代最小的AvgDisjoint

max_AvgDisjointj: 在j代最大的AvgDisjoint

min_Sj: 在j代最小的S值

max_Sj: 在j代最大的S值

FC M 容 易 受 初 始 中 心 影 響 , 進 而 使 得 分 群 結 果 收 斂 在 局 部 最 佳 解 , 導 致 收 斂 結 果 不 一 , 因 此 在 第 二 階 段 中 , 本 研 究 期 望 藉 由 基 因 演 算 法 來 找 出 最 佳 分 群 中 心 點 , 以 避 免 FCM 陷 入 局 部 最 佳 解,並 找 出 不 屬 於 既 有 類 別 的 文 件 架 構,由 於 考 慮 到 文 件 的 向 量 過 於 龐 大, 若 採 用 二 元 編 碼 對 候 選 解 進 行 編 碼,所 形 成 的 組 合 會 過 於 複 雜 使 得 演 算 法 較 不 容 易 找 到 最 佳 解,為 了 避 免 編 碼 的 複 雜 性 和 提 高 解 碼 和 執 行 的 效 率,因 此 本 研 究 在 此 階 段 使 用 實 數 編 碼 的 方 式 來 提 升 收 斂 效 率 , 編 碼 設 計 如 圖 14 所 示 , n 代 表 無 法 分 類 到 既 有 類 別 的 文 件 數 , m 代 表 總 群 數 ,

i n

gu

代 表 第 n 篇 文 件 屬 於 第 i 群 之 程 度 。

i ~ i

1 n

u u

g g ~

i 1 i 1

1 n

u u

g g

~

m m

1 n

u u

g g

圖 14、GA-FCM 之染色體設計

2. 選擇與複製:與第一階段基因演算法之設定相同。

3. 交配:由於在第二階段中,基因演算法是以實數編碼。故本研究在此階 段採用 BLX’α (Eshelman, 1989)和雙點交配方法進行交配,其交配率設定 為 1。

4. 突變:因為第二階段之基因長度過於龐大。故本研究將突變率設定為 0.001,所以就平均而言,若無法分類至既有類別的文件有 300 篇,並期 望分出 2 個群聚時,此時每個染色體將有 0.6(0.001*600)個基因進行突 變,每一代會有 12(0.6*20)個基因進行突變。

5. 終止條件:與第一階段基因演算法之設定相同。

6. 群 聚 執 行 迴 圈:因 本 研 究 必 須 藉 由 設 定 欲 執 行 之 群 聚 數 目 來 找 出 文 件 分 群 的 最 佳 群 聚 數,所 以 若 基 因 演 算 法 已 到 達 終 止 條 件 時,則 會 進 行 判 斷 目 前 所 執 行 的 群 數 是 否 已 經 達 到 最 大, 若 是

程 。

在文檔中 中 華 大 學 (頁 41-46)

相關文件