我 們 結 合 基 因 演 算 法 (Genet ic Algor it hm) 與 模 糊 分 群 演 算 法 (Fuz z y C- mea ns a lgo r it hm) 建 構 G A- FC M 模 型 , 將 第 一 階 段 未 分 到 既 有 類 別 的 文 件 進 行 分 群,並 期 望 能 完 整 找 出 非 既 有 類 別 文 件 的 群 聚 架 構 , 以 下 將 分 別 針 對 GA- FCM 演 算 法 之 執 行 細 節 做 介 紹 。
(一 )特 徵 詞 擷 取
我 們 將 未 分 類 到 既 有 類 別 之 文 件 重 新 建 立 基 底 向 量,若 出 現 的 次 數 大 於 2 次 以 上 , 則 被 列 為 特 徵 詞 ,反 之 則 將 該 特 徵 詞 刪 除 ,並 重 新 計 算 文 件 之 T FIDF, 以 此 建 構 文 件 的 向 量 。
(二 )模 糊 分 群 與 參 數 設 定
由 於 本 研 究 之 目 標 是 期 望 在 分 群 過 程 中,能 夠 將 無 法 分 類 至 既 有 類 別 文 件 的 群 聚 架 構 完 整 呈 現,但 模 糊 分 群 演 算 法 本 身 無 法 自 動 找 出 最 佳 分 群 數 , 所 以 在 進 行 模 糊 分 群 之 前 必 須 設 定 欲 執 行 之 最 大 群 數
在 設 定 完 畢 後,便 可 依 照 染 色 體 解 碼 後 所 產 生 的 模 糊 程 度 值u 對cn 文 件 進 行 模 糊 分 群 , 其 中 為 N文 件 數 ,C為 群 聚 數 目 ,u 代 表 第cn n 篇 文 件 屬 於 第 c 群 的 程 度 。 並 於 模 糊 分 群 處 理 完 畢 後 評 估 該 次 分 群 的 成 效 , 並 進 行 適 應 函 數 的 計 算 , FCM 之 處 理 演 算 法 如 下 所 示 :
1) Set the initial fuzzy pseudopartition at t0 satisfying
1
1
C ( t ) cn c
, n1 2, ,...,N,1
0
N ( t ) cn n
N
, c1 2, ,...,C2) In these two equations, cn( t ) denotes the membership grade of node P belonging to cluster c at time t. n
3) Set the initial performance index at t 0 as Jm(t) 0.
4) Calculate the C cluster centers v1( t ),...,v( t )C for the partition by
1
1 N
( t ) m
cn n
( t ) n
c N
( t ) m cn n
( ) P
( )
v , c1,...,C,.
5) Update the partition for each node P , n
1 1
2 1
1
2 1
( t ) m
C n k
( t )
kn c ( t )
n c
P P
v
v
.
6) Compute the performance index
N C 2
(三 )GA-FCM 適 應 函 數 設 計
然 而 FCM 演 算 法 的 成 效 雖 可 藉 由 尋 找 中 心 點 來 避 免 局 部 最 佳 解 來 提 升 , 但 是 需 在 分 群 前 定 義 所 需 分 群 數 , 無 法 自 動 產 生 最 佳 群 數 , 故 本 研 究 利 用 Xie & Beni(1991) 提 出 的 緊 密 度 分 離 度 函 數 S(Co mpact ne ss a nd Separ at io n Va lid it y Funct io na l) 來 找 出 最 佳 群 數 。 假 設 屬 於 某 群 聚 之 文 件 和 該 群 聚 之 中 心 點 的 距 離 愈 大,則 代 表 該 群 聚 中 心 和 文 件 的 分 散 程 度 越 高;若 各 個 群 聚 和 彼 此 中 心 點 之 距 離 如 果 愈 大,則 代 表 群 和 群 之 間 分 離 度 愈 高,所 以 若 是 文 件 和 該 群 聚 中 心 距 離 愈 短 , 群 聚 和 群 聚 中 心 的 距 離 愈 大 , 則 S 值 會 愈 小 代 表 分 群 結 果 愈 好 , 其 定 義 如 下 :
' '
|| ||
min || ||
C N
2 2
cn c n
c 1 n 1
2
c c
c c
u V X
S n V V
其中,
C
: 代表群聚數目N: 代表文件數目
ucn: 代表文件n屬於群聚 c 的程度
Vc: 代表第 c 群的中心點
'
Vc: 代表第c'群的中心點,cc' Xn: 代表第 n 個文件
雖 然 利 用 緊 密 度 分 離 度 函 數 S(Co mpact ness and Separat io n Va lid it y Fu nct io na l) 可 以 有 效 的 找 出 最 佳 群 數 , 但 是 該 指 標 只 考 慮 到 中 心 點 和 資 料 的 點 距 離,若 是 在 類 別 間 含 有 離 群 值 的 情 況 下 容 易 產 生 較 大 的 偏 差 進 而 影 響 到 最 佳 群 數 判 斷,故 在 適 應 函 數 設 計 方 面 我 們 結 合 了 Dis jo int 函 數 ( Lin & Hsueh, 2006) 和 緊 密 度 分 離 度 函 數 S(Co mpact ne ss a nd Separ at io n Va lid it y Fun ct io na l) 做 為 評 估 該 次 分 群 結 果 的 標 準 。
D is jo int 考 量 了 群 內 點 和 點 之 間 相 似 度 的 特 色 , 可 降 低 離 群 值 造 成 的 影 響, 如 果 文 件 在 一 個 群 聚 內 和 同 屬 於 該 群 聚 的 文 件 非 常 相 似 ,
值 將 會 相 對 的 變 小,因 此 利 用 Dis jo int 測 試 可 以 瞭 解 該 次 分 群 的 結 果 中,是 否 各 個 群 聚 的 文 件 彼 此 之 間 都 含 有 很 高 的 相 似 度,其 公 式 如 下 :
' '
( , ) ( ) /
N n 1
n n
n 1 n 1 A
d o o Disjoint
N N 1 2
其中,
n : 代表在A群聚內的文件 n': 代表在A群聚內的文件
N: 代表A群聚內所有的文件
( ,n n')
d o o : 代表文件 n 和文件n'間的距離(不相似度)
由 於 本 研 究 同 時 考 量 Dis jo int 函 數 與 緊 密 度 分 離 度 函 數 S(Co mpact ne ss a nd Separ at io n Va lid it y Fun ct io na l) , 而 本 研 究 之 適 應 函 值 為 愈 高 愈 好 , 故 適 應 函 數 的 公 式 如 下 :
min max
max min_ max max
1 1
ij j ij ij
ij
j j ij ij
AvgDisjoint AvgDisjoint S S
fitness
AvgDisjoint AvgDisjoint S S
- _ - _
_ - _ - _
C
c c 1
ij
Disjoint
AvgDisjoint σ
C
其中,
i: 染色體編號
j: 基因之世代
C: 群聚數目
σ: AvgDisjointij之標準差
min_AvgDisjointj: 在j代最小的AvgDisjoint值
max_AvgDisjointj: 在j代最大的AvgDisjoint值
min_Sj: 在j代最小的S值
max_Sj: 在j代最大的S值
FC M 容 易 受 初 始 中 心 影 響 , 進 而 使 得 分 群 結 果 收 斂 在 局 部 最 佳 解 , 導 致 收 斂 結 果 不 一 , 因 此 在 第 二 階 段 中 , 本 研 究 期 望 藉 由 基 因 演 算 法 來 找 出 最 佳 分 群 中 心 點 , 以 避 免 FCM 陷 入 局 部 最 佳 解,並 找 出 不 屬 於 既 有 類 別 的 文 件 架 構,由 於 考 慮 到 文 件 的 向 量 過 於 龐 大, 若 採 用 二 元 編 碼 對 候 選 解 進 行 編 碼,所 形 成 的 組 合 會 過 於 複 雜 使 得 演 算 法 較 不 容 易 找 到 最 佳 解,為 了 避 免 編 碼 的 複 雜 性 和 提 高 解 碼 和 執 行 的 效 率,因 此 本 研 究 在 此 階 段 使 用 實 數 編 碼 的 方 式 來 提 升 收 斂 效 率 , 編 碼 設 計 如 圖 14 所 示 , n 代 表 無 法 分 類 到 既 有 類 別 的 文 件 數 , m 代 表 總 群 數 ,
i n
gu
代 表 第 n 篇 文 件 屬 於 第 i 群 之 程 度 。
i ~ i
1 n
u u
g g ~
i 1 i 1
1 n
u u
g g
~
m m
1 n
u u
g g
圖 14、GA-FCM 之染色體設計
2. 選擇與複製:與第一階段基因演算法之設定相同。
3. 交配:由於在第二階段中,基因演算法是以實數編碼。故本研究在此階 段採用 BLX’α (Eshelman, 1989)和雙點交配方法進行交配,其交配率設定 為 1。
4. 突變:因為第二階段之基因長度過於龐大。故本研究將突變率設定為 0.001,所以就平均而言,若無法分類至既有類別的文件有 300 篇,並期 望分出 2 個群聚時,此時每個染色體將有 0.6(0.001*600)個基因進行突 變,每一代會有 12(0.6*20)個基因進行突變。
5. 終止條件:與第一階段基因演算法之設定相同。
6. 群 聚 執 行 迴 圈:因 本 研 究 必 須 藉 由 設 定 欲 執 行 之 群 聚 數 目 來 找 出 文 件 分 群 的 最 佳 群 聚 數,所 以 若 基 因 演 算 法 已 到 達 終 止 條 件 時,則 會 進 行 判 斷 目 前 所 執 行 的 群 數 是 否 已 經 達 到 最 大, 若 是
程 。