• 沒有找到結果。

中 華 大 學

N/A
N/A
Protected

Academic year: 2022

Share "中 華 大 學"

Copied!
66
0
0

加載中.... (立即查看全文)

全文

(1)

中 華 大 學 碩 士 論 文

應用基因演算法結合 SVM 與 FCM 之漸進式分群

Incremental Clustering with GA, SVM, and FCM Methods

系 所 別:資訊管理學系碩士班 學號姓名:M09510023 戴宇宏 指導教授:邱 登 裕 博 士

中華民國 九十七 年 八 月

(2)

摘要

在 資 訊 爆 炸 的 時 代,日 益 龐 大 且 增 加 快 速 的 文 件 已 經 難 以 更 進 一 步 的 進 行 管 理 與 分 析 , 進 而 造 成 資 訊 過 載 ( infor mat ion over lo ad)的 現 象。因 此 如 何 在 龐 大 的 資 料 中 正 確 且 有 效 率 找 尋 有 用 的 資 訊 是 很 重 要 的,而 分 群 ( Clust er ing)就 是 一 項 常 用 來 找 尋 資 料 特 徵 與 關 聯 的 主 要 技 術 之 ㄧ 。

本 研 究 提 出 了 一 個 結 合 了 以 基 因 演 算 法 為 基 礎 的 支 持 向 量 機 分 類 方 法 及 模 糊 分 群 法,其 中 結 合 了 基 因 演 算 法 的 支 持 向 量 機 分 類 模 型 將 新 進 文 件 分 類 至 既 有 類 別,而 結 合 基 因 演 算 法 的 模 糊 分 群 模 組 將 針 對 無 法 分 類 至 既 有 類 別 的 文 件 進 行 分 群 。 首 先 利 用 中 研 院 的 CKIP 中 文 斷 詞 系 統 進 行 中 文 文 件 的 斷 詞 處 理, 篩 選 出 所 需 要 的 特 徵 詞。 接 著 利 用 基 因 演 算 法 (Genet ic Algor it hm)挑 選 適 合 的 特 徵 詞 組 合 來 訓 練 既 有 類 別 文 件 的 支 持 向 量 機 模 型 (Support Vect or Machine), 並 用 測 試 文 件 將 屬 於 計 有 類 別 的 文 件 與 以 分 類;接 下 來 對 於 未 分 至 既 有 類 別 的 文 件 分 群 , 利 用 基 因 演 算 法 (Genet ic Algor it hm) 進 行 分 群 群 數 最 佳 化 , 以 及 挑 選 模 糊 分 群 法 ( Fuzzy C- means) 的 最 佳 分 群 中 心 點 以 進 行 分 群 。 最 後 , 使 用 效 能 衡 量 指 標 Precis io n、 Recall 以 及 F- measure 評 估 本 研 究 的 效 率 及 分 類 準 確 率 Macro -aver age 和 Micro -average。

由 實 驗 結 果 可 以 看 出 , 使 用 GA-SVM 方 法 可 以 有 效 的 提 升 分 類 的 效 能 , 而 使 用 GA- FCM 模 組 進 行 分 群 也 可 以 顯 著 的 取 得 較 佳 群 聚 架 構 。

(3)

Abstract

With explosion of information, it is very difficult to manage documents. How to efficiently find useful information in large information is very important. Clustering algorithm is a kind of technology to find characteristics of information and relationship to help manage documents.

This study proposes a method--combination of SVM classification method and fuzzy clustering method based on genetic algorithm. SVM classification method based on genetic algorithm is used to classify incoming document to see if it belongs to the existing classes. Fuzzy clustering method based on genetic algorithm is used to cluster the unclassified documents. First, we use CKIP system to segment Chinese documents to extract keywords. Genetic algorithms is used to select the appropriate terms to train SVM model of existing classes and classify incoming document to see if it belongs to the existing classes. Then genetic algorithm is used again to select the best number of clustering and the best centroid of cluster. Finally, precision, recall and F-measure are used to measure the efficiency. Macro-average and Micro-average are used to measure accuracy.

In empirical results, the proposed method can improve classification effectiveness. Also, GA-FCM outperforms other clustering methods significantly.

Keyword: Incremental clustering methods, genetic algorithms, fuzzy clustering algorithms, SVM

(4)

誌謝

不 知 不 覺 碩 士 的 生 涯 就 快 要 結 束 了,畢 業 論 文 可 以 算 是 我 們 碩 士 生 活 的 一 大 句 點,在 這 兩 年 內 學 習 到 做 研 究 的 方 法 與 態 度 是 我 最 大 的 收 穫 , 當 論 文 愈 接 近 完 成 之 際 , 回 想 起 撰 寫 這 些 論 文 期 間 的 點 點 滴 滴 , 感 謝 很 多 人 給 了 我 幫 助 與 建 議 , 使 我 能 夠 順 利 的 完 成 這 篇 論 文 。

首 先 要 感 謝 的 當 然 是 我 的 指 導 教 授 邱 登 裕 博 士,因 為 擔 心 我 們 不 熟 悉 論 文 寫 作 的 方 式,從 碩 一 時 就 開 始 教 導 我 們 做 研 究 的 態 度, 從 論 文 的 選 題 與 到 寫 作 的 內 容 都 一 一 細 心 的 指 點 與 教 導,而 難 能 可 貴 的 是 老 師 很 尊 重 我 們 自 己 的 想 法 , 並 不 會 強 硬 的 要 求 我 們 照 他 的 意 思 去 做 , 給 了 我 們 很 大 的 自 由 思 考 的 空 間 , 當 然 , 除 了 指 導 教 授 外 , 也 要 特 別 感 謝 吳 玫 瑩 老 師 以 及 陳 聰 毅 老 師 能 夠 參 加 我 的 論 文 口 試,並 給 予 我 一 些 論 文 上 的 見 解 使 得 論 文 的 內 容 能 夠 更 加 完 整 。

此 外,也 要 感 謝 雅 真 學 姐,在 論 文 撰 寫 的 技 巧 及 研 究 上 觀 點 上 不 厭 其 煩 的 指 點 我 該 注 意 的 地 方, 永 健 學 長 在 我 迷 惘 時 為 我 解 惑, 也 感 謝 我 們 實 驗 室 所 有 的 同 袍 們,士 億、瑞 璿 和 俊 偉 恭 喜 我 們 順 利 走 過 這 兩 年 , 還 有 子 邦 、 俊 言 學 弟 你 們 的 搞 笑 讓 我 銘 記 在 心 。

家 人 在 背 後 的 默 默 支 持 更 是 我 前 進 的 動 力 , 爸 爸 、 媽 媽 以 及 姐 姐,因 為 有 你 們 的 付 出 才 讓 我 有 這 個 機 會 可 以 取 得 碩 士 學 位,沒 有 你 們 的 付 出 就 沒 有 現 在 的 我,最 後,僅 以 此 文 獻 給 所 有 幫 助 及 關 心 我 的 人 。

(5)

目錄

摘要 ... i

Abstract ... ii

誌謝 ... iii

目錄 ... iv

圖目錄 ...v

表目錄 ... vi

第壹章 緒論... 1

1.1 研究動機 ... 1

1.2 研究目的 ... 2

1.3 論文架構 ... 2

第貳章 文獻探討 ... 5

2.1 知識挖掘 ... 5

2.2 分類與分群的技術... 7

2.3 基因演算法 ...20

第参章 研究方法 ...25

3.1 文件前置處理 ...27

3.2 GA-SVM 模型 ...27

3.3 GA-FCM 模組...34

3.4 效能評估方法 ...39

第肆章 實驗...41

4.1 實驗資料來源 ...41

4.2 實驗設計 ...42

4.3 實驗評估與討論 ...43

第伍章 結論與未來展望 ...52

5.1 結論...52

5.2 未來研究發展 ...52

參考文獻 ...54

英文部分...54

中文部分...57

(6)

圖目錄

圖 1、 論 文 架 構 圖 ... 3

圖 2、 K DD 的 流 程 ... 5

圖 3、 線 性 與 非 線 性 分 類 器 在 分 類 效 果 的 比 較 ... 8

圖 4、 SVM 網 路 架 構 圖 ... 9

圖 5、 將 低 維 度 的 資 料 投 射 至 高 維 度 ...10

圖 6、 SVM 基 本 概 念 ...11

圖 7、基因演算法的操作流程 ...21

圖 8、單點交配法表示圖 ...22

圖 9、雙點交配法表示圖 ...22

圖 10、均勻交配法表示圖 ...23

圖 11、突變方式表示圖 ...23

圖 12、漸進式分群架構圖 ...26

圖 13、GA-SVM 模型之染色體設計...33

圖 14、GA-FCM 之染色體設計 ...38

(7)

表目錄

表 1、 支 持 向 量 機 相 關 文 獻 整 理 ...14

表 2、基因演算法相關文獻整理 ...24

表 3、 YAHOO!新 聞 文 件 分 佈 ...41

表 4、 結 合 基 因 演 算 法 與 不 同 分 類 器 之 實 驗 比 較 組 合 ...42

表 5、 實 驗 一 之 參 數 設 定 ...44

表 6、 分 類 至 既 有 類 別 分 類 效 能 (Macro- average) ...44

表 7、 分 類 至 既 有 類 別 分 類 效 能 (Micro-average) ...44

表 8、 分 類 至 ”非 ”既 有 類 別 分 類 效 能 ...45

表 9、 結 合 基 因 演 算 法 與 支 持 向 量 機 分 類 結 果 ...46

表 10、 經 由 基 因 演 算 法 之 門 檻 所 挑 選 之 部 份 特 徵 詞 表 ...47

表 11、 實 驗 二 之 參 數 設 定 ...48

表 12、 結 合 基 因 演 算 法 之 模 糊 分 群 效 能 比 較 ...48

表 13、 其 他 分 群 演 算 法 效 能 比 較 ...48

表 14、 各 群 聚 較 高 TFIDF 值 排 名 前 30 名 特 徵 詞 ...49

表 15、 整 體 分 類 與 分 群 搭 配 效 能 ...50

(8)

第壹章 緒論

在 資 訊 爆 炸 的 時 代,日 益 龐 大 且 增 加 快 速 的 文 件 已 經 難 以 更 進 一 步 的 進 行 管 理 與 分 析,隨 時 有 更 多 型 態 且 更 新 的 文 件 出 現,因 此 如 何 在 龐 大 的 資 料 中 正 確 且 有 效 率 找 尋 有 用 的 資 訊 是 很 重 要 的 , 而 分 群 (C lust er ing) 就 是 一 項 常 用 來 找 尋 資 料 特 徵 與 關 聯 的 主 要 技 術 之 ㄧ,透 過 分 群 後 可 將 隱 藏 於 資 料 中 有 用 的 資 訊 萃 取 出 來 。

1.1 研 究 動 機

早 期 的 分 群 演 算 法 大 多 使 用 單 一 種 方 法 分 群,而 這 些 演 算 法 因 為 應 用 的 技 術 與 群 聚 技 巧 不 同 , 所 以 存 在 著 一 些 限 制 。 例 如 K- mea n (MacQ uee n, 1 967) 演 算 法 很 容 易 受 到 雜 訊 (No is e) 與 離 群 值 (Out lier) 所 影 響 , DBSCAN(Est er, 1996)演 算 法 則 是 需 要 透 過 使 用 者 輸 入 一 些 參 數 , 因 此 有 些 研 究 結 合 不 同 群 聚 技 術 , 擷 取 其 演 算 法 的 優 點 , 試 圖 提 升 分 群 品 質 。 如 BRIDGE演 算 法 (Dash, 2001), 它 同 時 結 合 K- means 簡 單 快 速 與 DBS CAN 不 易 受 屏 除 離 群 值 影 響 等 優 點,但 是 不 同 的 輸 入 參 數 會 影 響 分 群 的 品 質 , 且 有 群 數 切 割 過 於 零 碎 的 問 題 。

由 於 以 上 這 些 缺 點,因 此 有 學 者 在 分 群 的 演 算 法 中 加 入 相 似 群 的 評 估 公 式 , 使 相 似 群 得 以 合 併 。 例 如 Kar ypis 等 人 提 出 了 相 對 互 相 鏈 結 (Relat ive Int erconnect ivit y, RI)與 相 對 相 似 (Relat ive Clo se ness, RC) 的 概 念 (Kar yp is, 1999) , 將 兩 群 間 的 距 離 (RI) 與 相 似 度 (RC) 皆 納 入 相 似 群 計 算 的 考 量 中,導 出 一 個 綜 合 指 數。其 中 參 數 α 決 定 了 相 似 群 合 併 方 法 的 門 檻 , 當 α 大 於 1, 則 以 群 間 相 似 度 為 主 要 考 量 ; 反 之 , 則

(9)

以 有 效 對 群 聚 進 行 分 群,並 可 以 透 過 效 度 函 數 的 評 估 找 出 適 合 之 群 聚 數 量、增 加 分 群 效 能 以 及 將 文 件 分 至 多 群 等 特 色。 由 於 這 些 特 色 也 使 得 模 糊 分 群 (Fuzzy C- means)演 算 法 得 以 被 廣 泛 運 用 。

1.2 研 究 目 的

儘 管 模 糊 分 群 ( Fuzzy C- means)演 算 法 有 如 此 優 異 的 分 群 表 現,但 FC M 容 易 受 初 始 中 心 影 響 , 進 而 使 得 分 群 結 果 收 斂 在 局 部 最 佳 解 , 導 致 收 斂 結 果 不 一 , 有 鑑 於 此 , 本 研 究 嘗 試 結 合 了 分 類 與 分 群 的 技 術 , 提 出 新 的 分 群 方 法 : 漸 進 式 分 群 方 法 , 首 先 將 新 進 文 件 先 基 因 演 算 法 及 支 持 向 量 機 (Support Vect or Machine)挑 選 特 徵 詞 來 針 對 既 有 類 別 加 以 分 類 , 之 所 以 選 擇 S VM 是 因 為 它 具 有 速 度 快 、 穩 定 、 不 需 大 量 訓 練 資 料 就 有 很 好 的 分 類 效 果 等 特 性,且 在 不 少 研 究 中 顯 示 其 效 能 優 於 其 它 方 法 (Davidov, 2004); 接 著 再 結 合 基 因 演 算 法 與 模 糊 分 群 演 算 法 對 無 法 分 類 至 既 有 類 別 的 文 件 加 以 分 群 以 產 生 新 的 類 別 架 構,並 將 新 產 生 的 類 別 加 入 既 有 類 別 中 。

本 研 究 的 目 的 在 於 透 過 此 演 算 法 辨 別 既 有 類 別 文 件 及 非 既 有 類 別 文 件 , 使 得 文 件 分 類 架 構 之 類 別 數 可 以 依 文 件 輸 入 的 數 量 逐 漸 成 長 ; 然 而 使 用 GA-SVM 模 型 先 行 分 類 能 有 效 降 低 分 群 計 算 量 與 分 群 雜 訊 ; 再 以 GA- FCM 模 組 決 定 分 群 之 群 數 。 經 實 驗 證 明 , GA-SVM 模 型 與 GA- FCM 模 組 其 分 類 與 分 群 品 質 優 於 原 支 持 向 量 機 與 模 糊 分 群 演 算 法, 且 漸 進 式 分 群 也 結 合 了 有 效 降 低 分 群 雜 訊 特 性,使 得 其 分 群 品 質 與 效 能 除 了 優 於 原 始 分 類 與 分 群 演 算 法 外 。

1.3 論 文 架 構

本 研 究 共 可 分 為 五 個 章 節 , 分 別 為 緒 論 、 相 關 文 獻 探 討 、 研 究 方 法 、 實 驗 與 評 估 以 及 結 論 與 未 來 展 望 。 論 文 架 構 圖 如 圖 1 所 示 :

(10)

1.知識挖掘

2.分類與分群的技術 3.基因演算法

1.文件前置處理 2.GA-SVM模型 3.GA-FCM模組 4.效能評估方法

1.實驗資料來源 2.實驗設計

3,實驗評估與討論

第壹章 緒論

第貳章 相關文獻探討

第参章 研究方法

第肆章 實驗與評估

第伍章 結論與未來展望

圖 1、 論 文 架 構 圖

第 壹 章 : 緒 論

(11)

第 參 章 : 研 究 方 法

在 此 我 們 將 提 出 一 個 運 用 基 因 演 算 法 為 基 礎 的 方 法 來 結 合 支 持 向 量 機 以 及 模 糊 分 群 演 算 法 的 分 類 與 分 群 機 置 。 首 先 利 用 中 研 院 的 C KIP 中 文 斷 詞 系 統 進 行 輸 入 文 件 的 前 置 處 理 , 透 過 G A-SVM 模 型 降 低 雜 訊 以 及 藉 由 將 合 適 的 文 件 分 類 至 既 有 的 類 別 以 降 低 後 續 新 類 別 分 群 的 計 算 量 。 接 著 使 用 GA- FCM 模 組 針 對 新 進 文 件 分 群 並 顯 著 的 控 制 群 數, 有 效 率 的 取 得 未 分 至 既 有 類 別 文 件 之 群 聚 架 構,為 未 分 至 既 有 類 別 的 文 件 建 立 新 類 別。當 既 有 類 別 無 法 辨 識 新 進 文 件 時, 我 們 將 會 針 對 無 法 分 辨 之 文 件 進 行 分 群 處 理,並 為 既 有 類 別 文 件 架 構 增 加 新 類 別 , 以 應 付 未 來 的 新 進 文 件 。

第 肆 章 : 實 驗 與 評 估

設 計 實 驗 , 實 驗 資 料 取 自 網 路 “Yahoo 新 聞 ”, 利 用 本 研 究 所 提 出 新 的 分 群 方 式 加 以 分 群, 並 與 人 工 分 群 結 果 加 以 比 對 計 算 出 評 估 值 。 第 伍 章 : 結 論 與 未 來 展 望

探 討 研 究 結 果 、 研 究 貢 獻 、 實 作 部 分 遭 遇 問 題 及 未 來 建 議 。

(12)

第貳章 文獻探討

與 本 研 究 相 關 之 研 究 領 域 主 要 為 文 字 挖 掘 中 分 類 與 群 聚 的 技 術 。 因 此 首 先 將 針 對 資 料 庫 知 識 挖 掘 ( KDD) 與 文 字 知 識 挖 掘 ( KDT)做 定 義 與 說 明,第 二 節 將 介 紹 在 本 研 究 中 使 用 到 的 分 類 與 分 群 的 技 術 , 並 探 討 其 相 關 研 究,第 三 節 介 紹 基 因 演 算 法 及 其 相 關 研 究,以 釐 清 本 研 究 在 現 今 相 關 研 究 之 定 位 。

2.1 知 識 挖 掘

(一) 資料庫知識挖掘(Knowledge discovery in database,KDD) 隨 著 時 代 不 斷 地 演 進 以 及 網 際 網 路 的 發 達,複 雜 且 大 量 的 資 料 已 經 無 法 有 效 率 的 使 用 人 工 來 進 行 分 析。因 此 為 了 降 低 龐 大 的 資 料 對 人 們 所 造 成 的 影 響 , 資 料 庫 知 識 挖 掘 ( Knowledge Disco ver y in Dat abase, KDD) 技 術 即 被 提 出 針 對 解 決 此 類 問 題 , 期 望 以 自 動 化 的 探 勘 流 程 , 從 大 量 資 料 中 找 出 對 使 用 者 有 用 的 資 訊,進 而 發 現 隱 含 在 資 訊 中 而 有 用 的 知 識 ( Fayyad, 1996)。

KDD 可 視 為 一 個 連 續 的 探 勘 流 程 , 其 主 要 流 程 如 圖 2 所 示 , 以 下 簡 述 各 流 程 的 重 點 :

(13)

1. Se lect: 首 先 由 大 量 資 料 中 擷 取 出 研 究 領 域 的 相 關 資 訊 , 接 著 由 相 關 資 訊 中 取 出 欲 進 行 探 勘 的 目 標 資 料 集 , 並 鎖 定 各 種 可 能 的 資 料 來 源 。

2. Prepro cess ing:資 料 前 置 處 理。此 步 驟 將 針 對 內 容 不 完 整 或 雜 訊 過 多 的 資 料 進 行 填 補 或 刪 除 的 處 理,以 確 保 資 料 的 完 整 性 及 正 確 性 。 3. Trans fo r mat io n :資 料 轉 換,將 所 有 資 料 轉 換 至 一 致 的 格 式 以 及 適

當 的 對 資 料 進 行 刪 減 。

4. Dat a min ing: 首 先 選 擇 資 料 探 勘 的 方 法 , 如 分 類 ( C la ss ific at io n) 或 群 集 (Clust er ing) 分 析 , 並 由 探 勘 方 法 中 選 擇 適 當 的 演 算 法 , 決 定 適 用 的 模 式 及 參 數 執 行 資 料 探 勘 。

5. Int erpret at io n:以 適 當 的 方 式 解 讀 資 料 探 勘 的 結 果 ,並 對 實 驗 結 果 進 行 效 能 的 評 估 。

由 此 可 知 , KDD 是 藉 由 與 使 用 者 重 複 互 動 的 過 程 , 配 合 自 動 化 的 分 析 技 術,以 挖 掘 出 隱 含 在 資 料 中 且 有 用 的 資 訊。而 資 料 探 勘 (Dat a M in ing) 是 KDD 的 其 中 一 個 重 要 步 驟 , 其 主 要 的 功 能 即 是 利 用 探 勘 技 術 對 資 料 進 行 分 析 和 預 測 ; 常 見 的 資 料 探 勘 技 術 有 : 分 類 (c las s ificat io n) 、 群 集 (c lu st er ing) 、 文 件 摘 要 (Su mmar iz at io n) 、 關 聯 規 則 (Associat ion Rule) 、 類 神 經 網 路 (Neural Net work) 、 視 覺 化 (Visua liz at io n) 、 基 因 演 算 法 (Genet ic Algo r it h m) 、 連 結 分 析 (Link Ana lys is) 、 線 上 分 析 處 理 (O LAP) 等 。

(二 ) 文 字 知 識 挖 掘 (discovery in texts, KDT)

現 今 一 般 人 的 電 腦 中 皆 含 有 大 量 的 資 訊,除 了 應 用 程 式 之 外,其 餘 的 大 多 為 記 載 各 種 資 料 的 文 件 檔 。 在 這 些 文 件 檔 案 中 充 斥 著 如 新 聞 、 產 品 資 訊 、 研 究 報 告 、 電 子 郵 件 等 各 式 各 樣 大 量 的 文 件 資 訊 。 對 於 這 些 非 結 構 或 半 結 構 化 的 文 件 資 料,需 要 特 殊 的 技 術 輔 助 使 用 者 在 大 量 的 資 料 中 尋 找 並 有 效 擷 取 出 適 當 的 資 訊 進 行 分 析 。

(14)

進 行 探 勘; 但 在 資 訊 過 載 與 網 路 盛 行 的 現 今,有 更 多 且 更 新 的 文 件 資 料 不 斷 被 產 生,若 只 是 一 貫 使 用 之 前 所 建 構 的 資 料 庫 對 新 的 資 訊 進 行 分 析 則 容 易 忽 略 新 類 型 文 件 的 特 徵 造 成 效 能 的 降 低 。

為 了 能 夠 有 效 的 對 大 量 且 新 穎 的 文 件 進 行 分 析,有 學 者 開 始 研 究 如 何 運 用 有 效 的 文 字 探 勘 方 法 來 解 決 此 類 問 題,然 而 文 字 探 勘 主 要 具 有 兩 個 困 難 點 (Dorre, 1999), 若 是 以 人 工 對 多 樣 且 大 量 的 文 件 進 行 特 徵 選 擇 , 是 缺 乏 效 率 且 不 符 成 本 的 。 且 文 件 資 料 的 內 容 維 度 數 量 過 多 , 容 易 使 特 徵 屬 性 不 易 明 確 定 義 或 界 定 。 故 相 較 於 傳 統 資 料 探 勘 , 在 文 字 探 勘 上 需 要 加 上 額 外 的 資 料 處 理 程 序,以 及 複 雜 的 特 徵 萃 取 步 驟 。 而 文 字 探 勘 的 基 本 流 程 (鍾 明 璇 , 2002)說 明 如 下 :

1. 首 先 , 藉 由 資 訊 檢 索 (I nfo r mat io n Ret r ie va l, I R)的 技 術 , 從 各 種 形 式 媒 介 中 擷 取 出 所 需 的 文 件 資 訊 。

2. 將 擷 取 後 文 件 透 過 資 訊 萃 取 (Info r mat io n Ext ract io n , IE)的 技 術 萃 取 文 件 特 徵 , 而 最 為 基 礎 的 是 語 義 分 析 及 自 然 語 言 處 理 , 其 主 要 目 的 是 為 了 找 出 文 件 中 的 關 鍵 資 訊 或 是 文 件 的 概 念 階 層 (Concept H ierarc hy)。 因 此 在 找 出 這 些 能 代 表 文 件 的 關 鍵 特 徵 資 訊 之 後 , 才 能 更 有 效 的 對 文 件 做 進 一 步 的 分 析 , 以 找 出 隱 含 而 有 用 的 資 訊 , 並 適 當 的 呈 現 及 表 示 。

3. 而 萃 取 後 的 文 件 特 徵 就 可 經 由 資 料 探 勘 (Dat a M in ing) 的 技 術 , 像 是 分 類 ( Classificat ion) 或 分 群 (Clust er ing) 的 方 法 來 挖 掘 文 件 中 對 使 用 者 有 用 資 訊 或 是 相 關 的 資 訊 。

4. 最 後 , 透 過 分 析 與 評 估 (I nt erpret at io n) 的 步 驟 , 評 估 文 件 探 勘 的 效 能 與 修 正 其 探 勘 結 果 。

(15)

分 類 器 之 目 的 為 將 輸 入 之 特 徵 向 量 對 應 至 實 際 之 物 理 現 象,一 般 分 類 器 可 分 為 線 性 分 類 器 與 非 線 性 分 類 器 , 假 設 X 為 有 D 個 維 度 的 實 際 量 測 值 , 線 性 分 類 器 可 用 以 下 式 子 表 示 :

1 1 2 2

1

...

D

x D D i i

i

g w x w x w x b w x b

     

其 中 ,

w : 第 i 個 量 測 值 的 權 重 值 ( We ig ht ) i

b: 偏 權 值 ( B ia s)

藉 由 調 整 參 數 w 與 b,可 將 H yp er p la ne 做 旋 轉 與 平 移。但 線 性 分i 類 器 在 分 類 辨 識 上 有 其 限 制,例 如 當 一 份 文 件 要 分 類 至 屬 性 相 近 的 兩 個 類 別 時, 使 用 線 性 分 類 器 的 分 類 績 效 就 會 不 佳, 此 時 就 要 考 慮 使 用 非 線 性 的 分 類 器 , 如 圖 4 所 示 :

(a) 非 線 性 分 割 資 料 (b) 線 性 分 割 資 料

圖 3、 線 性 與 非 線 性 分 類 器 在 分 類 效 果 的 比 較 (Princip e, 2000)

由 上 圖 可 知,非 線 性 分 類 器 的 分 類 效 果 優 於 線 性 分 類 器, 而 支 持 向 量 機 (Support Vect or Machine , SVM) 為 近 年 來 最 受 歡 迎 的 非 線 性 分 類 器 之 ㄧ , 亦 為 本 研 究 所 採 用 的 分 類 器 , 因 此 以 下 就 針 對 S VM 加 以 說 明 。

(16)

支 持 向 量 機 (Support Vect or Machine , SVM) 是 由 St at ist ical Lear ning T heo r y(S LT)(Vap nik, 1995) 發 展 而 來 的 , 屬 於 R ad ia l Ba s is Net wo rks 的 一 種,用 此 可 以 逼 近 任 何 連 續 的 非 線 性 函 數,以 下 即 針 對 SVM 分 類 器 加 以 探 討 , SVM 的 架 構 圖 如 圖 4 所 示 。

利 用 目 前 現 有 的 資 料 作 訓 練 , 將 原 本 不 能 以 線 性 函 數 區 分 的 資 料 , 投 影 至 高 維 度 空 間 中 , 並 試 圖 從 中 找 出 較 可 能 區 分 資 料 的 超 平 面 , 如 圖 5 所 示 , 做 法 敘 述 如 下 。

首 先 將 訓 練 資 料 (Training dat a) 中 的 文 件 轉 換 成 文 件 向 量 , 並 剔 除 少 部 份 極 端 值 後 加 以 訓 練 。 然 後 利 用 訓 練 後 的 模 型 ( model) 針 對 測 試 資 料 (Test ing dat a)加 以 預 測 。

圖 4、 SVM 網 路 架 構 圖 (蔡 明 倫 , 2002)

(17)

圖 5、 將 低 維 度 的 資 料 投 射 至 高 維 度 (Müller, 2001)

在 眾 多 的 SVM 模 式 中 , 最 簡 單 也 是 最 為 原 始 的 模 式 即 為 最 大 化 邊 際 分 類 器 (Maximal Margin Classifier) , 其 定 義 說 明 如 下 :

假 設 X 為 輸 入 空 間 (Input space , XRn), Y 為 輸 出 域 (YR),

則 :

x ,y ,1 1

 

x ,y , xl l

R , yn

+1,-1

S     。

其 中 ,

l: 為 範 例 數 目 n: 為 輸 入 維 度

若 每 一 筆 yi 值 皆 相 同 時 ( y1= y2= …= yl),則 訓 練 集 合 S 是 無 意 義 的。

在 線 性 可 分 的 情 況 下,存 在 一 個 超 平 面 能 將 二 類 樣 本 完 全 分 隔 , 該 平 面 的 描 述 為 ( w· x)+b=0, 如 圖 6 所 示 , 其 中 ○: x和 ☆ : x分 別 表 示 正 和 負 的 訓 練 範 例 , 此 兩 條 虛 線 各 別 的 表 示 如 下 :

0 1

0 1

i i

i i

w x b y

w x b y

     

     

(18)

圖 6、 SVM 基 本 概 念 (蔡 明 倫 , 2002)

在 線 性 可 分 的 情 況 下,尋 找 最 佳 超 平 面,可 以 看 成 二 次 規 劃 求 解 的 問 題,對 於 訓 練 樣 本 ,首 先 找 到 其 權 重 值 w 與 偏 移 值 b 的 最 佳 值 , 使 得 權 重 代 價 函 數 最 小 化:min

 

1 2

w 2 w

,並 滿 足 限 制 式:yi( w·xi+b) -1≧ 0,i=1…, l, 接 著 , 因 為 最 佳 化 函 數

 

w 為 二 次 型 函 數 , 而 限 制 條 件 是 線 性 的 , 因 此 , 可 由 拉 式 乘 數 求 解 (Lagrange Mult iplier):

: LagrangeMulipliter

 

2

   

1

, , 1 1

2

l

i i i

i

L w b w y w x b

 

  

0, 1, 2,...,

i i l

 

其 中 , 分 別 針 對 L 中 的 w、 b 和 α 微 分 , 即 可 得 到 w 的 最 小 值 、 b 的 最 小 值 和 α 的 最 大 值 :

0 w x b  

(19)

 

 

* *

1

* *

1

*

1

, , 0

, , 0

l

i i i

i l

i i i

i l

i i i

L w b

w y x

w

w y x

L w b b y

   

 

  

將 上 二 式 帶 入 拉 式 函 數 中 , 則 可 獲 得 下 列 式 子 :

 

2

 

1

, 1 , 1 1

1 , 1

, , 1 1

2 1

2

1 2

l

i i i i

i

l l l

i j i j i j i j i j i j i

i j i j i

l l

i i j i j i j

i i j

L w b w y w x b

y y x x y y x x

y y x x

   

 

 

      

    

  

  

 

依 據 拉 氏 函 數 與 上 式 之 結 果 , 則 對 偶 模 式 (Dual proble m) 可 呈 現 如 下 :

 

 

 

1 , 1

1

max 1

2 subject to 0 0, 1,...,

1 0

l l

i i j i j i j

i i j

l i i i

i

i i i

W y y x x

y

i l

y w x b

 

  

 

   

 

由 上 式 可 以 求 解 得 b :* b*yiw xi, 其 中 i

y w xi

ib

1

0為 Flet c her(198 7) 所 提 出 的 Karu s h- Kuhn-Tu cker co mp le me nt ar it y co nd it io ns (Ne llo , 2000) , 因 此 , 最 終 的 分 類 公 式 如 下 :

 

* *

 

*

1 l

i i i

i

d x x w b y x x b

   

 

(20)

不 過 有 些 資 料 卻 是 無 法 利 用 線 性 方 程 式 將 資 料 分 類,因 此 必 須 透 過 線 性 不 可 分 問 題 , 將 資 料 作 有 效 的 區 分 。 對 非 線 性 問 題 , 將 樣 本 x 轉 換 至 某 個 高 維 度 特 徵 空 間 H 中 , 並 在 H 中 利 用 線 性 規 劃 問 題 求 解 , 將 x 作 轉 換 至

 

x ( Va n R ijs berge n, 197 9) :

 

   

* *

   

*

1

: d

l

i i i

i

x x R H

d x x w b y x x b

 

 

   

 

針 對 非 線 性 問 題 的 分 類 函 數 如 下 式 所 示 :

   

   

1 1 1

* * *

1

max 1

2

l l l

i i j i j i j

i i i

l

i j i

i

W y y K x x

d x x w b y K x x b

 

  

     

 

由 上 可 知 , 分 類 函 數 都 只 涉 及 訓 練 樣 本 之 間 的 內 積

x xi

運 算 , 如 此 在 高 維 度 空 間 上 只 需 進 行 內 積 運 算,因 此 在 最 佳 分 類 平 面 中,採 用 適 當 的 轉 換 函 數 ( Ker nel):K x x

ij

,就 可 以 求 解 某 一 非 線 性 轉 換 後 的 線 性 分 類 問 題 , 而 計 算 複 雜 度 卻 沒 有 增 加 。 以 下 (吳鑑峰, 2001)列 出 數 種 ker nel, 不 同 的 ker nel 將 形 成 不 同 的 算 法 , 適 合 不 同 的 問 題 型 態 :

 

   

,

, , 1

dor i j i j

d

ploy i j i j

K x x x x

K x x x x

 

 

 

xx 2

(21)

能 夠 處 理 非 線 性 資 料 、 簡 易 、 快 速 的 計 算 且 穩 定 等 特 性 , 且 在 不 少 研 究 中 顯 示 其 效 能 優 於 其 它 方 法 (Davidov, 2004), 它 僅 需 少 量 的 訓 練 資 料 即 可 , 使 得 SVM 成 了 現 在 最 受 歡 迎 的 分 類 器 之 ㄧ 。

3.支 持 向 量 機 (SVM )相 關 文 獻

應 用 SVM 理 論 於 資 訊 檢 索 領 域 中,已 有 下 列 學 者 提 出 研 究 結 果 , 如 表 1 所 示 :

表 1、 支 持 向 量 機 相 關 文 獻 整 理

作 者 , 年 份 研 究 結 果

Drucker, 2002

以 SVM 判斷搜尋結果對於當次搜尋的關聯性回饋。SVM 在使用 TF-IDF 權重為輸入向量的效果較佳,而且可以在初 次查詢找到合理數量的有效文件。

Youngjoong, 2004

應用文件中句子的重要性,來改善分類效果。實驗中使用 四種分類器 Naive Bayes(NB)、Rocchio、KNN 及 SVM,其 中以 SVM 的分類效果最佳。

Xu, 2006

訓練 SVM、決策樹及 Maximum Entropy 識別中文的縮寫 字,SVM 辨識效果最佳。

Onoda, 2008

使 用 SVM-based 啟 發 式 相 互 作 用 文 件 檢 索 系 統 較 Rocchio-based 系統及未使用啟發式方法的 SVM-based 系 統,使用 SVM-based 啟發式相互作用文件檢索系統可獲得 較好的結果。

(二 )分 群 技 術

1.分 群 的 基 本 理 論

(22)

群 聚 (clust er ing)是 把 有 形 或 抽 象 的 物 件 歸 類 成 群 的 程 序; 將 類 似 物 件 集 合 成 同 一 群 , 不 同 群 集 的 物 件 不 相 似 , 群 聚 與 分 類 最 大 不 同 是,群 聚 不 需 預 先 設 定 類 別,而 運 用 演 算 法 把 資 料 自 動 歸 類 成 新 類 別 (Ha n & Ka mber, 2001) 。

群 聚 方 法 的 典 型 需 求 如 下 (Han & Kamber, 2001):

(1) 需 要 極 少 領 域 知 識 去 決 定 輸 入 參 數 : 有 些 群 聚 法 需 要 參 數 輸 入 , 例 如 K- means 的 K 值 ,需 要 根 據 經 驗 或 是 實 驗 的 結 果 去 決 定 這 些 參 數 的 最 佳 設 定 值 。

(2) 具 有 處 理 各 種 型 態 特 微 的 能 力 。 (3) 可 處 理 多 維 度 空 間 的 能 力 。

(4) 發 現 任 何 形 狀 群 聚 : 好 的 群 聚 演 算 法 , 儘 可 能 達 到 群 內 的 相 似 度 最 大, 而 群 間 相 似 度 最 小, 不 侷 限 於 某 種 劃 分 資 料 的 方 法 (例 如 格 狀 演 算 法 ), 將 所 有 輸 入 資 料 都 納 入 分 群 的 考 量 。

(5) 處 理 雜 值 的 能 力:極 端 值 (o ut lier)會 影 響 群 聚 品 質,需 適 時 的 剔 除 。

(6) 延 展 性 :輸 入 大 型 資 料 庫 時 , 仍 具 有 高 效 率 處 理 的 能 力 。 (7) 可 解 釋 性 : 透 過 模 型 , 能 使 人 瞭 解 分 群 結 果 的 程 度 。 (8) 限 制 基 礎 (co nst ra int - ba sed) 群 聚 。

到 目 前 為 止 , 群 聚 技 術 已 經 發 展 出 許 多 的 演 算 法 , 其 大 致 上 可 以 分 為 下 面 幾 類 (陳 榮 昌 ,林 育 臣 , 2003):

(1) 分 割 方 法 (Part it io ning)

使 用 者 必 須 先 決 定 分 割 的 群 聚 數 目 , 再 以 重 心 點 基 礎 (Ce nt ro id- ba se d) 或 中 心 點 基 礎 (Me do id- based) 的 方 式 進 行 群 聚 。 它 的

(23)

式 ,如 餘 弦 夾 角 (Cosine S imilar it y) 等 計 算 資 料 間 的 相 似 度 ,並 由 上 而 下 (top down)分 割 成 合 適 的 小 類 別 (分 散 法 ,divise),或 由 下 而 上 ( botto m up) 將 每 篇 文 件 逐 一 合 併 成 理 想 的 群 聚 ( 凝 聚 法 ,agg lo me rat ive) , 優 點 是 可 以 將 資 料 切 割 成 多 群 , 但 是 計 算 量 相 對 增 加 、 費 時 。

(3) 密 度 基 礎 方 法 (de ns it y- bas ed)

考 慮 將 區 域 內 密 度 高 的 資 料 放 在 同 一 個 叢 集 中,應 用 距 離 式 的 叢 集 法 找 出 的 多 維 凸 面 體 的 群 聚。密 度 式 的 群 集 法 可 找 出 各 種 形 狀 的 叢 集 , 且 較 不 受 雜 訊 的 影 響 , 但 是 很 難 定 義 密 度 參 數 。

(4) 格 子 基 礎 方 法 (Gr id- ba se d)

將 資 料 空 間 量 化 成 許 多 格 子,大 量 的 減 少 計 算 群 集 的 時 間,其 缺 點 是 群 聚 形 狀 其 邊 不 是 水 平 就 是 垂 直,造 成 其 分 群 品 質 降 低 及 損 失 正 確 率 。

(5) 其 它 方 法

近 年 來 尚 有 其 他 學 者 提 出 不 同 的 分 群 法,像 是 使 用 數 學 模 型 來 描 述 資 料 結 構,例 如 以 統 計 學 的 觀 點 來 看,每 個 群 集 是 由 以 機 率 分 配 所 構 成 的 模 式 基 礎 方 法 (Model- based)。 與 類 神 經 網 路 的 架 構 。

一 般 來 說 , 如 果 群 聚 分 的 好 , 會 使 精 確 率 (Precisio n) 提 高 而 召 回 率 (Recall)不 至 於 下 降 (提 升 檢 索 品 質 );通 常 ,群 聚 有 大 量 的 資 料 、群 聚 後 的 結 果 可 能 很 大、有 很 多 的 特 徵 值、以 及 所 有 文 件 的 所 有 特 徵 集 合 (Feat ure set )聯 集 過 於 龐 大 等 缺 點 。

由 於 在 很 多 資 料 分 析 中 , 不 同 群 體 資 料 的 分 佈 並 不 是 完 全 分 開 的,而 是 彼 此 重 疊 在 一 起,傳 統 的 平 均 數 群 聚 演 算 法 已 不 能 滿 足 此 類 的 狀 況。因 此 在 1981 年,由 Bezdek 提 出 模 糊 平 均 數 群 聚 演 算 法 ( Fuzz y C-Me a ns C lust er ing, FCM) 。

2.模糊分群方法

(24)

將 文 件 歸 納 出 數 個 不 同 的 群 組,使 得 同 一 群 組 內 的 文 件 之 間 具 有 高 度 的 同 質 性,不 同 群 組 之 間 的 文 件 具 有 高 度 的 異 質 性 (Ever it t , 1974)。本 小 節 將 介 紹 關 於 FCM 的 演 算 法 。

此 演 算 法 是 依 據 平 均 數 群 聚 演 算 法 所 衍 生 而 來 的。透 過 模 糊 邏 輯 (Fuz z y Lo g ic) 的 概 念,進 一 步 提 升 了 分 群 的 效 果 。FCM 演 算 法 最 大 的 特 色 在 於 加 入 了 模 糊 的 概 念 , 使 得 資 料 點 不 再 絕 對 地 屬 於 任 何 的 群 聚,而 是 以 一 個 介 於 0 到 1 之 間 的 數 字,來 表 示 該 資 料 點 屬 於 某 個 群 聚 的 程 度 。

模 糊 分 群 法 (Fuzzy C- means) 是 由 Bezdek 所 提 出 ( Bezdek,1981),

FC M 在 處 理 落 在 兩 個 群 體 間 的 模 糊 地 帶 時 , 是 按 照 一 定 的 條 件 對 於 資 料 點 進 行 分 群 的 數 學 方 法 , 來 達 到 分 群 效 果 的 最 佳 化 。 FCM 利 用 了 一 個 目 標 函 數 對 分 群 效 果 進 行 評 估,如 果 能 讓 此 目 標 函 數 達 到 最 小 值,即 可 以 得 到 最 適 的 分 群 結 果。因 此 這 樣 的 群 聚 分 析 方 法 可 以 對 文 件 分 群 作 最 有 效 的 群 聚 分 析 。 其 目 標 函 數 之 公 式 如 下 :



c

i n

k

i k m

ik x v

u V

U X J

1 1

||2

||

) ,

;

( U [u ] 1ik  i c 1 kn

其中,

c:群數 n:資料數

xk:資料樣本

U:歸屬程度矩陣 c×n 的矩陣

uik:資料樣本屬於群集 Ci的歸屬程度 V:為群中心的向量,

V[v1,v2,...,vc] , viR,p 1ic vi:為群集 Ci的中心

m:加權指數

(25)

c

i u

x u

v n

k

l m ik n

k

k l m ik l

i   

1

) (

) (

1 ) ( 1

) ( )

(

步驟 3:計算距離,更新文件與中心點的相關程度 n k c

i v

x v x u

c

j

m

l j k

l i k l ik





1 1

||

||

||

||

1

1

2 1 ) (

) ( )

(

步驟 4:計算目標函數值 J(X;U,V),如 J(l)-J(l-1) ,則結束;否則,更新 U 矩陣,並設定 l=l+1,回到步驟 2,繼續演算。

應 用 模 糊 分 群 理 論 於 資 訊 檢 索 領 域 , 有 學 者 提 出 研 究 結 論 , M iya mo t o (2006) 在 實 驗 中 以 三 種 模 糊 分 群 法 hard c- me a ns , Fuzz y C- mea ns 及 一 個 群 聚 中 心 凝 聚 法 應 用 在 資 訊 分 群 。 證 實 模 糊 分 群 法 在 資 訊 分 群 方 面 具 有 良 好 效 果 。

3.集群有效性(Cluster Validity)

現 今 有 許 多 種 類 的 分 群 演 算 法,然 而 大 部 份 的 演 算 法 都 必 須 要 設 定 一 些 參 數 才 能 對 資 料 進 行 分 析,這 些 參 數 值 通 常 為 收 斂 門 檻 或 是 欲 分 析 的 集 群 個 數, 然 而 若 是 在 不 清 楚 資 料 分 佈 的 情 況 下, 使 用 者 自 行 對 資 料 進 行 群 數 的 定 義 是 不 客 觀 且 缺 乏 依 據 的 , 而 FCM 也 面 臨 同 樣 的 問 題,所 以 要 如 何 在 分 群 演 算 法 中 確 定 群 數 後 再 進 行 分 群 是 一 件 很 重 要 的 議 題,因 此 為 了 解 決 分 群 數 目 的 定 義 問 題, 我 們 必 須 要 再 做 進 一 步 的 探 討 集 群 有 效 性 (Clust er Validit y) 評 估 。 然 而 到 目 前 為 止 , 集 群 有 效 性 已 經 發 展 出 許 多 的 指 標 , 其 大 致 上 可 以 分 為 下 面 幾 類 :

(1)分 割 系 數 (Part it io n co e ffic ie nt )

(26)



c

i n

j

n ij

U

PC 1 ,

)

( 2

1 1

C  PC ,PC 值愈大愈佳, PC

c

max 可得到最佳群數 C。

(2)分 割 熵 (Part it io n E nt ro py)





 



c

i n

j

ij a

n ij

U PE

1 1

1 log )

(

PE 值 愈 小 愈 佳 , PE

minc 可 得 到 最 佳 群 數 C。

(3)Fu fu ya ma a nd Suge no 所 提 出 的 指 標 FS

 



c

i n

j

i i

j m

ij x v v v

X V U

FS( , ; ) || ||2 || ||2

FS 值 愈 小 表 示 分 群 效 果 愈 佳 。

(4)X ie a nd Be ni 所 提 出 的 指 標 XB



 

 



2 2 2

||

||

min

||

||

)

; , (

j j i

i c

i n

j

i j ij

v v n

v x X

V U XB

XB 值 愈 小 愈 佳 , XB

c

min 可 得 到 最 佳 群 數 C。

(5)延伸的 XB 指標(Extended Xie-Beni,EXB)

(27)

關 於 集 群 有 效 性 的 相 關 研 究 , 有 學 者 提 出 研 究 結 論 , Pal 和 Bezd ek(1995) 利 用 以 上 五 種 指 標 , 來 驗 證 FC M 演 算 法 的 分 群 效 果 , 實 驗 結 果 指 出 在 分 群 數 目 2-10 群 之 間 且 加 權 指 數 m 介 於 1.01 至 7 之 間 時 , Xie- Beni( XB)指 標 可 達 到 最 佳 分 群 效 果 。

2.3 基 因 演 算 法

(一) 基 因 演 算 法 基 本 理 論

1960 年,生物學家 Fraser A. S.提出了人為交換染色體 DNA 來刺激生物演 化的方法,因此成為發展基因演算法的靈感來源。基因演算法的概念是由 Holland 在 1975 年所提出來的,藉由自然界生物基因中 DNA 的編碼與繁殖的原理中得 到靈感,以模擬自然環境中的一些現象。其學者認為,無論是自然或人為的環境,

都可以將事物進行編碼,並藉由編碼的運算繁衍出「下一代」,並透過適應函數 的設計,選出較適應環境的「下一代」基因,繼續參與繁衍,透過此繁衍的過程 得到較適合環境的物種。

除了自然界生物基因學的研究之外,在經濟學、模式辨識以及函數最佳化等 等領域,都有類似基因工程的現象。也就是說,在自然環境與人造環境中,透過 基因演算法可以描述其中的現象,甚至預測某些為之的現象。

Holland 指出基因演算法的三個基本運算:「選擇」(Selection)、「交配」

(Crossover)以及「突變」(Mutation),這三個基本運算是基因演算法的核心部份,

藉由此三個運算的反覆操作,即可在搜尋空間中找到全域的最佳解。其基因演算 法的流程如圖 7 所示,詳述如下:

步驟一、染色體的編碼

根據問題的屬性加以編碼,即可稱為「染色體」(chromosome),以建立資料 結構,其目的在於將現實生活的問題解轉換成電腦可以處理的型態。目前最常見

(28)

碼的方式。編碼過後的位元組就相當是生物的染色體,每一個位元就是染色體中 的基因,一條染色體代表不同的解,我們可以根據面臨問題的屬性不同的染色體 編碼法,可以朝向問題導向的染色體編碼法,亦可朝向目的導向的染色體編碼法。

步驟二、適應函數

適應函數是用來度量染色體的優劣機制,透過染色體的解碼以後,經由研 究所設計的適應函數來計算此條染色體的適應函數值,由此適應函數值來決定此 條染色體在下一代的存活機率,由適應函數值的高低可以了解此染色體在此環境 中的適應程度,一條好的染色體其存活率就越高。

隨機產生 N 條染色

: : : : N

參數解碼 並計算適應函數值

是否滿足

終止條件 得到最佳解

根據適應函數值 進行複製 產生新的 N 條染色

: : : : N

(29)

步驟三、選擇

此步驟是仿效「適者生存」的現象,依據每一代染色體的存活機率來決定 此染色體在下一代中存活的個數。適應函數值較高的染色體會被優先選擇存活 到下一代,因此適應函數值高的染色體擁有的後代會較多,而適應函數值較低 的的染色體擁有的後代會逐漸減少,最終被淘汰。

步驟四、交配

將適應函數值較高的染色體進行交配(crossover)。交配法可以有「單點交 配法」(one-point crossover method)、「雙點交配法」(two-point crossover method), 以及「均勻交配法」(uniform crossover methods)等等。「單點交配法」是指選擇 染色體中的固定一個位置將串列截斷,進行雙親前後段基因的交換動作,所產生 結果。如下圖 8 所示:

圖 8、單點交配法表示圖

「雙點交配法」是指選擇染色體中的任意兩個位置被截斷,將被截斷的基因 編碼進行交換,所產生的結果。如圖 9 所示:

P1= 1 1 1 1 0 0 0 0 1 1 1 1 P2= 0 0 0 0 1 1 1 1 0 0 0 0

截斷點

S1= 1 1 1 1 0 0 0 0 0 0 0 0 S2= 0 0 0 0 1 1 1 1 1 1 1 1

截斷點

P1= 1 1 1 1 0 0 0 0 1 1 1 1 P2= 0 0 0 0 1 1 1 1 0 0 0 0

截斷點 2

S1= 1 1 1 1 1 1 1 1 1 1 1 1 S2= 0 0 0 0 0 0 0 0 0 0 0 0

截斷點 2

截斷點 1 截斷點 1

(30)

「均勻交配法」是指隨機產生一組染色體的編碼,也稱為「遮罩」,將此遮 罩對應到此兩條染色體,與此遮罩對應到「1」的基因部分,則必須作交換。如 圖 10 所示:

圖 10、均勻交配法表示圖 步驟五、突變

不以編碼的方式進行繁衍,而是以隨機的方式抽取染色體中的若干基因進行 突變(由 0 變成 1,由 1 變成 0)。突變的目的在於,利用隨機的方式改變基因,

以創造出未出現的染色體特徵,避免落入區域最佳解。如圖 11 所示:

圖 11、突變方式表示圖

(二) 基 因 演 算 法 的 特 性

在求解最佳化的問題上,基因演算法要比傳統最佳化的方法更具有強健性 (Goldberg, 1989),其特性如下:

(1) 跳脫搜尋空間的限制:基因演算法的繁衍流程是以編碼進行運算,並不是 參數本身,因此可以跳脫搜尋空間的限制。

P1= 1 1 1 1 0 0 0 0 1 1 1 1

P2= 0 0 0 0 1 1 1 1 0 0 0 0

S1= 0 0 1 1 1 1 0 0 1 1 0 0

S2= 1 1 0 0 0 0 1 1 0 0 1 1 遮罩= 1 1 0 0 1 1 0 0 0 0 1 1

P1= 1 1 1 1 0 0 0 0 1 1 1 1 S1= 1 0 1 1 0 0 0 1 1 1 1 1

(31)

空間上的多個點,而不是單一個點。在傳統上,許多的搜尋方法都是在搜 尋空間中的某一個點,並經由一些規則以遵循固定的軌道來運作,決定下 一個搜尋點該往哪一個方向移動。這樣子的方法較容易陷入區域的最佳 解,特別是針對多峰谷的函數,更容易造成錯誤的鋒值。

由於基因演算法的隨機以及適應的特性,可以針對整個搜尋空間做更 完整且徹底的勘察,以避免陷入區域最佳解。

(4) 機率規則:基因演算法是使用『機率規則』的方式來引導搜尋空間的方向,

並沒有很明確的規則,所以較能符合各種類型的最佳化問題。若整合基因 演算法與其它傳統的搜尋法,必定可以形成一個全域、穩健性、簡易性及 具有良好問題解決能力的工具。

(三) 基 因 演 算 法 (Genetic Algorithm)相 關 文 獻

應用基因演算法於資訊檢索領域,已有下列學者提出研究結論,如表 2 所 示:

表 2、基因演算法相關文獻整理

作 者 , 年 份 研 究 結 果

López-Pujalte, 2002

IR 系統中的關係度回饋受到關注。利用基因演算 法挑選自定的變數透過一個關係度回饋的評價方 法(Salton,1990),以有效的提升 IR 系統的關係度回 饋。

Trotman, 2003

假設所有的”詞(term)”發生的次數在給定的文件中 都相同,當詞出現在某一個文件的結構中時,應該 具有更高的影響力。例如,當一個詞出現在”摘要”

就應該比一個詞出現在”本文”更具有代表性。使用 基因演算法最佳化 Okapi BM25 ranking 文件結 構權重,詞代表文件的平均準確度提升 5%。

Gavrilis, 2006

將基因演算法應用在挑選垃圾郵件的特徵。在 15000 個特徵詞中選出 20 個特徵詞,過濾垃圾郵 件正確率達 96%~97%。

Liu, 2006

應用基因演算法於一個多文件自動摘要系統,以提 升摘要的品質。包含將主題(Topic)涵蓋範圍最大 化,及多餘的文句最小化。

(32)

第参章 研究方法

由 於 網 際 網 路 的 蓬 勃 發 展,讓 人 們 可 以 輕 易 的 取 得 充 裕 的 資 訊 , 再 加 上 電 腦 儲 存 媒 體 與 運 算 速 度 的 進 步,使 得 資 訊 的 擴 張 速 度 上 升 , 進 而 造 成 資 訊 過 載 ( infor mat io n over load)的 現 象 。 雖 然 人 們 可 以 透 過 網 際 網 路 快 速 的 檢 索 其 所 需 資 訊,不 過 使 用 者 仍 需 將 所 檢 索 到 的 文 件 一 一 過 濾 之 後,憑 藉 著 自 己 的 經 驗 與 認 知 來 決 定 該 文 件 是 否 為 合 適 的 資 訊,故 現 今 如 何 透 資 訊 科 技 的 技 術 來 進 行 文 件 的 管 理, 已 經 愈 來 愈 受 到 重 視 。

目 前 我 們 可 以 看 到 最 普 遍 的 文 件 管 理 方 式,即 是 透 過 人 工 的 方 式 將 文 件 進 行 分 類, 但 人 工 的 方 式 所 耗 費 的 資 源 是 很 龐 大 的,故 本 研 究 欲 建 立 自 動 化 的 文 件 分 類 與 漸 進 式 的 分 群,來 解 決 文 件 管 理 的 問 題 , 並 透 過 既 有 的 分 類 文 件 來 訓 練 既 有 類 別 的 文 件,以 應 付 大 量 不 斷 增 加 且 持 續 累 積 的 文 件。然 而,既 有 的 類 別 往 往 無 法 滿 足 大 量 新 進 的 文 件 內 容,故 本 研 究 針 對 此 議 題 加 以 探 討。 本 研 究 為 了 能 夠 判 斷 新 進 文 件 是 否 可 以 分 類 至 既 有 類 別,同 時 又 可 將 不 屬 於 既 有 類 別 的 文 件 進 行 分 群 的 處 理 , 找 出 不 屬 於 既 有 類 別 文 件 的 群 聚 架 構 , 以 增 加 新 的 類 別 。

我 們 結 合 了 基 因 演 算 法 與 支 持 向 量 機 來 挑 選 適 合 的 特 徵 詞 組 合 以 訓 練 既 有 類 別 的 GA-S VM 模 型 , 目 的 在 於 判 斷 新 進 文 件 是 否 可 分 類 至 既 有 類 別 ; 接 著 再 結 合 基 因 演 算 法 與 模 糊 分 群 演 算 法 來 進 行 分 群,目 的 在 於 將 未 分 類 至 既 有 類 別 的 新 進 文 件 予 以 分 群, 找 尋 其 最 佳 群 聚 架 構 。

本 研 究 的 研 究 架 構 包 括 四 個 部 份 , 分 別 為 文 件 前 置 處 理 、

(33)
(34)

3.1 文 件 前 置 處 理

本 研 究 的 文 件 集 可 分 為 兩 個 部 份,分 別 為 既 有 類 別 文 件 集 和 新 進 文 件 集,在 既 有 類 別 文 件 集 內 包 含 了 原 始 文 件 之 既 有 類 別 架 構, 而 新 進 文 件 集 除 了 包 含 部 份 既 有 類 別 的 文 件 外,額 外 包 含 了 不 屬 於 既 有 類 別 的 文 件 。

中 文 語 系 的 表 達 方 式 和 其 他 語 系 的 表 達 方 式 是 不 同 的,以 英 文 為 例:在 英 文 語 系 的 文 件 中,特 徵 詞 和 特 徵 詞 之 間 是 以 空 白 符 號 做 為 區 隔,但 在 中 文 語 系 文 件 的 特 徵 詞 之 間 並 沒 有 一 個 適 當 的 判 斷 方 法,若 要 辨 別 文 件 內 所 有 的 特 徵 詞,就 必 須 對 文 件 進 行 斷 詞 的 動 作。由 於 國 內 對 於 中 文 斷 詞 的 研 究 以 中 央 研 究 詞 庫 小 組 (Chinese Knowledge Info r mat io n Pro cess ing Gro up , C KIP) 建 構 的 中 文 斷 詞 系 統 較 具 代 表 性 , 因 此 我 們 採 用 中 央 研 究 院 詞 庫 小 組 所 提 供 的 CKIP 中 文 斷 詞 系 統 (http://ckipsvr.iis.sinica.edu.tw/) 來 處 理 本 研 究 的 訓 練 文 件 和 測 試 文 件 。 例 如 , 一 篇 屬 於 財 經 類 別 的 新 聞 標 題 :

『 併 購 王 子 ! 辜 仲 諒 揮 旗 中 信 金 欲 吃 10%兆 豐 金 』 經 過 斷 詞 處 理 後 , 此 篇 新 聞 之 標 題 為 :

『 併購(VC) 王子(Na) !(EXCLANATIONCATEGORY) 辜仲諒(Nb) 揮旗(Na) 中信金(Na) (FW) 欲(VK) 吃(VC) 10%(Neqa) 兆豐(Nb) 金(Na)』

斷 詞 程 序 除 了 將 這 些 字 串 進 行 分 隔 外,也 會 一 併 將 該 字 彙 之 詞 性 標 記 在 每 個 字 彙 之 後 (詳 見 附 錄 一 , 特 徵 詞 性 對 照 表 )。 由 於 篩 選 過 多 的 詞 性 容 易 影 響 分 類 的 成 效,故 我 們 僅 篩 選 出 名 詞 (Na)、專 有 名 詞 (Nb) 和 地 方 名 詞 (Nc)以 及 字 串 長 度 大 於 1 的 特 徵 詞,故 上 述 例 子 中 只 會 篩

(35)

以 找 出 較 適 合 的 特 徵 詞 組 合 來 訓 練 既 有 類 別 之 分 類 模 型,依 此 架 構 來 判 斷 新 進 文 件 是 否 可 分 類 至 既 有 類 別。然 而,為 了 有 效 的 尋 找 較 適 合 的 特 徵 詞 組 合,我 們 利 用 基 因 演 算 法 挑 選 重 要 的 特 徵 詞,依 據 所 挑 選 的 特 徵 詞 來 計 算 TFIDF 值 , 以 作 為 訓 練 文 件 的 基 底 並 建 立 文 件 之 向 量 , 將 所 得 到 的 文 件 向 量 做 為 支 持 向 量 機 的 輸 入 向 量 , 以 訓 練 G A-SVM 模 型。將 此 模 型 所 選 取 之 特 徵 詞 組 合 對 應 至 新 進 文 件,計 算 新 進 文 件 以 T FIDF 為 基 底 之 文 件 向 量 矩 陣 , 將 新 文 件 之 文 件 向 量 矩 陣 轉 換 為 支 持 向 量 機 格 式 並 輸 入 支 持 向 量 機 訓 練 模 型 進 行 分 類,若 有 新 進 文 件 無 法 分 類 至 既 有 類 別 時,則 將 無 法 分 類 至 既 有 類 別 之 文 件 擷 取 出 以 進 行 第 二 階 段 處 理,然 而 之 所 以 選 擇 基 因 演 算 法 是 因 為 它 可 以 有 效 率 的 廣 範 圍 搜 尋 問 題 之 最 佳 解,亦 可 降 低 在 搜 尋 的 過 程 中 得 到 局 部 最 佳 解 的 機 率。因 此 本 研 究 希 望 能 藉 由 基 因 演 算 法 的 特 性 來 找 出 最 具 代 表 性 的 特 徵 詞 來 優 化 支 持 向 量 機 的 模 型 , 以 下 將 分 別 針 對 G A-SVM 分 類 器 執 行 細 節 做 介 紹 。

(一 )擷 取 特 徵 詞

特 徵 詞 的 擷 取 在 文 件 分 類 的 議 題 上 一 直 是 個 重 要 的 課 題,要 如 何 在 龐 大 的 文 件 中 找 出 最 適 合 且 最 具 辨 別 力 的 特 徵 詞 是 很 不 容 易 的,若 特 徵 詞 太 少,則 可 能 某 些 文 件 所 包 含 的 特 徵 詞 太 少 而 無 法 辨 識 類 別 中 的 文 件 ; 若 特 徵 詞 太 多 , 則 會 大 幅 增 加 文 件 所 包 含 的 特 徵 詞 , 導 致 訓 練 的 時 間 複 雜 度 提 高 且 容 易 受 到 雜 訊 的 影 響,進 而 影 響 到 分 類 的 準 確 率 。

現 今 對 於 一 個 特 徵 詞 是 否 能 夠 成 為 候 選 特 徵 詞 的 評 估 方 法 有 許 多 種 方 法,例 如:資 訊 獲 利 (Infor mat io n Gain)、卡 方 檢 定 (chi- square)、

交 互 資 訊 ( Mut ual infor mat io n)、特 徵 詞 強 度 (Ter m st rengt h)和 文 件 頻 率 (Do cu me nt fr eque nc y)。 而 學 者 Ya ng 與 Peders e n(1997) 曾 針 對 以 上 五 種 方 法 進 行 比 較,發 現 使 用 資 訊 獲 利 或 卡 方 檢 定 的 方 法 來 擷 取 特 徵 詞 能 夠 提 供 較 好 的 分 類 品 質 , 但 Hwee 等 人 (1997)的 研 究 顯 示 , 卡 方 檢

(36)

詞 , 如 此 文 件 分 類 的 效 果 將 會 降 低 , 而 在 Wang(2007) 的 研 究 中 提 到 使 用 資 訊 獲 利 或 卡 方 檢 定 的 方 式 來 擷 取 特 徵 詞,對 於 多 分 類 的 成 效 並 不 會 有 顯 著 的 效 果,因 此 Chou 等 人 (Cho u, 2007)使 用 了 四 項 函 數 來 做 為 評 估 特 徵 詞 的 依 據 亦 有 不 錯 的 分 類 效 果 。

本 研 究 使 用 Chou 所 使 用 的 四 項 函 數 做 為 挑 選 特 徵 詞 之 依 據 , 分 別 為 特 徵 詞 頻 率 (Ter m fr equency)、 文 件 頻 率 (Document frequency) 、 廣 度 (Unifor mit y)和 集 中 度 (Co nfor mit y) , 其 說 明 如 下 :

1. 特 徵 詞 頻 率 (Term Frequency)

特 徵 詞 頻 率 代 表 特 徵 詞 i出 現 在 Cj類 別 內 的 特 徵 詞 出 現 次 數 機 率 , 其 公 式 如 下 :

ij

ij J

ij j 1

TF T F

T F

ij

ij I

ij i 1

T F t

t

其中,

i: 代表特徵詞 j : 代表類別Cj

tij: 特徵詞iCj類別內的出現次數 T Fij: 特徵詞iCj類別內的出現機率

若 一 個 特 徵 詞iCj類 別 內 的 出 現 次 數 大 於 其 它 類 別 的 出 現 次 數 時,則 所 算 出 來 的 特 徵 詞 頻 率 就 會 愈 大,此 特 徵 詞i能 代 表 該 類 別Cj

(37)

ij

ij J

ij j 1

DF DF

DF

ij ij

j

DF l

l 其中,

lij: 包含特徵詞i的文件在Cj類別的出現次數 DFij: 包含特徵詞i的文件在Cj類別內的出現機率

若 特 徵 詞i出 現 在 Cj類 別 中 的 文 件 篇 數 大 於 其 它 類 別 文 件 篇 數 時 , 特 徵 詞i愈 能 代 表Cj類 別 。

3. 廣 度 (Uniformity)

廣度代 表 特 徵 詞 iCj類 別 的 所 有 文 件 內 的 出 現 機 率 可 其 公 式 如 下 :

log

lj

ij ik ik

k 1

U q q

 

j

ik

ik l

ik k 1

q tf

tf

其中,

k: 代表文件

lj: 在Cj類別內的文件總數

tf : 特徵詞ik i在第k篇文件內的出現次數 q : 特徵詞ik i平均在第k篇文件內的出現機率

若 特 徵 詞i出 現 在 Cj類 別 文 件 內 的 出 現 次 數 大 於 其 它 特 徵 詞 在 Cj 類 別 文 件 內 的 出 現 次 數 , 則 所 計 算 出 來 的 廣 度 就 愈 大 , 此 特 徵 詞i比 其 它 特 徵 詞 更 能 代 表 這 一 類 別 。

4. 集 中 度 (C onfor mity)

(38)

集中度代 表 特 徵 詞i出 現 在 所 有 類 別 的 機 率 , 公 式 如 下 所 示 :

log

J

i ij ij

j 1

CF d d

 

ij

ij J

ij j 1

d l

l

其中,

dij: 包含特徵詞i的文件l在 j 類別出現的機率

當 特 徵 詞i出 現 在 所 有 類 別 時CF 值 將 會 是 一 個 較 大 值,相 反 的 當i i只 出 現 在 單 一 類 別 時CF 值 將 會 是 0, 所 以i CF 愈 小 代 表 特 徵 詞i i愈 能 代 表 該 類 別 。

(二 )以 支 持 向 量 機 進 行 分 類 器 訓 練

每 一 個 特 徵 詞 將 可 獲 得 四 組 門 檻 數 值,我 們 取 出 符 合 四 項 門 檻 值 之 特 徵 詞 , 作 為 訓 練 文 件 的 基 底 , 接 著 計 算 所 擷 取 特 徵 詞 之 T FIDF 值,為 每 一 篇 文 件 建 立 文 件 向 量,以 作 為 支 持 向 量 機 的 輸 入 向 量 來 訓 練 分 類 器 。

1. 模 型 參 數 選 擇

在 本 研 究 中 是 使 用 台 灣 大 學 資 工 系 林 智 仁 教 授 所 開 發 的 LIBSVM(Chang, C., Lin, C.,2001)來進行文件分類,原因在於 LIBSVM 提供多種 參數的設定、四種核心函數、四種分類器以及參數搜尋工具,可讓使用者能夠依 問題需求自行調整參數,以提升分類的效能,然 而 文 件 分 類 大 多 屬 於 多 分 類

參考文獻

相關文件

FIGURE 5. Item fit p-values based on equivalence classes when the 2LC model is fit to mixed-number data... Item fit plots when the 2LC model is fitted to the mixed-number

Section 3 is devoted to developing proximal point method to solve the monotone second-order cone complementarity problem with a practical approximation criterion based on a new

Hence on occupation category, total manpower requirement for managers and administrators, professionals and associate professionals taken together is projected to grow at an

It is based on the goals of senior secondary education and on other official documents related to the curriculum and assessment reform since 2000, including

Keywords: pattern classification, FRBCS, fuzzy GBML, fuzzy model, genetic algorithm... 第一章

Core vector machines: Fast SVM training on very large data sets. Using the Nystr¨ om method to speed up

For your reference, the following shows an alternative proof that is based on a combinatorial method... For each x ∈ S, we show that x contributes the same count to each side of

Finally, the Delphi method is used to verify and finalize the assessing framework.. Furthermore, the AHP method is used to determine the relative weights of factors in the