• 沒有找到結果。

實驗評估與討論

在文檔中 中 華 大 學 (頁 50-59)

為 了 探 討 本 研 究 所 提 出 之 方 法 可 以 有 效 的 提 升 分 類 與 分 群 的 效 能,故 我 們 的 實 驗 將 以 Macro -average 和 Micro -average 來 評 估 其 有 效 性,而 此 部 份 也 將 介 紹 實 驗 的 內 部 參 數 設 定、效 能 評 估 並 針 對 實 驗 結 果 進 行 分 析 。

1. 實 驗 一 : 探 討 基 因 演 算 法 為 基 礎 之 分 類 器 效 能

在 實 驗 一 我 們 將 使 用 現 今 較 多 人 使 用 的 分 類 方 法 作 比 較 , 例 如 : 支 持 向 量 機 、 類 神 經 網 路 (Neural net work)、和 最 近 K 鄰 居 法 ( K nearest neighbors)來 比 較 分 類 器 的 效 能 是 否 有 所 不 同 。

而 在 基 因 演 算 法 與 支 持 向 量 機 的 參 數 設 定 如 表 5 所 示 , 其 中 ,染 色體包含四項資訊 , 分別為 特 徵 詞 頻 率 ( Term fr equency) 、 文 件 頻 率 (Do cu me nt frequ e nc y)、廣 度 (U n ifo r mit y) 和 集 中 度 ( Co nfo r mit y)四 項 門

表 5、 實 驗 一 之 參 數 設 定 參 數 設 定 值

基 因 演 算 法

演化世代:100 交配率:1 突變率:0.01 染色體長度:32bit 母體:20

支 持 向 量 機 分 類 模 型 : C-SVC 核 函 數 : S ig mo id

表 6、 分 類 至 既 有 類 別 分 類 效 能 (Macro- average)

結合基因演算法 非結合基因演算法

分類器模型 精 確 率 召回率 F-measure 精 確 率 召回率 F-measure SVM(一對一) 0.852 0.869 0.86 0.623 0.878 0.729 SVM(一對多) 0.643 0.96 0.77 0.61 0.894 0.725 NN 0.476 0.934 0.631 0.247 0.505 0.332 KNN 0.491 0.976 0.654 0.443 0.931 0.6

表 7、 分 類 至 既 有 類 別 分 類 效 能 (Micro-average)

結合基因演算法 非結合基因演算法

分類器模型 精 確 率 召回率 F-measure 精 確 率 召回率 F-measure SVM(一對一) 0.846 0.875 0.86 0.586 0.875 0.702 SVM(一對多) 0.642 0.958 0.769 0.569 0.891 0.694 NN 0.476 0.933 0.63 0.243 0.5 0.327 KNN 0.489 0.975 0.651 0.432 0.933 0.591

表 6 與 7 分 別 代 表 的 是 分 類 器 將 測 試 文 件 分 類 至 既 有 類 別 的 Macro -a verage 和 M icro -averag e, 而 表 8 代 表 的 是 分 類 器 將 測 試 文 件 內 所 包 含 非 既 有 類 別 的 文 件 分 類 至 不 屬 於 既 有 類 別 的 精 確 率

(Precision)、 召 回 率 (Recall)和 F- me as ure 值 。

看 出,其 它 演 算 法 雖 然 在 召 回 率 上 部 份 高 於 支 持 向 量 機 分 類 器, 但 支 持 向 量 機 分 類 器 之 精 確 率 卻 較 其 它 演 算 法 高 出 許 多。精 確 率 低 代 表 每 個 類 別 的 分 類 結 果 中 包 含 過 多 不 屬 於 此 類 別 的 文 件。由 表 8 可 以 看 出 各 種 分 類 器 對 於 辯 識 非 既 有 類 別 的 效 能 中 KNN 的 效 能 是 最 差 的 , 因 為 KNN 必 須 利 用 相 似 度 來 判 別 文 件 是 否 屬 於 該 類 別 , 但 本 研 究 是 利 用 自 行 建 立 的 文 件 來 代 表 新 的 類 別,而 自 行 建 立 的 文 件 都 是 以 0 為 基 底 的 文 件 向 量,所 以 若 文 件 彼 此 都 是 以 0 的 向 量 來 做 為 基 底 計 算 相 似 度 時 , 和 新 類 別 的 相 似 度 將 會 是 0, 故 文 件 將 會 很 容 易 的 分 類 到 既 有 類 別 中 , 而 不 會 分 類 至 新 類 別 中 。

在 不 結 合 基 因 演 算 法 的 情 況 下,使 用 支 持 向 量 機 可 以 有 效 的 辨 識 出 不 屬 於 既 有 類 別 的 文 件,且 結 合 基 因 演 算 法 之 分 類 器 不 論 是 在 分 類 的 精 確 率 以 及 召 回 率 部 份 皆 優 於 使 用 原 始 分 類 器 的 效 能,表 示 結 合 基 因 演 算 法 挑 選 特 徵 詞 可 以 有 效 優 化 分 類 器 的 效 能 , 其 分 類 結 果 如 表 9 所 示 。 於 GA-SVM 模 型 中 , 使 用 基 因 演 算 法 所 挑 選 之 門 檻 為 Ter m frequ e nc y > 0.0806 262 a nd Do cu me nt frequ e nc y > 0.2015 656 a nd Unifo r mit y > 0.4559687 a nd Co nfo r mit y < 0.1037182 , 共 挑 選 出 14 45 個 特 徵 詞 , 表 10 為 部 份 挑 選 之 特 徵 詞 。

表 8、 分 類 至 ”非 ”既 有 類 別 分 類 效 能

結合基因演算法 非結合基因演算法

分類器模型 精 確 率 召回率 F-measure 精 確 率 召回率 F-measure SVM(一對一) 0.896 0.87 0.883 0.862 0.496 0.63 SVM(一對多) 0.949 0.539 0.688 0.885 0.446 0.593

NN 1 0.172 0.294 0.846 0.079 0.144

表 9、 結 合 基 因 演 算 法 與 支 持 向 量 機 分 類 結 果 預測為該類別文件

實際類別文件

社 會 健康 國際 非既有類別 Tot a l

社 會 36 0 0 6 42

健康 1 42 0 2 45

國際 0 0 27 6 33

非既有類別 8 7 3 121 139

Total 45 49 30 135 259

2. 實 驗 二 : 探 討 不 同 分 群 演 算 法 之 分 群 效 能

實 驗 二 我 們 將 評 估 結 合 基 因 演 算 法 之 模 糊 分 群 演 算 法 相 對 於 原 始 模 糊 分 群 演 算 法 是 否 可 以 有 效 提 升 分 群 效 能,並 探 討 不 同 的 分 群 數 目 下,對 分 群 的 效 能 是 否 有 顯 著 影 響, 而 在 基 因 演 算 法 的 參 數 設 定 如 表 11 所 示 , 另 外 , 實 驗 二 亦 會 對 現 今 較 普 及 的 分 群 方 法 作 比 較 , 例 如 : K 平 均 法 ( K- mean) 、 平 均 鏈 結 法 ( Average- link) 和 單 一 鏈 結 法 (S ing le- link) , 來 比 較 不 同 方 法 之 間 的 分 群 效 能 是 否 有 所 不 同 , 如 表 12、 13 所 示 。

由 表 12 可 以 看 出 , 在 模 糊 分 群 結 合 基 因 演 算 法 後 , 其 精 確 率 、 召 回 率 及 F- measure 皆 有 明 顯 的 提 高 , 在 分 群 數 目 的 分 析 上 亦 可 發 現 到 , 在 群 聚 數 目 定 義 為 3 群 時 , 分 群 效 能 在 2 至 8 群 內 擁 有 最 高 的 F- me a nsur e, 因 此 我 們 可 以 藉 由 此 結 果 明 顯 觀 察 到 這 些 無 法 分 類 至 既 有 類 別 的 文 件 經 過 GA- FCM 的 分 群 後 , 可 以 有 效 的 辨 識 出 這 些 文 件 的 群 聚 架 構,故 可 將 其 群 聚 架 構 新 增 至 既 有 類 別 架 構 中, 以 應 付 未 來 可 能 無 法 分 類 至 既 有 類 別 之 文 件 。

我 們 也 針 對 相 同 的 文 件,以 分 3 群 為 標 的 對 一 些 常 見 的 分 群 演 算 法 進 行 比 較,由 表 13 可 以 得 知,在 相 同 文 件 的 情 況 下,使 用 GA- FCM 的 分 群 效 能 明 顯 的 高 於 其 他 分 群 方 法 。

由 上 述 結 果 可 以 發 現,在 使 用 結 合 基 因 演 算 法 與 模 糊 分 群 演 法 的 情 況 下,可 以 有 效 的 對 非 既 有 類 別 的 文 件 進 行 分 群 處 理, 而 本 研 究 在 分 群 結 束 後 , 將 會 取 出 各 群 聚 所 包 含 較 高 TFIDF 值 排 名 前 30 名 的 特

表 10、 經 由 基 因 演 算 法 之 門 檻 所 挑 選 之 部 份 特 徵 詞 表

編 號 特 徵 詞 編 號 特 徵 詞 編 號 特 徵 詞 編 號 特 徵 詞 1 一 氧 化 碳 31 青 少 年 61 限 度 91 氣 色 2 大 使 館 32 信 眾 62 面 色 92 氣 味 3 工 藝 33 保 障 63 面 霜 93 氣 喘 4 內 科 34 前 科 64 風 情 94 氨 基 酸 5 天 份 35 厚 度 65 飛 彈 95 消 防 車 6 水 平 36 客 家 66 食 物 96 海 巡 署 7 丘 疹 37 建 築 67 食 補 97 海 洛 因 8 可 樂 38 指 紋 68 食 譜 98 海 參 9 四 肢 39 毒 品 69 首 相 99 海 帶 10 生 物 學 40 流 感 70 香 火 100 特 異 性 11 皮 膚 癌 41 活 動 量 71 香 油 101 班 機 12 寺 廟 42 炸 彈 客 72 香 精 102 病 史 13 米 酒 43 疤 痕 73 原 子 能 103 病 症 14 作 品 44 砂 糖 74 原 味 104 症 狀 15 冷 氣 45 紅 毛 港 75 員 警 105 疼 痛 16 杏 仁 46 紅 血 球 76 埔 里 106 真 皮 17 車 牌 47 約 旦 77 家 戶 107 真 皮 層 18 味 精 48 美 軍 78 容 量 108 神 社 19 武 器 49 耶 路 撒 冷 79 展 覽 館 109 秘 方 20 空 調 50 胃 炎 80 弱 視 110 粉 末 21 泡 澡 51 背 部 81 挪 威 111 粉 刺 22 物 質 52 胡 椒 粉 82 料 理 112 胰 島 素 23 社 群 53 胎 兒 83 旅 遊 局 113 胸 腔 24 空 腹 54 胞 弟 84 時 節 114 脈 衝 光 25 肺 氣 55 英 格 蘭 85 書 記 官 115 財 物

表 11、 實 驗 二 之 參 數 設 定 參 數 設 定 值

基 因 演 算 法

演化世代:100 交配率:1 突變率:0.01

染色體長度:(n*m)bit 母體:20

模 糊 分 群

收 斂 門 檻 : 0.001 指數權重:2

最小執行群數:2 最大執行群數:8

* n 為文件總數目,m 為此次分群欲執行之群數

表 12、 結 合 基 因 演 算 法 之 模 糊 分 群 效 能 比 較 GA-FCM algorithm FCM algorithm 分群數目

精 確 率 召回率 F-measure 精 確 率 召回率 F-measure 2 0.473 0.581 0.522 0.357 0.547 0.432 3 0.844 0.833 0.839 0.674 0.682 0.678 4 0.804 0.581 0.674 0.495 0.386 0.434 5 0.616 0.461 0.527 0.73 0.45 0.557 6 0.666 0.372 0.477 0.705 0.366 0.482 7 0.851 0.352 0.498 0.667 0.308 0.422 8 0.733 0.196 0.31 0.192 0.303 0.235 Average 0.712 0.482 0.549 0.545 0.434 0.462

表 13、 其 他 分 群 演 算 法 效 能 比 較

分群演算法 精 確 率 召回率 F-measure GA-FCM 0.844 0.833 0.839

K-means 0.681 0.434 0.53 Average-link 0.624 0.304 0.408

Single-link 0.624 0.304 0.408

表 14、 各 群 聚 較 高 TFIDF 值 排 名 前 30 名 特 徵 詞

財 經 影 視 體 育

1 印度 音樂 海斯

2 租稅 奧斯卡 阿根廷

3 利率 庹宗康 跳台

4 海洋 憲哥 土耳其

5 央行 霍元甲 葛瑞斯基

6 貿易 中國 安迪威廉斯

7 金價 李宇春 牛肉

8 大陸 哥哥 慕尼黑

9 產品 倪雅倫 蹄疫

10 大學 偽鈔 王力宏

11 稅負 桃花 隆德

12 主燈 小金人 大戰

13 油氣 宋祖德 普魯申科

14 所得稅 小美 小羅納度

15 彰銀 斷背山 朱貝爾

16 牛肉 朋友 義國

17 期貨 徐若瑄 花式

18 兆豐金 學生 科學

19 金控 文根英 巴頓

20 太陽 朴善英 聖火

21 公股 煙花 雪車

22 農產品 蘇慧倫 疫情

23 零組件 華納 加拿大

24 扶輪社 布蘭妮 禁藥

25 研究 瞿友寧 運動

26 技術 陳慧琳 巨人

類 別 排 名

在 表 14 可 以 觀 察 到 , 由 各 類 別 排 名 前 5 名 之 特 徵 詞 可 以 大 概 瞭 解 該 群 聚 所 代 表 的 類 別, 例 如 和 財 經 方 面 相 關 的 特 徵 詞 有 租 稅、 利 率 和 央 行 , 影 視 方 面 相 關 的 特 徵 詞 有 奧 斯 卡 、 庹 宗 康 、 憲 哥 , 而 體 育 方 面 相 關 的 特 徵 詞 有 海 斯 ( 雪 車 運 動 選 手 ) 和 葛 瑞 斯 基 ( 冰 上 曲 棍 球 選 手 )。

3. 實 驗 三 : 探 討 結 合 不 同 分 類 與 分 群 之 漸 進 式 分 群 模 型

在 實 驗 一 和 實 驗 二 中 可 以 得 知,在 分 類 及 分 群 階 段 使 用 基 因 演 算 法 的 情 況 下 可 以 得 到 較 佳 的 效 能 , 且 在 分 群 階 段 之 群 聚 數 設 定 為 3 時 , 其 分 群 的 效 能 可 以 達 到 最 高 , 故 在 分 群 的 部 份 是 以 群 聚 設 定 為 3 進 行 分 群 處 理,之 後 再 為 整 體 分 類 及 分 群 方 法 進 行 整 合 性 的 評 估,以 找 出 較 好 的 搭 配 組 合 , 如 表 15 所 示 :

表 15、 整 體 分 類 與 分 群 搭 配 效 能

分類器 分群演算法 精 確 率 召回率 F-measure GA-FCM 0.863 0.86 0.861

K-means 0.809 0.77 0.789 Average-link 0.808 0.728 0.766 GA-SVM

(一對一)

Single-link 0.808 0.728 0.766 GA-FCM 0.68 0.791 0.732 K-means 0.57 0.783 0.659 Average-link 0.611 0.781 0.686 GA-SVM

(一對多)

Single-link 0.611 0.781 0.686 GA-FCM 0.555 0.73 0.63

K-means 0.584 0.728 0.648 Average-link 0.593 0.733 0.656 GA-NN

Single-link 0.593 0.733 0.656 GA-FCM 0.368 0.732 0.49

K-means 0.368 0.732 0.49 Average-link 0.368 0.732 0.49 GA-KNN

Single-link 0.368 0.732 0.49

由 表 15 的 結 果 可 以 看 出 , 在 GA- KNN 部 份 , 由 於 KNN 在 分 類 階 段 時 無 法 有 效 的 將 不 屬 於 既 有 類 別 之 文 件 進 行 分 類,故 不 會 進 行 分

更 有 效 的 將 新 進 文 件 分 類 至 既 有 類 別; 同 時,也 可 以 更 有 效 辨 別 出 不 屬 於 既 有 類 別 的 文 件 , 並 產 生 新 的 類 別 架 構 加 入 既 有 類 別 中 。

第伍章 結論與未來展望

在文檔中 中 華 大 學 (頁 50-59)

相關文件