• 沒有找到結果。

第六章 實驗結果與討論

6.3 實驗

6.3.3 行分群實驗

立 政 治 大 學

Na tiona

l Ch engchi University

78

圖 39MSRIICC 列分群數 20、24 結果

列分群實驗中,我們以 MSRIICC 去進行的實驗總共有三種,一是行分群數固 定時,列分群數不固定的比較實驗;二是行與列分群數皆固定的情況下,每次執 行演算法的結果比較;三是列分群數固定時,行分群數不固定的比較實驗。

以結果來看,我們發現列分群在分群數漸漸變高後會有較佳的效果,而行分 群數對於列分群整體的結果影響並不大。另外,我們也透過結果圖證實了鑑別率 與凝聚率的確能有效幫助我們分析分群結果。在接下來的 5.4 節實驗結果,我們 將會把列分群的分群結果進行分析,並講述我們所發現的結果。

6.3.3 行分群實驗

我們依據 5.3.1 的結果,選用 MSRICC 作為行分群實驗的雙分群演算法。從 5.3.2 的列分群實驗已得知,在相同分群數上作多次實驗會有不同的結果。因此在此小 節行分群實驗上,我們只針對行分群做兩部分實驗,一是行分群數固定時,列分 群數不固定的比較;二是列分群數固定時,行分群數不固定的比較。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

79

從結果來看,我們發現列分群數對於行分群結果的影響不大,如圖 40,不 論是在鑑別率還是凝聚率上,差異都不是很大。

圖 40MSRICC 行分群數 4 結果

接下來我們便針對行分群數來進行實驗。行分群實驗的行分群數從 4 開始,

逐一增加,且每一個行分群數我們都會做多組實驗,取出其中較佳的結果來進行 觀察。從結果中發現,行分群數增加至 9 之後,鑑別率與凝聚率的總和會漸漸降 低,也就是說,當行分群數過高,分群的效果會越來越差。

我們做了行分群數 4 至行分群 15 的實驗,如圖 41,從圖表上可以看到,從 行分群數 9 之後鑑別率開始下降,下降原因在於在分佈圖右邊的群數眾多,且各 群的重疊情況較為嚴重所導致。而凝聚率的部分則反而升高,凝聚率上升的原因 在於行分群的資料範圍較大,當分群數較小時,雖然分群結果在分佈圖上看起來 十分良好,但是資料點與點之間距離較遠,凝聚率計算起來就會較低,反觀當分 群數較高時,因為群數眾多,右方資料點又密集,導致右方群中點與點之間距離 較近,凝聚率都很高,加總平均起來便會超越分群數較小的結果,但實際上的分 群結果卻不一定優於分群數小的。因此在行分群數 9 之後,鑑別率開始降低的分 群結果,我們將其視為較不佳的結果。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

80

圖 41MSRICC 行分群 4 到 15 結果

接著,我們也透過輸出圖去觀察,比較了行分群數 4 與行分群數 10 的分佈 圖,圖 42、圖 43 為行分群數 4 的分佈結果,圖 42 中最外圍有六個紅點,屬於 分群 1,接著在圖 43 可以看到,其他的資料點都分佈於 X 範圍(-4,0.5)之間,

且分群的結果還算不錯。

圖 42MSRICC 行分群數 4 分佈結果圖 1

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

81

圖 43MSRICC 行分群數 4 分佈結果圖 2

圖 44 到圖 46,為行分群 10 的結果,每一次的行分群結果,外圍的五個資 料點大多會被分成一個群或是兩個群,接著看圖 45,可發現群 10 與群 2 之間有 稍微的重疊,比起群 4 結果要來得不佳,再看圖 46,我們發現的確在行分群數 增加後,分佈圖密集處的分群會變得雜亂,且各群皆有重疊的情況產生。

圖 44MSRICC 行分群數 10 分佈結果圖 1

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

82

圖 45MSRICC 行分群數 10 分佈結果圖 2

圖 46 MSRICC 行分群數 10 分佈結果圖 3

最後統整一下我們觀察整個分佈圖的情況,如圖 44,行分群點的分佈範圍 X 的範圍是(-66,2),Y 的範圍則是(-22,35)。在較左邊的地方,資料點較少且 散 得 很 開 , 通 常 分 群 結 果 都 不 差 , 而 越 往 右 邊 , 如 圖 46 , 約 在 X 軸 的

(-0.02,0.06),資料點多且密集,但各群的重疊情況則較嚴重。

在接下來的 5.4 節實驗結果,我們會將字串與出現次數輸出比較,並且統整 出結果。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

83