第六章 實驗結果與討論
6.3 實驗
6.3.3 行分群實驗
國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
78
圖 39MSRIICC 列分群數 20、24 結果
列分群實驗中,我們以 MSRIICC 去進行的實驗總共有三種,一是行分群數固 定時,列分群數不固定的比較實驗;二是行與列分群數皆固定的情況下,每次執 行演算法的結果比較;三是列分群數固定時,行分群數不固定的比較實驗。
以結果來看,我們發現列分群在分群數漸漸變高後會有較佳的效果,而行分 群數對於列分群整體的結果影響並不大。另外,我們也透過結果圖證實了鑑別率 與凝聚率的確能有效幫助我們分析分群結果。在接下來的 5.4 節實驗結果,我們 將會把列分群的分群結果進行分析,並講述我們所發現的結果。
6.3.3 行分群實驗
我們依據 5.3.1 的結果,選用 MSRICC 作為行分群實驗的雙分群演算法。從 5.3.2 的列分群實驗已得知,在相同分群數上作多次實驗會有不同的結果。因此在此小 節行分群實驗上,我們只針對行分群做兩部分實驗,一是行分群數固定時,列分 群數不固定的比較;二是列分群數固定時,行分群數不固定的比較。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
79
從結果來看,我們發現列分群數對於行分群結果的影響不大,如圖 40,不 論是在鑑別率還是凝聚率上,差異都不是很大。
圖 40MSRICC 行分群數 4 結果
接下來我們便針對行分群數來進行實驗。行分群實驗的行分群數從 4 開始,
逐一增加,且每一個行分群數我們都會做多組實驗,取出其中較佳的結果來進行 觀察。從結果中發現,行分群數增加至 9 之後,鑑別率與凝聚率的總和會漸漸降 低,也就是說,當行分群數過高,分群的效果會越來越差。
我們做了行分群數 4 至行分群 15 的實驗,如圖 41,從圖表上可以看到,從 行分群數 9 之後鑑別率開始下降,下降原因在於在分佈圖右邊的群數眾多,且各 群的重疊情況較為嚴重所導致。而凝聚率的部分則反而升高,凝聚率上升的原因 在於行分群的資料範圍較大,當分群數較小時,雖然分群結果在分佈圖上看起來 十分良好,但是資料點與點之間距離較遠,凝聚率計算起來就會較低,反觀當分 群數較高時,因為群數眾多,右方資料點又密集,導致右方群中點與點之間距離 較近,凝聚率都很高,加總平均起來便會超越分群數較小的結果,但實際上的分 群結果卻不一定優於分群數小的。因此在行分群數 9 之後,鑑別率開始降低的分 群結果,我們將其視為較不佳的結果。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
80
圖 41MSRICC 行分群 4 到 15 結果
接著,我們也透過輸出圖去觀察,比較了行分群數 4 與行分群數 10 的分佈 圖,圖 42、圖 43 為行分群數 4 的分佈結果,圖 42 中最外圍有六個紅點,屬於 分群 1,接著在圖 43 可以看到,其他的資料點都分佈於 X 範圍(-4,0.5)之間,
且分群的結果還算不錯。
圖 42MSRICC 行分群數 4 分佈結果圖 1
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
81
圖 43MSRICC 行分群數 4 分佈結果圖 2
圖 44 到圖 46,為行分群 10 的結果,每一次的行分群結果,外圍的五個資 料點大多會被分成一個群或是兩個群,接著看圖 45,可發現群 10 與群 2 之間有 稍微的重疊,比起群 4 結果要來得不佳,再看圖 46,我們發現的確在行分群數 增加後,分佈圖密集處的分群會變得雜亂,且各群皆有重疊的情況產生。
圖 44MSRICC 行分群數 10 分佈結果圖 1
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
82
圖 45MSRICC 行分群數 10 分佈結果圖 2
圖 46 MSRICC 行分群數 10 分佈結果圖 3
最後統整一下我們觀察整個分佈圖的情況,如圖 44,行分群點的分佈範圍 X 的範圍是(-66,2),Y 的範圍則是(-22,35)。在較左邊的地方,資料點較少且 散 得 很 開 , 通 常 分 群 結 果 都 不 差 , 而 越 往 右 邊 , 如 圖 46 , 約 在 X 軸 的
(-0.02,0.06),資料點多且密集,但各群的重疊情況則較嚴重。
在接下來的 5.4 節實驗結果,我們會將字串與出現次數輸出比較,並且統整 出結果。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
83