• 沒有找到結果。

第六章 實驗結果與討論

6.3 實驗

6.3.4 與其他方法比較

立 政 治 大 學

Na tiona

l Ch engchi University

83

6.3.4 與其他方法比較

選出列、行最佳的分群結果後,我們也嘗試以其他的方法來與本研究使用的方法 做比較,在此小節會做四種實驗,分別是「Jieba 中文斷詞系統在擴充詞彙前後,

對分群結果的影響」、「僅擷取貼文部分關鍵詞與擷取所有詞彙的結果比較」、「比 較 K-means 分群演算法與雙分群演算法的結果」、「Boolean 資料矩陣與一般資料 矩陣的結果比較」。

1. Jieba 中文斷詞系統擴充詞彙前後結果比較:

參考了[42]與[43]對於背景知識與斷詞正確性的建議,為了提昇斷詞系統的 準確率,抓取了 KKBOX 排行榜的資料來進行擴充詞彙,在本實驗上針對了擴充詞 彙前後進行的比較,在斷詞系統擴充前詞彙的數量是 30415,進行完擴充後,抓 取到的詞彙是 29825。將擴充詞彙前的資料亦按照前面的方式製作成詞彙與貼文 交叉的資料矩陣,接著輸出成 CCS 的格式進行分群,另外也對此資料矩陣進行降 維,輸出 PCA 的分佈圖來觀察。在這部分的實驗室是以最佳的列分群結果「分群 數 24」的實驗結果與其進行比對。

圖 47 未擴充詞彙的分群結果圖

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

84

圖 48 擴充詞彙後的分群結果圖

上圖 47、48 皆為分群數 24 的結果圖,從以上兩圖無法仔細觀察出各群的分 群優劣,因此接下來針對了此兩實驗去計算凝聚率與鑑別率。從圖 49 可以看出 兩者之間有著些微的差距,但擴充後的分群結果確實要比擴充前要來得好。

圖 49 Jieba 擴充前後分群結果之比較

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

85

2. 擷取部分關鍵字與擷取所有詞彙結果比較:

本研究考量[29][38]提及文章過於簡短問題以及[42][43]對於僅抓取關鍵詞 彙恐遺漏字詞之間的關係,因此選擇擷取所有詞彙並將所有詞彙視為等值去進行 雙分群計算。此實驗目的在於測試,假若以部分關鍵字作為資料去進行分群,與 本研究之結果相比會是如何。此實驗以 TextRank[26]演算法的方式來計算並抓 取出貼文中的關鍵字,TextRank 是參考佩奇排名(PageRank)概念所延伸出來 的演算法,透過 TextRank 擷取到的關鍵字詞的總數為 9129,數量比本研究所使 用的詞彙少了將近兩萬,接著同樣將字串與貼文整合製作成資料矩陣,並且依據 列分群數 24 進行分群。

圖 50 利用關鍵字擷取資料之雙分群結果

圖 50 為透過 PCA 所輸出的結果,可發現與圖 47、48 相比差距很大,且分群 結果雜亂,另外凝聚率與鑑別率的計算上,與原先實驗結果相比也有差距,尤其 是在鑑別率的部分差距,在先前的實驗中有提及,鑑別率是兩群之間差別的依據,

而關鍵詞擷取的方法鑑別率僅有 0.06 左右,代表分群結果不慎理想,如圖 51。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

86

圖 51 以關鍵字詞進行分群與原分群結果之比較 3. K-means 分群演算法與雙分群演算法結果比較:

第三個比較實驗,是以 K Means 演算法對資料矩陣進行分群的結果和雙分群 所執行的結果做的比較。K Means 是根據逐步重複計算資料點的距離與群中心,

找出資料分布空間中最佳的分群結果。圖 52 為分群後的分佈圖,圖 53 則是與 雙分群結果的比較圖表,從分佈圖來看與圖 48 似乎差異不大,再看圖表的部分,

在鑑別率的部分 K Means 的表現較佳,平均達 0.21,而凝聚率的部分則較原先 方法低,僅有 0.83。總和部分 K Means 為 1.04078,而原方法則為 1.04146。

由於兩者差距不大,因此另外依據 K Means 所分出的 24 群輸出的貼文進行觀 察。在 24 個群體當中,群 5、6、10、18 的表現極佳,但所包含的貼文數卻十分 少。在此部分發現到 K Means 在這幾群的分群上,雖然準確的抓出貼文之間的相 關性,但卻沒有囊括所有的相關貼文,僅抓取了少數的內容,以群 18 為例,該 群貼文數量為 5,且內容皆與歌手「韋禮安」有關,但 7203 篇貼文中,卻有高 達 400 多篇與韋禮安相關未被放在同群,上述其他三群亦有此情況發生;而群 1、

8 兩群表現也不差,群 1 抓取了「一起聽」活動的貼文,共有 979 篇,但「一起

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

87

聽」活動依據本研究之方法觀察,發現其實可分出幾種不同的類型,在 K Means 上雖然有成功將活動囊括於其中,但沒辦法加以區分貼文之間的不同,也沒有將 所有「一起聽」的活動都分入同一群,群 8 的情況亦是如此。

以 K Means 的方法進行分群發現到,24 群中的數量分布極為不均,且除了上 述幾群外其餘 18 群的結果經過觀察皆無法表現出各群貼文的特色,證實以本研 究之方法透過雙分群同時考量貼文與字詞之間的關係較能夠仔細的分出貼文之 間的特色。

圖 52 利用 K Means 分群演算法的分群結果

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

88

圖 53 以 K Means 進行分群和原先分群結果之比較 4. Boolean 資料矩陣(本研究)與一般資料矩陣結果比較:

起初因考量到社交媒體的文件特性與,認為詞彙彼此之間的關係可能比起關 鍵字要來得重要,因此在資料矩陣的應用上,是採取[35]所提及的 Boolean 變 數,只記錄出現過的詞彙為 1,未出現為 0。為確認本研究考量的正確性,在第 四個實驗中製作了一個新的資料矩陣,其內容是計算每個詞彙在貼文中出現的次 數,接著將資料矩陣轉換成 CCS 格式進行分群,另外也針對此資料矩陣進行了 PCA 的降維計算。

圖 54 為分群的結果分布圖,從圖中可以發現,降維後的資料呈現不均,分 群結果十分的差且計算時間也變得更長。和其他三個實驗一樣,我們也將凝聚率 與鑑別率一同計算統整,其鑑別率不到 0.001 而凝聚率則僅有 0.41,這也肯定 了本研究的考量,出現次數較多的詞彙並不一定會是整個貼文的主軸,在社交媒 體的文件中,字詞彼此的關係是大於重點詞彙的,以字詞之間的相互關係去進行 分群更能找出貼文彼此之間的關係。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

89

圖 54 實驗四新資料矩陣之分群結果

圖 55 新資料矩陣和原先分群結果之比較

現了部分資料點擁擠的現象;K-means 演算法在文件分群中時常被提出,且有部 分研究認為 K-means 與常見之其他分群方法(如階層式分析)相比要來的更佳,