• 沒有找到結果。

第六章 實驗結果與討論

6.4 實驗結果

現了部分資料點擁擠的現象;K-means 演算法在文件分群中時常被提出,且有部 分研究認為 K-means 與常見之其他分群方法(如階層式分析)相比要來的更佳,

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

91

天室互動,因此常出現的字串會有「上線」、「一起聽」、「七點」等等;另外有些 類型則是由 KKBOX 提供不同的情境歌單,邀請會員一起共同聆聽,出現的字串則 有「一起聽」、「音樂館」、「主題」等等。

處理列分群的結果上,我們抓取各群中貼文的歌手以及貼文資訊,並透過斷 詞將各群所有的詞語加總,捨棄掉不重要的字詞後,將剩下的字詞按照出現次數 排序,以這些字詞當作關鍵字去觀察各群貼文,藉此來觀察各群貼文在分群後,

各自有著什麼相似的地方以及彼此間有什麼不同。

列分群數量較低時,在分佈圖上結果不錯,但是由於貼文內容眾多且繁瑣,

分群數量低時,較難觀察各群的共同點與不同點,因此在最後我們選擇以 6.3.2 章節中圖 39 分數最高的列分群數 24 來進行分析,在反覆觀察貼文後我們將貼文 依據分群結果做了一些劃分,如圖 56 所示。

貼文的內容分為三大類:「音樂活動」、「其他活動」、「互動式貼文」。其中又 以音樂活動最多且複雜,在細部上也被分成較多群,而其他活動的部分,主要都 是和抽獎有關的活動,另外也有一些音樂文案的推廣。互動式貼文則是在分群 17 中所發現的,多為與臉書用戶互動之貼文,如「中秋連假你的計劃是!? 小 K 我當然是睡到飽啦<3」、「面對現實吧!今天要補班補課...」,也會針對近期 娛樂新聞相關的歌手、明星寫一些貼文,因此在該群上歌手出現的數目眾多目的 在於增加 KKBOX 粉絲專頁在臉書上的曝光率,而這類的貼文巧妙地被 MSRIICC 分在同一群當中。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

92

圖 56 列分群結果統整圖(數字代表分群)

由於貼文總類繁多,我們依照上圖 56 做了表格簡述各群的內容,表格 22 是音樂活動、表格 23 則是其他活動的部分,順序則按照圖中的分群數來做排序。

「歌單分享」的部分,和「一起聽」活動不同的是,貼文通常包含了連結,

有些是 Youtube 的歌曲 MV,有些是 KKBOX 的音樂大人物影片。而「一起聽」活 動則是分群中最複雜的地方,群 2 與群 5 是類似的活動,但因貼文的寫作模式不 同,分群剛好將 2015 年前後的貼文分成兩群,讓我們發現字詞之間的關係,可 區分出貼文的時間性;再看群 19 的部分,乍看之下和群 2 皆相同,但我們發現,

群 2 貼文在網址連結中間會空兩行,而群 19 則是只空一行,在這邊我們了解到 我們分群配合字詞的方法,亦可以區分出不同的文字編排方式;群 11 的部分,

透過以上分析發現到,MSRIICC 演算法所做的雙分群,能夠分辨出各種貼文 的架構,將類似形式的貼文分配在同一個群中。就像是自動替我們將字串設定好

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

96

群 6、群 3、群 7、群 2 的關係較為複雜,我們推斷原因與出現次數有關,如圖 48 所示,以群 6 為例,群 6 的出現次數是 6~20 次,與群 3、群 7 出現次數相近,

因此在分佈上皆有重疊。

圖 57 行分群數 9 結果分佈圖(放大後)

貼文內容形形色色,字串亦非常的多,如 6.2.1 章節的圖 25 所呈現的,出 現次數高的字串相較於出現次數少的字串要來得少很多,讓整個圖片呈現了直角 三角的形狀。從行分群的結果來看,我們了解到 MSRICC 的分群依據,與字串的 出現次數產生了相當的關係,且在出現數較懸殊的部分,分群表現較佳,而右半 部密集度高的部分,隨著分群數上升,結果會越來越差,重疊性會越來越高。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

97