• 沒有找到結果。

第五章 實驗結果與討論

5.4 階層式分群與 t-SNE 視覺化

Precision Recall F1-Score Amount non-traval 0.97 0.91 0.94 10776

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 5.10 TSNE 分群:觀光與非觀光

接著分別對觀光與非觀光類別進行階層式分群觀察內部的群集,兩者的階層 式分群結果如圖 5.11 所示,再以 t-SNE 分群法呈現於圖 5.12,由圖中可見觀光 類別的資料點分佈較為平均,而非觀光類的資料點則有明顯的分群現象,此現象 也代表觀光類別的資料內容確實屬於同一集群,即使其中又包含食物、動物、風 景、地標等類別,但仍屬於同一個分類下會出現的內容;反之,非觀光類別因為 包含各種不同面向的資料,因此當中的集群現象也相對顯著許多,彼此之間也因 為資料內容關聯性低使得群與群的距離跟著拉長。

圖 5.11 階層式分群(a)觀光類別(b)非觀光類別

(a) (b)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 5.12 t-SNE 分群(a)觀光類別(b)非觀光類別

透過 t-SNE 分群法得到觀光與非觀光類別的分群結果後,本實驗再深入各群 資料觀察其中的特徵,觀光類一共分為四群(群1、群 2、群 3、群 4),從各群 隨機抽樣10 筆資料觀察推文的 hashtags 與圖片,發現每一群的文字內容幾乎都 有涵蓋台灣各縣市的名稱,因此各群之間的差異取決於其他hashtags 以及圖片內 容。群 1 的文字除了包含台灣各縣市的名稱之外,還有 place、stay 等外出旅遊 常用的詞彙,圖片內容多為風景、旅途中看見的有趣景色之類以第一人稱視角所 拍出的照片;群 2 的文字內容有 wanderlust、hiking、outdoors 等與使用者行為相 關的詞彙,圖片內容則多以人物為主體,從單人到人群的照片都有;群 3 的文字 內容除了縣市名稱外較沒有共通點,但是從圖片內容可看出此群集的圖片幾乎都 有地標特性,例如九份的阿妹茶樓、台北101 大樓等,圖片主體也多以景物為主;

群 4 的文字內容除了縣市名稱外還包含了像是 foodie 等飲食相關的詞,圖片內 容也多為各種小吃及飲料的照片。由於本研究在文字分類的準確率較高,因此在 分群結果中以文字的內容較具辨別性,群2 與群 4 即是透過此特性而形成各自的 集群,但群1 與群 3 的文字內容較無規律可循,此時便是依靠圖片輔助,成功將 意義相似的貼文分為同一群集,各個群集的範例整理如表5.9。

(a) (b)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

推文文字 推文圖片

群1

stay, Taipei, Taiwan, awesome, place

Taipei, Taiwan

Taroko, Hualien, Formosa, Taiwan

群2

wanderlust, taiwan, taichung, xinshecastle

Taiwan, Taipei, ndptour, Esmeralda

landscape, skyscape, hiking, cycling, travel, hdr, photography, outdoors, walking, Taiwan, LocalGuides, gf_hdr

群3 Taiwan、Taichung、SunMoonLake、Ferry、

WenwuTemple

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

jiufen、taiwan

Twitter, Taipei101, Taiwan

群4

Taipei, Taiwan

bakery, taichung, taiwan, foodie, travel, weekend

TasteTheWorldInTaipei, Taipei, iseetaiwan, Taiwan

表5.9 觀光類別各群範例

接著是非觀光類別的探討,本研究在前期資料標註的步驟,就已發現如偶像、

政治等幾個大類,推文內容較為多樣化,因此為了使其能涵蓋多種類別,本實驗 透過階層式的圖表將非觀光類資料分為九群(群1、群 2……至群 9),並於各群 集隨機抽樣30 筆資料觀察分群結果,但由於非觀光類資料本身的狀況較複雜,

無法一一列舉,所以以下將挑出幾個最具判別性的群集做說明,各群特徵整理如 表5.10。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

文字方面,各群都可觀察到知名韓國團體或是偶像的名稱,但也幾乎都有穿 插非偶像類詞彙的樣本,群1 的文字內容以偶像為主,但是在觀察圖片內容後,

可發現群1 的圖片多是側拍型照片,因此照片中的偶像明星大多都是側臉或戴著 口罩的形象,場景則是在機場居多;群4 則是聚集了推文內容含有 News 詞彙的 推文,這類型的推文為報導類型的文章,因此圖片內容相當參差不齊,唯一的共 通點是圖片右下角都會有新聞媒體名稱的浮水印;群5 的文字資料則是完全由偶 像相關詞彙組成,由此可推斷偶像類的推文於該群達到最大交集,向其他群延伸 出去,才會造成各群皆有偶像類資料的現象,進一步探討群5 的圖片內容,可發 現該群照片場景都是在舞台上,可知群集內容多為偶像明星在演唱會或是音樂節 目上的畫面。除了偶像類詞彙,有些國際關係相關詞彙如China、USA 等也有出 現在各個群集中,但因為分佈較無規律性因此不進行探討。

推文文字 推文圖片

群1

Shinhwa, taiwan, global

Kyuhyun

INFINITE

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

群4

Taiwan、News

Taiwan、News

Taiwan、News

群5

SMROOKIES

RedVelvet, IRENE, Seulgi, Wendy, Yeri

Hansol, SMROOKIES, SR15B

表5.10 非觀光類別各群範例

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

相關文件