關注議題類別標記結果 - 類別標記實驗結果 - 實驗結果與討論 - 對使用者評論之情感分析研究－以Google Play市集為例

第四章、實驗結果與討論

2、類別標記實驗結果

2.3 關注議題類別標記結果

國

立政治大學

‧

Na tiona

l Ch engchi University

2.3 關注議題類別標記結果

於關注議題類別標記的階段，會透過字詞關係與字詞頻率來擷取熱門關注的議題詞，再透過 TFIDF 模型配合 Kmeans、SOM 分群演算法，並與 NPMI 模型配合社會網路分析的 Concor 方法作比較。最後完成議題類別合併與評論的議題類別標記。以下針對關注議題類別標記的過程，說明議題詞擷取與合併的結果。

( 1 ). 擷取評論中重要的關注議題詞

為了擷取出重要的關注議題詞，需要先建立一個候選議題詞集，再從候選議題詞集中，篩選出較重要的議題詞。選取候選議題詞的方法，會透過情感詞用來修飾議題詞的特性，擷取所有評論中，最靠近情感詞的體詞作為候選議題詞。

透過字詞關係選取候選議題詞共 1130 個詞(表十)，圖二十可以看到所有候選議題詞的文件頻率值(Document Frenquency, DF)分布，其中 DF 值最高的為「主題」，為 2277，即在所有實驗資料中，出現在 2277 筆評論中。DF 值最低為 1，

共有 386 個字，意即在所有實驗資料中，這些字詞只出現在 1 篇評論中。然而，

從圖中可以看到所有議題詞的 DF 值呈現長尾的分佈，其中在 DF 為 20 以下的詞共有 998 個字，佔了全部的候選議題字詞約 90%。

圖二十: 候選議題詞 DF 值分布

建立候選議題詞集後，再透過字詞的文件頻率(Document Frequency)來保留高

0 500 1000 1500 2000

1 56 111 166 221 276 331 386 441 496 551 606 661 716 771 826 881 936 991 1046 1101

DF值

議題詞編號

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

高，因此透過文件頻率可以篩選掉較不重要的議題詞，並保留較熱門且較重要的議題詞。為了留下最重要的熱門關注議題，本研究將用於篩選議題詞的文件頻率門檻值設為 20(DF>20)，意即當字詞的文件頻率低於 20，則會被移出議題詞集，

透過刪除長尾部份的低文件頻率字詞，來保留重要的熱門議題詞。

在經過文件頻率篩選重要議題詞後，剩餘 135 個議題詞，從表十可看到在建立候選議題詞時共有 1130 個議題詞，並在篩選後剩餘 135 個議題詞，其中篩選掉約 90%的低文件頻率議題詞。

表十: 透過 DF 篩選議題詞前後詞數量對照

篩選階段 議題詞數量

建立候選議題詞集 1130 利用 DF 篩選後(DF=20) 135

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

( 2 ). 議題詞分群與議題類別整併

為了將熱門關注的議題詞進行議題類別整併，以歸納出重要的議題類別，即整併同類別的議題詞，以大方向來表達同類別中的所有詞，並提供在對評論作視覺化分析的關注議題資訊。本研究比較了兩種分群結果，包含以字詞對文章 TF-IDF 為基礎的模型並配合 Kmeans 和 SOM 分群方法，和以 NPMI 為基礎的社會網路模型並配合社會網路分析中的 Concor 方法，以下分別說明分群結果。

 議題詞對文章的 TF-IDF 模型分群結果

在使用議題詞對上文章，並以 TF-IDF 為權重值，配合 Kmeans 和 SOM 的分群結果，其中 Kmeans 和 SOM 的距離計算方法皆採用歐式距離(Euclidean Distance)，並去除完全沒有包含 135 個議題詞的文章特徵後，指定分成五群的分群結果如表十一和十二。

表十一為 Kmeans 的分群結果，從五個群體的詞數量可以發現，Kmeans 分群出來的結果出現極度不平均的狀況，但事實上 135 個議題詞概括了很多不同的議題面向，因此分群結果呈現極度不平均的狀況不能符合本研究所期望的結果。

表十一: Kmeans 分群結果 Kmeans

議題詞數量 135 文章特徵數 14298

群體第 1 群第 2 群第 3 群第 4 群第 5 群

詞數量 1 132 1 1 3

表十二為 SOM 的分群結果，從分佈在各個群體的詞數量可以發現，SOM 分群的結果和 Kmeans 結果相似，皆存在極度不平均的情況，亦無法有效的先將不同的議題方向的議題詞作分群。

表十二: SOM 分群結果表 SOM

議題詞數量 135 文章特徵數 14298

群體第 1 群第 2 群第 3 群第 4 群第 5 群

詞數量 0 0 134 0 1

‧

個社會網路矩陣模型，並配合社會網路分析的 Concor 方法，以深度(Depth)為 3，

分成 8 個群體的結果如表十三：

‧

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

音效照片群組語音聲音視頻圖片頭像

消息電話聯絡人通訊錄主頁文字鏡頭位置

聽筒分類名單個性信息

介面風格與設計

背景顏色介麵字體綠色樣子版麵白色套件灰色質感畫麵桌麵界麵風格

軟體表現與品質類別中，包含了 App 操作體驗、系統、版本和網路連線等相關的詞。應用加值服務包含了表情貼圖、主題和遊戲代幣等詞。帳戶與安全性包含了使用者帳號、密碼和認證等相關詞。訊息傳送與社群包含了文字、影像等各種資訊的傳送，還有提示音、個人頁面相關詞。最後介面風格與設計包含了設計、

顏色、版面風格等詞。

利用 SNA 的 Concor 方法將議題詞進行分群，並透過觀察每個群體內大部份議題詞的議題方向給予分群出來的群體類別名稱，接著透過人為調整的方式將 8 個群體合併為 5 個群體，透過半自動的方法，可兼具自動化分群的效率，與人為調整提高議題詞分群成效。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

( 3 ). 評論議題類別判斷

在完成議題詞分群與議題類別整併後，於評論的議題類別判斷階段，透過每篇評論出現的類別議題字詞，給予一個議題類別。即為將評論標記出現最多次的議類別。當評論被標記為多個類別，或是無法判斷評論類別則作丟棄不作標記。

從表十五可以發現，在五個議題類別中，評論筆數最多的分別為軟體表現與品質佔 34%、應用加值服務佔 26%和訊息傳送與社群類別佔 30%。其中可以發現大部份的使用者對於 App 是否能穩定運行最為關注，即使用者在使用 App 時是否有出現延遲、不順暢、閃退或是功能失常等問題造成使用上的不方便與無法使用。另外使用者針對四款通訊類別的手機 App 核心功能(即傳送訊息功能)亦非常關注，當使用者在使用通訊類別 App 時對於 App 訊息是否順利的送出給通訊對像，或是當通訊對像傳送的訊息是否可以成功且即時的收到且即時跳出通知等等。在應用加值服務上，台灣國人在使用通訊類別的 App 時，習慣常使用 App 所提供的貼圖(Sticker)服務來表達心理與取代傳統純文字訊息，因此在應用加值服務類別亦受到使用者的關注。

表十五: 各議題類別的評論筆數

議題類別 評論筆數 百分比

軟體表現與品質 4001 34%

應用加值服務 3159 26%

帳戶與安全性 815 7%

訊息傳送與社群 3576 30%

介面風格與設計 339 3%

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

在文檔中對使用者評論之情感分析研究－以Google Play市集為例 - 政大學術集成 (頁 69-76)

關注議題類別標記結果

第四章、 實驗結果與討論

2、 類別標記實驗結果

2.3 關注議題類別標記結果

國

立 政 治 大 學

‧

2.3 關注議題類別標記結果

( 1 ). 擷取評論中重要的關注議題詞

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

( 2 ). 議題詞分群與議題類別整併

‧

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

( 3 ). 評論議題類別判斷

‧ 國

立 政 治 大 學

‧

第四章、實驗結果與討論

2、類別標記實驗結果

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學