資料處理

第三章研究方法與設計

第二節資料處理

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在鎖定的 1000 項美食團購商品中，逐項鍵入 Google 搜尋 Bar 找尋團購此商品的相關網誌後，其中有 268 項產品曾有網友撰寫過團購網誌。在網誌擷取的部份，由於一項產品可能有多位網友撰寫過團購網誌，因此本研究將依照 Google 搜尋 Bar 找尋到的順序來納入網誌，Google 搜尋引擎的排序越前面的網頁通常是熱門度與相關性較高之網頁，經過觀察數個商品的搜尋狀況後，在排序第 3 頁之後的網頁和研究所需之網誌資料較無關聯，因此決定網誌的納入範圍設定為搜尋引擎前 3 頁的網誌資料。本研究就 268 項擁有團購網誌的商品進行蒐集，共納入了 586 篇顧客團購網誌，並將顧客團購網誌以商品為基礎，相同商品的網誌會集結成為該商品的團購網誌。

3.2.2 中文斷詞

將蒐集到的顧客團購商品文章資料進行中文斷詞處理，以利研究後續特徵詞的萃取。本研究採用中央研究院中文詞知識庫小組(Chinese Knowledge

Information Processing Group, CKIP)所開發的中文斷詞服務系統來進行處理。在經過中文斷詞處理後，輸出的資料皆具有 CKIP 的詞性標記。在進行特徵詞萃取前，為了避免影響分析的成效，透過中研院平衡語料庫詞類標記進行篩選，刪除斷詞後不必要的詞性，僅保留研究所需用詞之詞性。

下圖為擷取一段網友所撰寫的團購網誌內容：

(資料來源：本研究整理) 圖 3-2 顧客團購網誌(斷詞前)

美式重乳酪蛋糕

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

此段團購網誌內容經過 CKIP 斷詞後，會在各個詞語的後面加上該詞之詞性，

如下圖所示：

(資料來源：本研究整理) 圖 3-3 顧客團購網誌及詞性表示(斷詞後)

在本研究中，由於產品特徵詞多以名詞、動詞以及形容詞等詞性呈現，因此設立資料庫所保留的詞彙為精簡詞類標記之詞性 N、Vt、Vi 以及 A，其他非上述詞性的詞語將以過濾的方式排除。上圖以粗體字顯示之詞語即為研究中的保留字詞。

3.2.3 特徵詞萃取

為了能更精準的取出該產品的特徵詞彙，特徵詞出現次數多寡與頻率高低是一項重要的參考數據，可依字詞的重要程度過濾出常見的詞語，並自訂門檻對其進行篩選，以保留重要的特徵詞語。經篩選後所得之特徵詞即為具有代表性與意義的關鍵字詞，再以這些字詞作為分群依據。

美式重乳酪蛋糕

，(COMMACATEGORY)

的(T) ，(COMMACATEGORY)

下(DET) 層(M) 的(T) 也(ADV) 很(ADV)

，(COMMACATEGORY) 真的(ADV) 很(ADV)

，(COMMACATEGORY) 單(ADV) 也(ADV) 不會(ADV)

，(COMMACATEGORY) 會(ADV) 不(ADV) 一直(ADV) 哩(T) 。(PERIODCATEGORY)

中(POST) 的(T) 好(ADV)

，(COMMACATEGORY) 很(ADV) 的(T)

一(DET) 款(M) 。(PERIODCATEGORY)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在字詞的重要程度衡量部分，本研究採用的是最常用於計算字詞權重的 TF-IDF (Term Frequency–Inverse Document Frequency) 衡量方式，TF-IDF 傾向於過濾掉常見的詞語，以保留重要的詞語。其公式如下：

𝑡𝑓𝑖𝑑𝑓_𝑖,𝑗 = 𝑡𝑓_𝑖,𝑗× 𝑖𝑑𝑓_𝑖 (2) 其中，

𝑡𝑓_𝑖,𝑗 = 𝑛_𝑖,𝑗

∑ 𝑛_𝑘 _𝑘,𝑗 (3) 𝑖𝑑𝑓_𝑖 = 𝑙𝑜𝑔 (𝑁

𝑑𝑓_𝑖) (4)

𝑡𝑓𝑖𝑑𝑓_𝑖,𝑗為字詞 i 在文件 j 的權重值，其值為𝑡𝑓_𝑖,𝑗× 𝑖𝑑𝑓_𝑖。𝑡𝑓_𝑖,𝑗為字詞 i 在文件 j 中出現的頻率，其中𝑛_𝑖,𝑗是字詞 i 在文件 j 中的出現次數，而 k 為文件 j 的總字詞 數(文章長度)。𝑖𝑑𝑓_𝑖為字詞 i 的逆向文件頻率（Inverse Document Frequency，IDF），

其值可由總文件數目(𝑁)除以包含字詞 i 之文件的數目(𝑑𝑓_𝑖)，再將得到的商取對數(𝑙𝑜𝑔)得到。總括來說，當該詞語在某特定文件內屬於高詞語頻率，且在整個文件集合中屬於低文件頻率，便可產生出高權重的 TF-IDF。

計算完字詞的權重後，對於字詞的重要度便有了衡量的依據。一篇文章中，

TF-IDF 值越高的詞彙，代表其重要性越高，極有可能為具有代表性的特徵詞，

反之，TF-IDF 值越低的詞彙，可能為對文件沒有識別能力的常見字詞，抑或是容易造成分群干擾的雜訊。

本研究訂定了特徵詞選取的門檻值，來決定選取多少比例的特徵詞，以找出重要特徵詞彙。藉由篩選詞彙的動作，來提升分群品質，也降低往後進行分群時必須建置之「詞彙-文件矩陣」其維度複雜度，以增加分群執行效率。在進行特徵詞選取的時候，會先依照該文章中所有詞彙的 TF-IDF 值由高到低進行排序，

接著再依據門檻值取出 TF-IDF 值前百分之 n 的詞彙，值得注意的是，由於一篇

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

文章中會出現許多詞彙皆擁有相同之 TF-IDF 值，因此在選取特徵值時，需先去找尋符合最低門檻值詞彙其 TF-IDF 值為多少，再將所有與其相等及大於該 TF-IDF 值的詞彙全部取出，因此取出的特徵詞彙個數占該文章詞彙總數的百分比例會大於門檻訂定之值。

此外，雖然每篇文章訂定的特徵詞選取門檻值皆是相同的，但是每篇文章真正取出的特徵詞彙數目卻因該文章通過最低門檻值的詞彙個數而有所不同，因此為了使所有文章的特徵詞都立於相同的比較基準上，必須對選取到的特徵詞彙之 TF-IDF 值進行調整。其調整方式為，特徵詞的 TF-IDF 值會依據該篇文章選中的特徵詞總數進行正規化，以獲得該特徵詞調整後的權重值。根據特徵詞總數調整權重的概念就如同根據每篇文章的長度不同而進行調整權重的概念意義相同，每篇文章所選取的特徵詞彙總數即代表該篇文章的長度。特徵詞彙的正規化權重調整公式如下：

𝑊_𝑖,𝑗 =𝑡𝑓𝑖𝑑𝑓_𝑖,𝑗

‖𝑑⃗⃗⃗ ‖_𝑗 (5)

上述公式之意涵為將該詞彙之𝑡𝑓𝑖𝑑𝑓_𝑖,𝑗值除以所有選中的特徵詞彙長度，其中代表該文件向量中所有權重各別平方加總再開根號(在這裡的所有權重為該文件所有被選取之特徵詞彙的 TF-IDF 值)，最後得到的𝑊_𝑖,𝑗值即某一特徵詞正規化後的權重。

在文檔中應用文字探勘分析網路團購商品群集之研究－以美食類商品為例 - 政大學術集成 (頁 25-29)

第三章 研究方法與設計

第二節 資料處理

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.2.2 中文斷詞

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.2.3 特徵詞萃取

，(COMMACATEGORY)

的(T) ，(COMMACATEGORY)

下(DET) 層(M) 的(T) 也(ADV) 很(ADV)

，(COMMACATEGORY) 真的(ADV) 很(ADV)

，(COMMACATEGORY) 單(ADV) 也(ADV) 不會(ADV)

，(COMMACATEGORY) 會(ADV) 不(ADV) 一直(ADV) 哩(T) 。(PERIODCATEGORY)

中(POST) 的(T) 好(ADV)

，(COMMACATEGORY) 很(ADV) 的(T)

一(DET) 款(M) 。(PERIODCATEGORY)

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第三章研究方法與設計

第二節資料處理

立政治大學

立政治大學

立政治大學

立政治大學