第三章 研究方法與設計
第二節 資料處理
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
17
在鎖定的 1000 項美食團購商品中,逐項鍵入 Google 搜尋 Bar 找尋團購此商 品的相關網誌後,其中有 268 項產品曾有網友撰寫過團購網誌。在網誌擷取的部 份,由於一項產品可能有多位網友撰寫過團購網誌,因此本研究將依照 Google 搜尋 Bar 找尋到的順序來納入網誌,Google 搜尋引擎的排序越前面的網頁通常 是熱門度與相關性較高之網頁,經過觀察數個商品的搜尋狀況後,在排序第 3 頁之後的網頁和研究所需之網誌資料較無關聯,因此決定網誌的納入範圍設定為 搜尋引擎前 3 頁的網誌資料。本研究就 268 項擁有團購網誌的商品進行蒐集,共 納入了 586 篇顧客團購網誌,並將顧客團購網誌以商品為基礎,相同商品的網誌 會集結成為該商品的團購網誌。
3.2.2 中文斷詞
將蒐集到的顧客團購商品文章資料進行中文斷詞處理,以利研究後續特徵詞 的萃取。本研究採用中央研究院中文詞知識庫小組(Chinese Knowledge
Information Processing Group, CKIP)所開發的中文斷詞服務系統來進行處理。在 經過中文斷詞處理後,輸出的資料皆具有 CKIP 的詞性標記。在進行特徵詞萃取 前,為了避免影響分析的成效,透過中研院平衡語料庫詞類標記進行篩選,刪除 斷詞後不必要的詞性,僅保留研究所需用詞之詞性。
下圖為擷取一段網友所撰寫的團購網誌內容:
(資料來源:本研究整理) 圖 3-2 顧客團購網誌(斷詞前)
美式重乳酪蛋糕
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
18
此段團購網誌內容經過 CKIP 斷詞後,會在各個詞語的後面加上該詞之詞性,
如下圖所示:
(資料來源:本研究整理) 圖 3-3 顧客團購網誌及詞性表示(斷詞後)
在本研究中,由於產品特徵詞多以名詞、動詞以及形容詞等詞性呈現,因此 設立資料庫所保留的詞彙為精簡詞類標記之詞性 N、Vt、Vi 以及 A,其他非上 述詞性的詞語將以過濾的方式排除。上圖以粗體字顯示之詞語即為研究中的保留 字詞。
3.2.3 特徵詞萃取
為了能更精準的取出該產品的特徵詞彙,特徵詞出現次數多寡與頻率高低是 一項重要的參考數據,可依字詞的重要程度過濾出常見的詞語,並自訂門檻對其 進行篩選,以保留重要的特徵詞語。經篩選後所得之特徵詞即為具有代表性與意 義的關鍵字詞,再以這些字詞作為分群依據。
美式重乳酪蛋糕
,(COMMACATEGORY)
的(T) ,(COMMACATEGORY)
下(DET) 層(M) 的(T) 也(ADV) 很(ADV)
,(COMMACATEGORY) 真的(ADV) 很(ADV)
,(COMMACATEGORY) 單(ADV) 也(ADV) 不會(ADV)
,(COMMACATEGORY) 會(ADV) 不(ADV) 一直(ADV) 哩(T) 。(PERIODCATEGORY)
中(POST) 的(T) 好(ADV)
,(COMMACATEGORY) 很(ADV) 的(T)
一(DET) 款(M) 。(PERIODCATEGORY)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
19
在字詞的重要程度衡量部分,本研究採用的是最常用於計算字詞權重的 TF-IDF (Term Frequency–Inverse Document Frequency) 衡量方式,TF-IDF 傾向於 過濾掉常見的詞語,以保留重要的詞語。其公式如下:
𝑡𝑓𝑖𝑑𝑓𝑖,𝑗 = 𝑡𝑓𝑖,𝑗× 𝑖𝑑𝑓𝑖 (2) 其中,
𝑡𝑓𝑖,𝑗 = 𝑛𝑖,𝑗
∑ 𝑛𝑘 𝑘,𝑗 (3) 𝑖𝑑𝑓𝑖 = 𝑙𝑜𝑔 (𝑁
𝑑𝑓𝑖) (4)
𝑡𝑓𝑖𝑑𝑓𝑖,𝑗為字詞 i 在文件 j 的權重值,其值為𝑡𝑓𝑖,𝑗× 𝑖𝑑𝑓𝑖。𝑡𝑓𝑖,𝑗為字詞 i 在文件 j 中出現的頻率,其中𝑛𝑖,𝑗是字詞 i 在文件 j 中的出現次數,而 k 為文件 j 的總字詞 數(文章長度)。𝑖𝑑𝑓𝑖為字詞 i 的逆向文件頻率(Inverse Document Frequency,IDF),
其值可由總文件數目(𝑁)除以包含字詞 i 之文件的數目(𝑑𝑓𝑖),再將得到的商取對 數(𝑙𝑜𝑔)得到。總括來說,當該詞語在某特定文件內屬於高詞語頻率,且在整個 文件集合中屬於低文件頻率,便可產生出高權重的 TF-IDF。
計算完字詞的權重後,對於字詞的重要度便有了衡量的依據。一篇文章中,
TF-IDF 值越高的詞彙,代表其重要性越高,極有可能為具有代表性的特徵詞,
反之,TF-IDF 值越低的詞彙,可能為對文件沒有識別能力的常見字詞,抑或是 容易造成分群干擾的雜訊。
本研究訂定了特徵詞選取的門檻值,來決定選取多少比例的特徵詞,以找出 重要特徵詞彙。藉由篩選詞彙的動作,來提升分群品質,也降低往後進行分群時 必須建置之「詞彙-文件矩陣」其維度複雜度,以增加分群執行效率。在進行特 徵詞選取的時候,會先依照該文章中所有詞彙的 TF-IDF 值由高到低進行排序,
接著再依據門檻值取出 TF-IDF 值前百分之 n 的詞彙,值得注意的是,由於一篇
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
20
文章中會出現許多詞彙皆擁有相同之 TF-IDF 值,因此在選取特徵值時,需先去 找尋符合最低門檻值詞彙其 TF-IDF 值為多少,再將所有與其相等及大於該 TF-IDF 值的詞彙全部取出,因此取出的特徵詞彙個數占該文章詞彙總數的百分 比例會大於門檻訂定之值。
此外,雖然每篇文章訂定的特徵詞選取門檻值皆是相同的,但是每篇文章真 正取出的特徵詞彙數目卻因該文章通過最低門檻值的詞彙個數而有所不同,因此 為了使所有文章的特徵詞都立於相同的比較基準上,必須對選取到的特徵詞彙之 TF-IDF 值進行調整。其調整方式為,特徵詞的 TF-IDF 值會依據該篇文章選中的 特徵詞總數進行正規化,以獲得該特徵詞調整後的權重值。根據特徵詞總數調整 權重的概念就如同根據每篇文章的長度不同而進行調整權重的概念意義相同,每 篇文章所選取的特徵詞彙總數即代表該篇文章的長度。特徵詞彙的正規化權重調 整公式如下:
𝑊𝑖,𝑗 =𝑡𝑓𝑖𝑑𝑓𝑖,𝑗
‖𝑑⃗⃗⃗ ‖𝑗 (5)
上述公式之意涵為將該詞彙之𝑡𝑓𝑖𝑑𝑓𝑖,𝑗值除以所有選中的特徵詞彙長度 , 其中 代表該文件向量中所有權重各別平方加總再開根號(在這裡的所有權重 為該文件所有被選取之特徵詞彙的 TF-IDF 值),最後得到的𝑊𝑖,𝑗值即某一特徵詞 正規化後的權重。