• 沒有找到結果。

第二章 文獻探討

第三節 群集分析

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

12

第三節 群集分析

分群是依照文件間的相似性將其分成群集,使得每一群內的文件彼此相似,

亦即群內元素對某特性而言為同質,而群與群間則是互有差異,群間相似度低。

分群屬於非監督式(Unsupervised Learning)學習,其不需透過已知類別的訓練資料 給予訓練來做類別判斷,而是根據輸入資料的特徵將相似的歸於同一群集。

2.3.1 應用於團購領域之相關文獻探討

在團購領域的文獻中,除了透過問卷調查以統計方式分析研究結果外,也有 學者結合群集分析技術加以進行。張家蓁(2010)於「資料採礦應用於消費者網路 團購因素探勘之研究」中,利用問卷調查後,透過資料採礦以群集分析與關聯法 則,在樣本中挖掘出潛在消費者族群與目標消費者族群,區別其網路團購的消費 習性、購物行為和購買因素並加以分析。張瑜修(2011)於「消費者參與辦公室團 購影響因素之研究-以宜蘭縣上班族為例」中,經過問卷調查後,採用統計軟體 進行描述性統計分析,接著運用群集分析將受訪者分為三個群集,討論不同群集 對各屬性的偏好及人口統計變項。

2.3.2 k 最近鄰居法的原理及運作方式

k 最近鄰居法雖然被歸類於分類演算法中,但在實作上亦可不事先設定類別 及給予訓練資料,Yang et al.(1999)將其運用於「類別數未知」的新聞事件的偵測 追蹤,即為 k 最近鄰居法於分群上之應用。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

13

另外,經由戴維德(2005)研究得知,要將龐大的客戶資料加以分類與分析,

進而預測顧客對於網路銀行的使用意願,利用 k 最近鄰居法的預測能力是優於決 策樹以及類神經網路,且突破統計模型對資料上樣本的限制。因此,在同樣是對 顧客資料加以群集分析的網路團購應用方面,也選擇透過 k 最近鄰居法原理建置 分群器。

k 最近鄰居法一種最為直接簡單且具有一定精度水準的群集分析法。k 最近 鄰居法(k-Nearest Neighbors, kNN)由 Cover & Hart(1967)所提出,此方法是對於一 筆未知類別之資料,先找出與資料最鄰近的 k 個資料點,根據這 k 個資料點之類 別,來辨別未知資料所屬類別。簡單而言,就是「物以類聚」的概念,擁有相似 特徵的資料,在以其特徵形成的空間中會聚集在一起。若以向量空間中的點來表 示,對於同一類別物件的這些點彼此間的距離應該會比較接近。所以對於一個未 知類別的測試資料,我們只需要在訓練資料中找出和此筆資料最接近的幾個點,

就可以以 k 最近鄰居法來判定此筆未知類別之測試資料的類別,其類別應與最接 近的幾個點所屬類別最多的類別相同。

對於資料點與資料點間距離的計算方式,大多是採用歐幾里德距離 (Euclidean distance)來計算。假設在 n 維的向量空間中有兩個點 P 跟 Q,

P = (𝑝1, 𝑝2, … , 𝑝𝑛)、Q = (𝑞1, 𝑞2, … , 𝑞𝑛),則歐幾里德距離的計算公式如下:

𝐷𝐸𝑢𝑐𝑙𝑖𝑑𝑒𝑎𝑛 = √∑(𝑝𝑖 − 𝑞𝑖)2

𝑛

𝑖=1

(1)

(𝑝𝑖與𝑞𝑖為標準化後的特徵值)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

14

在運作方式部分,k 最近鄰居法屬於懶散學習法,有新的測試資料時才開始 做分類處理。在學習階段只是簡單的將每筆訓練資料(training data)作適當的表示 後儲存起來,就完成了訓練工作。當有一筆測試資料(test data)需要分類時,再將 測試資料與所有訓練資料逐一比對,找出 k 筆距離最近的訓練資料,再依據這 k 筆訓練資料所屬的類別,利用投票的方式評估此測試資料最後應歸屬的類別 (Larkey and Croft,1996)。

而 k 最近鄰居法應用在分群領域時,也就是在不事先設定類別及給予訓練資 料的狀況下,也是在有分群需求時才會開始進行處理,逐一比對資料,找出前 k 個相近資料並進行所屬群集的投票來決定最後歸屬群集。和分類時的運作相比,

少了透過訓練資料設定類別的訓練動作。

綜上述論點,本研究將以文字探勘技術對顧客團購網誌進行產品特徵擷取,

再以 kNN 原理建置分群器來替團購美食商品進行群集分析。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

15

相關文件