群集分析

第二章文獻探討

第三節群集分析

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第三節群集分析

分群是依照文件間的相似性將其分成群集，使得每一群內的文件彼此相似，

亦即群內元素對某特性而言為同質，而群與群間則是互有差異，群間相似度低。

分群屬於非監督式(Unsupervised Learning)學習，其不需透過已知類別的訓練資料給予訓練來做類別判斷，而是根據輸入資料的特徵將相似的歸於同一群集。

2.3.1 應用於團購領域之相關文獻探討

在團購領域的文獻中，除了透過問卷調查以統計方式分析研究結果外，也有學者結合群集分析技術加以進行。張家蓁(2010)於「資料採礦應用於消費者網路團購因素探勘之研究」中，利用問卷調查後，透過資料採礦以群集分析與關聯法則，在樣本中挖掘出潛在消費者族群與目標消費者族群，區別其網路團購的消費習性、購物行為和購買因素並加以分析。張瑜修(2011)於「消費者參與辦公室團購影響因素之研究-以宜蘭縣上班族為例」中，經過問卷調查後，採用統計軟體進行描述性統計分析，接著運用群集分析將受訪者分為三個群集，討論不同群集對各屬性的偏好及人口統計變項。

2.3.2 k 最近鄰居法的原理及運作方式

k 最近鄰居法雖然被歸類於分類演算法中，但在實作上亦可不事先設定類別及給予訓練資料，Yang et al.(1999)將其運用於「類別數未知」的新聞事件的偵測追蹤，即為 k 最近鄰居法於分群上之應用。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

另外，經由戴維德(2005)研究得知，要將龐大的客戶資料加以分類與分析，

進而預測顧客對於網路銀行的使用意願，利用 k 最近鄰居法的預測能力是優於決策樹以及類神經網路，且突破統計模型對資料上樣本的限制。因此，在同樣是對顧客資料加以群集分析的網路團購應用方面，也選擇透過 k 最近鄰居法原理建置分群器。

k 最近鄰居法一種最為直接簡單且具有一定精度水準的群集分析法。k 最近鄰居法(k-Nearest Neighbors, kNN)由 Cover & Hart(1967)所提出，此方法是對於一筆未知類別之資料，先找出與資料最鄰近的 k 個資料點，根據這 k 個資料點之類別，來辨別未知資料所屬類別。簡單而言，就是「物以類聚」的概念，擁有相似特徵的資料，在以其特徵形成的空間中會聚集在一起。若以向量空間中的點來表示，對於同一類別物件的這些點彼此間的距離應該會比較接近。所以對於一個未知類別的測試資料，我們只需要在訓練資料中找出和此筆資料最接近的幾個點，

就可以以 k 最近鄰居法來判定此筆未知類別之測試資料的類別，其類別應與最接近的幾個點所屬類別最多的類別相同。

對於資料點與資料點間距離的計算方式，大多是採用歐幾里德距離 (Euclidean distance)來計算。假設在 n 維的向量空間中有兩個點 P 跟 Q，

P = (𝑝₁, 𝑝₂, … , 𝑝_𝑛)、Q = (𝑞₁, 𝑞₂, … , 𝑞_𝑛)，則歐幾里德距離的計算公式如下：

𝐷_{𝐸𝑢𝑐𝑙𝑖𝑑𝑒𝑎𝑛} = √∑(𝑝_𝑖 − 𝑞_𝑖)²

𝑛

𝑖=1

(1)

(𝑝_𝑖與𝑞_𝑖為標準化後的特徵值)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在運作方式部分，k 最近鄰居法屬於懶散學習法，有新的測試資料時才開始做分類處理。在學習階段只是簡單的將每筆訓練資料(training data)作適當的表示後儲存起來，就完成了訓練工作。當有一筆測試資料(test data)需要分類時，再將測試資料與所有訓練資料逐一比對，找出 k 筆距離最近的訓練資料，再依據這 k 筆訓練資料所屬的類別，利用投票的方式評估此測試資料最後應歸屬的類別 (Larkey and Croft，1996)。

而 k 最近鄰居法應用在分群領域時，也就是在不事先設定類別及給予訓練資料的狀況下，也是在有分群需求時才會開始進行處理，逐一比對資料，找出前 k 個相近資料並進行所屬群集的投票來決定最後歸屬群集。和分類時的運作相比，

少了透過訓練資料設定類別的訓練動作。

綜上述論點，本研究將以文字探勘技術對顧客團購網誌進行產品特徵擷取，

再以 kNN 原理建置分群器來替團購美食商品進行群集分析。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在文檔中應用文字探勘分析網路團購商品群集之研究－以美食類商品為例 - 政大學術集成 (頁 21-24)

第二章 文獻探討

第三節 群集分析

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第三節 群集分析

2.3.1 應用於團購領域之相關文獻探討

2.3.2 k 最近鄰居法的原理及運作方式

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章文獻探討

第三節群集分析

立政治大學

第三節群集分析

立政治大學

立政治大學

立政治大學