資料分群（Clustering）

第二章、文獻探討

第二節、資料分群（Clustering）

國

立政治大學

‧

Na tiona

l Ch engchi University

第二節、資料分群（Clustering）

資料分群是使用分群演算法，依照資料間的相似度，將相似的資料分類在相同的群集。其目的在求各群集的相似性質，作為該群集的代表特性，以利後續研究、分析。

2.2.1 k-最鄰近演算法（k-Nearest Neighbor，kNN）

k-最鄰近演算法（以下簡稱 kNN）是由 T.M. Cover 與 P.E. Hart 於 1967 年提出，此演算法針對一筆未知群集的資料，與現有已分群的所有資料進行相似度比對，藉此找出該筆資料的所屬群集。

kNN 常見於機器學習（Machine Learning）領域，希望藉由計算機的高速來處理人力無法負荷的大量資料分類。由於其演算法會產生多個相似群集，因此也被用於資料分群使用。

(一) 運作原理

kNN 的原理是在向量空間中，相似的資料如同接近的座標，會在比較接近的位置；而相似的一群資料彼此貼近，便會形成一相似群集。因此 kNN 賦予每一筆資料一個向量空間座標，當新增一筆資料時，就檢查此新進資料座標附近 k 筆資料，計算與這 k 筆資料群集的相似程度，並將此新進資料分類。待分類完成後，

再依照分群特徵對各類別資料進行描述。

以次頁圖 2-1 為例，假設進行 kNN 分群時共採二種屬性，而現有資料已分為

「X」、「O」、「△」三類，而「？」則表示新進資料。此時若採 k=3，即表示採「？」

附近 3 筆最鄰近資料計算相似程度，此例中會發現該新進資料與現有三類資料的相似程度相當（但與「X」較接近，相似程度較高，因此會歸類到「X」類）；但若採 k=7，也就是以周圍 7 個最接近點來計算，會發現與「O」類資料的相似度較高，此時便會歸類到「O」類。

‧

相較於 k-means、ISODATA、階層式分群法等同樣被廣泛應用的分群法，kNN 的特點在於其並非以完整資料進行分群，而是可透過單一資料的逐漸導入，依序

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

以二次方的速度成長（如圖 2-2）。

圖 2-2 kNN 演算法之資料數量與運算時間關係圖

（來源：本研究繪製）

2.2.2 相似度計算

在進行資料分群時，必須計算資料與資料間的相似度，接著才進行資料分群或調整。而資料相似度的計算因應情境不同有各種適用的方法，本節探僅討應用於本研究的數種方法。

(一) 歐幾里得距離（Euclidean distance）

歐幾里得距離是經常採用的資料相似度計算方式，也是十分直覺性的方法。

在向量空間中，歐幾里得距離是兩點間的直線距離，設空間中有二點 X、Y，

X = (𝑥₁,𝑥₂,… , 𝑥_𝑛)、Y = (𝑦₁, 𝑦₂, …, 𝑦_𝑛)，則其公式如下：

𝑑(𝑋, 𝑌) = ��(𝑥_𝑖− 𝑦_𝑖)²

𝑛 𝑖=1 0

2000 4000 6000 8000 10000 12000

0 2000 4000 6000 8000 10000 12000

運算時間（單位：萬）

資料數量

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

對應歐幾里得距離的相似度公式如下：

sim(𝑋, 𝑌) = 1 1 + 𝑑(𝑋, 𝑌)

此公式可將距離數值轉換為介於 0 到 1 之間的數，兩點間距離越接近則相似度越大；反之相似度則越小。此值為 1 表示兩點間距離為 0，相似度達到最大；

而當距離趨近無限大的時候，相似度值會趨近於 0。

(二) 餘弦相似度（cosine similarity）

餘弦定理在數學中表示了三角形中邊長與角度的關係。如下圖所示，根據餘弦定理，三角形的夾角與其對應邊呈正相關，並且遵照以下公式：

𝑎² = 𝑏² + 𝑐²− 2𝑏𝑐 cos𝛼

圖 2-3 三角形的夾角與對應邊長

（來源：wikipedia）

而根據三角函數表可知，當夾角θ 介於 0 ﾟ~180 ﾟ之間時，cosθ 的數值會隨著角度增大而由 1 遞減至-1。也就是說，在上述餘弦定理的公式中，隨著角度 α 增加，cosα 值會逐漸變小，致使邊長 a 隨著角度 α 的增加而變長；同時，邊長 a 的增加也同時表示 cosα 的值變小，表示其餘弦值會隨著二點間的距離的成長而減小。

在向量空間中，三角形的邊長即為二頂點間的距離，如上述公式中的 a，即表示頂點 B 與 C 之間的距離。餘弦相似度正是應用了二點間的距離與其餘弦值呈

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

負相關的特性，來計算二筆資料在向量空間中的相似度。

如圖 2-3 所示，以二維空間的座標為例，A 與 B 二資料點的相似度即為夾角 θ；而套用至 n 維空間，餘弦夾角公式如下：

cos 𝜃 = 𝐴⃗ ∙ 𝐵�⃗

�𝐴⃗� × �𝐵�⃗�= ∑^𝑛_𝑖=1𝐴_𝑖𝐵_𝑖

�∑^𝑛_𝑖=1𝐴_𝑖²× �∑^𝑛_𝑖=1𝐵_𝑖²

圖 2-4 二維空間中的餘弦相似度

（來源：本研究繪製）

餘弦相似度的值在 1 到-1 之間：當數值為正時，表示兩向量間的相似度，至 1 表示兩向量完全相同；當數值為副時，表示兩向量間的相異度，-1 表示兩向量完全相反；而 0 則表示兩向量並無任何關係，為二獨立向量。

相較於歐幾里得距離，餘弦相似度被更廣泛應用於文件分類或分群。當餘弦相似度應用於文件分類或分群時，由於在文章中詞彙出現的頻率不會為負值，因此餘弦相似度的值會在 0 到 1 之間。

O (0 , 0)

A (Ax , Ay)

B (Bx , By)

Y X

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

在文檔中適用於雲端分散儲存架構下的kNN平行演算法之研究 - 政大學術集成 (頁 15-20)

第二章、 文獻探討

第二節、 資料分群（Clustering）

國

立 政 治 大 學

‧

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

第二章、文獻探討

第二節、資料分群（Clustering）

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學