• 沒有找到結果。

第三章、 研究方法與設計

第三節、 App 文章分群

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

3.2.3. 文件特徵選取

在進行文件相似度計算前,需將文件轉換成向量空間模型表示,因此本研究 能藉由 TF-IDF 詞彙權重計算公式,將斷詞後的各個詞彙在文章中所佔的權重值 計算出來,該法考慮到詞彙在各篇文章中以及在所有文章的普遍性,並可透過正 規化公式來避免各篇文章因為長度不同而造成的權重值差異問題。

由於文件中的每一個詞彙都是組成該文件的特徵,因此,選擇愈多的詞彙作 為文件特徵,即愈能代表文件本身。但過多的文件特徵常會造成文件向量空間模 型的維度太高,進而使得分群時的運算量過於龐大;故本研究針對每篇推薦文章 計算完文章中所有詞彙之權重後,僅以詞彙權重前 80%的詞彙作為文章之關鍵詞 彙,以使各文章所含之詞彙更具特徵意義並減少運算量及刪去較不重要之詞彙。

第三節、 App 文章分群

在 App 文章分群部分,首先會利用 kNN 演算法對 App 文章進行分群,接著 透過群集合併來改善分群品質;最後,利用參數調整來對分群結果進行評估,以 找出最佳品質之分群結果。

3.3.1. kNN 分群

在進行 App 分群時,本研究所採取的技術是 k

-

最鄰近演算法(kNN)演算法,

該法是將文件以向量空間模型來表示,再藉由計算與已分群文件的相似度來判斷 出欲分群文件可能所屬的群集。而相似度的計算是採用 cosine 相似度來加以計算。

分群的步驟如下:

1. 首先,將新進的 App 推薦文章轉換為向量空間模型。

2. 接著,將新進 App 推薦文章與各個已分群之 App 推薦文章集合內之所有文 章進行相似度的計算,取出前 k 份最相似的推薦文章。

3. 將這 k 份推薦文章所屬的所有群集皆列為新進推薦文的候選群集。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

4. 將這 k 份推薦文章與新進推薦文章進行的所屬群集之判斷:將擷取出的 k 篇文章中,相同群集內的所有文章與新進文章的相似度加總並除以該群集所 包含的文章數,計算公式如下:

( ) ∑ ( ) ( ) (式 3-1)

其中, 為新進文章之特徵向量; ( )為相似度計算公式;而 ( )為類別屬性函數,即若 屬於群集 則函數值為 1,否則為 0; 則 為第 j 群所含的文章數量。計算出新進文章與各群集之相似度後進行比較,

數值最大的群集則為新進文章的所屬群集。

而在每次分群後,可能會產生部分群集所包含的文章數量過於龐大,使得群 集分析品質未達到最佳,此時會針對包含文章數較多的群集再度進行分群,並透 過衡量指標來評估再次分群之必要性。

3.3.2. 群集合併

進行分群時,我們所設定的 k 值及文件相似度門檻值往往會直接的影響到分 群的結果,例如:文件的相似度門檻設定過高,可能會造成某一群集內只含有一 份文件或是將本來應該分在同一群的文件集合拆分成兩個小群集,而使得分群品 質降低。因此,我們可計算出各群集的質心,即各群集的中心點,再利用各群集 質心間相似度的計算來進行群集合併,以改善 k 值及文件相似度門檻值所造成的 影響。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

質心計算(吳文峰,2002)公式為:

⃗⃗ ∑ ⃗⃗⃗ (式 3-2)

其中, ⃗⃗⃗ 為文件向量, ⃗⃗⃗ ( ( ) ( ) (|d ⃗⃗ |)), ( )表示第 j 個詞彙在文件 d 中 的權重,| ⃗⃗⃗ |則為文章長度; 為群集 中的文件數。而為了使得計算後之質心的 維度權重有相同的衡量標準,不受到群集文件數量的影響,故在質心計算完畢後 必須進行正規化處理,以便後續可透過質心來進行群集間相似度的比較及群集合 併之進行。

3.3.3. 參數調整

在 kNN 群集分析方法中,設定不同的 k 值與不同的文件相似度門檻值會得 到不同的分群結果,其分群品質也不盡相同。

(一) k 值

k 值為與欲分群文件最相似的已分群文件數量,若 k 值取得過大,這 k 個最 相似的鄰居中可能會包含許多相似度並不高的已分群文件;若 k 值取得過小,那 麼就有可能使得欲分群文件受到雜訊資料的影響,皆會影響到分群的品質。

(二) 文件相似度門檻值

文件相似度門檻值是指在篩選 k 個最相似的已分群文件時,相似度要超過此 門檻值才能被納入候選文件集合中。門檻值設定的大小除了影響分群之後的群集 內所含文章多寡,也會影響到分群的品質

本研究將會設定不同的 k 值與文件相似度門檻值組合成多種參數組合,並透 過分群品質的衡量指標來選擇分群品質最佳的參數組合。

(一) 平均群內相似度(Mean of Intra-cluster Similarity)

平均群內相似度是將每一群集內的文件,兩兩比較後將相似度加總除以比較

(二) 平均群間相似度(Mean of Inter-cluster Similarity)

而平均群間相似度則是將各群集所計算出的質心,兩兩比較後將相似度加總

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

3.3.5. 分群規則 (一) 多階段分群

本研究在初步分群過程中發現,若只進行一次分群會產生群集內文章數量過 大或過小的現象,可能造成隱含的重要特徵過多或不足,無法進行後續分析;故 為了使得分群結果隱含適切的分析資訊,並使分群品質達到最佳,本研究採用了

「多階段分群」來解決此問題,意即當分群結束時,將針對文章數量較多的「大 群集」進行再分群。在分群的過程中,若出現只包含了 1 篇文章的「小群集」時,

因其無任何分群上的實質意義,故會透過群集間質心相似度的計算,將其合併到 該分群階段中相似度最高的群集。

(二) 參數設定

本研究在進行分群時,參數的調整將以 k 值為主,每一個固定的 k 值將搭配 3 種文件相似度門檻值以組合成多種參數組合,並在多種參數組合下之分群結果 中,挑選最佳品質之分群以作為各階段之最佳分群結果。

1. k 值

在第一階段分群時,將所有文章當作一個大群集,因群集內所含文章數較多,

故 k 值將以 10 為起始值,調整幅度為每次向上調整 10,至多調整至 30;而在第 二階段分群以後,因已經過了一次分群處理,各群集內所含文章數下降,故 k 值將以 5 為起始值,調整幅度為每次向上調整 5,至多調整 15。

2. 文件相似度門檻值

本研究針對文件相似度門檻值的設定,在第一階段分群時,將以尚未分群前 之平均群內相似度作為參考標準;後續階段則依前一階段之最佳分群結果之文件 相似度門檻值為基準,增加 0.005 為該階段之文件相似度門檻值;而在每一個固 定的 k 值下,將設定三種不同的文件相似度門檻值,其調整幅度為 0.005,藉此 觀察多種組合下之分群品質何者為最佳。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

而當調整後之 k 值搭配 3 種文件相似度門檻值所獲得的 3 種分群結果,相較 於調整前之 k 值的分群結果而言,無法獲得更好之分群品質,便以調整前之 k 值所獲得之 3 種分群結果中,挑選分群品質較佳的參數組合為該群集之最佳分群 結果,並不再對 k 值進行向上調整動作;反之,將繼續向上調整 k 值,並觀察後 續參數組合,以選出最佳品質之分群。

茲以下例說明:在第一階段分群時,k 值之起使值為 10,並搭配 3 種文件相 似度門檻值可得到 3 種不同品質的分群結果(CQ11、CQ12與 CQ13),其中,CQ13 之分群品質為三者中最佳。接著,將 k 值調整至 15,亦搭配同樣的 3 種文件相 似度門檻值來得到 3 種不同品質的分群結果(CQ21、CQ22與 CQ23);此時,若 k 值調整後所得到的:CQ21、CQ22與 CQ23之分群品質皆低於 k 值調整前之最佳分 群品質:CQ13,即將 CQ13 視為該群集之最佳分群結果,並不繼續計算當 k 值調 整至 20 時之分群結果;反之,當 CQ21、CQ22與 CQ23其中之一的分群品質高於 CQ13,即將 k 值再向上調整至 20,以繼續比較不同參數組合下之分群品質。

(三) 分群停止條件

本研究所設定之分群停止條件有二:

1. 首先,會透過群集內所包含的文章數量來判斷該群集是否應繼續分群,判斷 標準為:將群集內含文章篇數超過 30 篇之群集判定為「大群集」,並對其 繼續分群,反之,則停止分群。

2. 接著,為了避免以群集內含文章數作為繼續分群的標準,而使得已經非常相 似之群集被拆分成更細的小群集,故本研究在參數調整部分亦設定了分群停 止條件:即當針對某一群集繼續分群時,若在起始之 k 值與其搭配的 3 種文 件相似度門檻值中,皆無法獲得分群效果,例如:文件相似度門檻值的調整 對該群集無法產生分群效果,或分群後只產生許多內含 1 篇文章的小群集,

合併後結果與為未分群相同時,即不再對該群集進行再分群。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

相關文件