• 沒有找到結果。

第三章 研究方法與設計

第三節、 設計概念分群

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

21

圖 3-4 文件索引示意圖

[資料來源:吳振和,2011]

第三節、

設計概念分群

本研究由於資料的型態,即簡單直覺的需求採取 kNN( K-最鄰近演算法)演 算法利用文字探勘挖掘出來的設計元素當作特徵值,進行產品描述的分群,計算 與未知類別之文件的相似度來將其分群出多種設計概念。

3.3.1. kNN 分群

本研究由於資料的型態,即簡單直覺的需求採取 kNN( K-最鄰近演算法)演 算法進行產品描述的分群,計算與已知類別之文件的相似度來判斷未知類別文件 的可能類別。

分群的步驟如下

1. 將產品描述文章轉換為向量表示。

2. 將新進產品描述文章與以產品描述文章集合內之所有文章進行相似度 的計算,比對門檻值取出前 k 份最相似的產品描述文章。

3. 將這 k 份產品描述文所屬的所有類別皆列為新進產品描述文的候選

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

22

群。

4. 將這 k 份產品描述文與新產品描述文進行相似度計算,以將新產品描述 文歸屬於相似度最高之類別。

而文件的相似度則採用 cosine 相似度來加以計算。

cos�

q ,

dj � =�ddj∗q

j∗|q|= ni=1dj×q

�∑ni=1(dj)2×�∑ni=1(q)2

... ……….

(公式 4) 其中|dj|和|qj|為文件及查詢向量的長度,|dj|在文件空間中提供了正規化的作用。

經由分群過後的產品推薦文章群集,觀察各群集內所組成之詞彙,利用字詞 權重調整及出現在該群集文章數,判斷字詞重要性,並加以分析該群集字詞之共 通性,給定代表群集之概念名稱。

產生多組概念後,則可以依照使用者需求,利用倒轉檔索引及布林檢索模式 做檢索,將欲查詢之多個設計需求作為查詢字串,對文件資料庫做檢索,以查詢 字串檢索出該群集內所代表概念之字詞,或檢索多個群集所代表之概念字詞組合 成符合顧客需求之設計概念。

3.3.2. 分群規則

進行 kNN 分群時,為了得到較佳的分群效果,會以階段的方式向下分群,

本研究則是以平均群內相似度來判斷是否繼續向下分群。如果個群別都已達到指 定之平均群內相似度,則表示以達到足夠相似進行概念分析

平均群內相似度是將每一群集內的文件,兩兩比較後將相似度加總除以比較 次數以獲得各群之群內相似度。

為了比較與父群別相似度的差異,利用加權概念,將各群計算完成之群內相 似度乘上各群所含之文件數佔所有文件數的比例,即可獲得加權平均群內相似

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

23

度。

平均群內相似度= ∑ di∈CkNdj∈Cksim(di,dj)

k∗(Nk−1)∗12

CkNNk⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯(公式 5) 其中,N為文件總數;Nk為第Ck 群之文件數量;sim(di, dj)則是Ck群內某兩 篇文件之相似度。將每次分群的加權平均群內相似度與其父群別比較計算出成長 率((加權平均群內相似度-父群別群內相似度)/ 父群別群內相似度)來確定每次分 群具有效果。

另外再進行分群時可能會造成某一群內只含有一篇產品描述,此種情況有可 能是因為門檻值的過度調整產生或著是較特別的產品描述文使得群內相似度的 無法提升。面對這樣的情況有兩種處理方式,第一,利用質心計算,將只含一篇 描述的群集合併最相似的群集。

質心計算(吳文峰,2002)公式為:

𝐶i

���⃗ =𝑛1

𝑖𝑑∈𝐶 𝑑 ���⃗

𝑖 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯(公式 6) 其中𝑑 ���⃗為文件向量,𝑑 ���⃗ = (𝑑(1), 𝑑(2), … , 𝑑��d ��⃗��),𝑑(𝑗)表示第 j 個詞彙在文件 d 中

的權重,�𝑑 ���⃗�則為文章長度;ni為群集Ci中的文件數。算出質心後各別計算與一篇

一群的群集距離,合併最近似的群集。

第二,如果經過合併後,調整門檻值還是無法提高分群效果,則捨棄一篇一 群的群集,藉以提高各群別的群內相似度。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

24

相關文件