設計描述文章 - 設計元素萃取 - 研究方法與設計 - 應用文字探勘技術萃取設計概念之研究

第三章研究方法與設計

第二節、設計元素萃取

3.2.1. 設計描述文章

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節、

設計元素萃取

3.2.1. 設計描述文章

為了取得完整的產品描述，而非一般對於設計產品的評論，故以四大國際設計獎項為目標，其中有著 50 多年悠久歷史的 iF 設計獎以及 Red Dot 獎是以工業設計為評選標的而舉辦的國際獎項。iF 設計獎每年定期由德國漢諾威工業設計論壇舉辦，是全球公認最有影響力的設計大獎之一，以振興工業設計為目的，

提倡設計理念的創新，有「工業設計界的奧斯卡獎」之稱，而 Red Dot 獎是由歐洲最具聲望的德國設計協會 Design Zentrum Nordrhein Westfalen 所設立。兩個獎項入圍的設計產品都必須有產品的設計理念及設計概念，且在官方網站以線上展覽的方式可供一般民眾瀏覽得獎的設計作品，故非常適合本研究擷取。

iF 設計獎線上展覽範例

產品名產品分

產品圖

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

產品名稱:Café Chair 產品分類: Chair 產品描述:

The Café Chair is a modern translation of the traditional café chair. This fully wooden chair has a removable, 3D-knitted and semi-transparent back cover that gives the seat a highly individual character while offering exceptional comfort.

Café chair 是現代版的傳統咖啡椅，可移動式全木製的椅子，3D 針織技術與半透明的靠背，讓這張椅子同時具備了高度的舒適以及個性。

圖 3-2 iF 設計獎線上展覽範例 [資料來源: iF 官方網站] 3.2.2. 內容擷取

由資料下載模組所擷取之產品描述檔案皆為 html 格式，因此必須分析其標籤內容及規則如圖，已從擷取出我們所真正需要的產品描述文以及產品圖片，依照線上展覽的網頁格式，透過解析其中內文標籤的內容即可從中擷取出文章及圖片，供後續步驟使用。

圖 3-3html 標籤規則範例

[資料來源: iF 官方網站]

最後總共從 iF 擷取了 103 項產品描述，Red Dot 擷取 157 項產品描述，並擷取產品圖片，提供接下來的處理。

3.2.3. 斷詞處理

由於本研究處理之產品描述為英文文章，在英文的斷詞的工作相較於中文斷詞容易許多。由於英文的詞與詞之間是皆存在著空白字源，因此英文文件只需要

‧

套件 Apache OpenNLP(http://opennlp.sourceforge.net)，OpenNLP 是一個開放原始碼的自然語言處理機構。此機構的主要角色是促進此領域的發展，並且幫助自然語言處理的研究人員更為容易的開發相關套件，是一個基於機器學習的自然語言文本處理的開發工具套件。它提供了許多不同的自然語言處理工具，像是句子切割(sentence detection)、分詞(tokenization)、詞類標記(part-of-speech tagging)、文法剖析(parsing)、專有名詞辨認(named-entity detection)與指稱詞解析(coreference finder)。工具間可以相互使用，因此不需要花額外時間在電腦程式中轉換資料型 CC - Coordinating conjunction

CD - Cardinal number DT - Determiner EX - Existential there FW - Foreign word

IN - Preposition or subordinating conjunction

JJ - Adjective

JJR - Adjective, comparative JJS - Adjective, superlative LS - List item marker MD - Modal

PDT - Predeterminer POS - Possessive ending PRP - Personal pronoun

PRP$ - Possessive pronoun (prolog version PRP-S)

RB - Adverb

RBR - Adverb, comparative RBS - Adverb, superlative

‧

NNP - Proper noun, singular NNPS - Proper noun, plural VB - Verb, base form VBD - Verb, past tense

VBG - Verb, gerund or present participle

VBN - Verb, past participle

VBP - Verb, non-3rd person singular present

VBZ - Verb, 3rd person singular present

RP - Particle SYM - Symbol TO - to

UH - Interjection WDT - Wh-determiner WP - Wh-pronoun

WP$ - Possessive wh-pronoun (prolog version WP-S)

WRB - Wh-adverb

(資料來源:本研究自行整理)

另外尚有一些技術名詞與一般詞彙性質不同，不同專業領域有不同的技術名詞，而技術名詞通常含有知識性及專業知識；非專業領域、不熟悉技術名詞用法的人，如果要認知技術名詞的涵義有其困難性(莊怡軒，2011)。例如，「adaptation level theory(適應水準理論)」這三個英文詞彙，如果閱讀者具有相關的專業背景，

就不會把三個詞彙拆開來閱讀。解決的方法則是建立技術名詞表。設計產品的描法稱為 bag-of-word 或向量空間模型(Vector Space Medal)。其中w_i表示字典中的字詞在文件中的權重值，其維度為字典檔字詞的總數。

‧

透過向量模式(Salton and Lesk,1968)表示之文件其中字詞的權重可以利用 TF-IDF (term frequency and inverse document frequency)來代表，其中 tf 視為單一文件內部的分布特性，可以用來描述一篇文件對定義之索引項目的包含程度，也

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

文件經過 SVM 表示之後，將以倒轉檔索引法建置產品描述文件索引。倒轉檔索引方法是一種基本且廣泛應用於資訊檢索系統的索引方式，其主要目的是提供快速的檢索以改善使用者建所資料的速度。倒轉檔主要架構包含文件表 (Documents file)、詞典表(Dictionary)以及倒轉字串表(Inversion list or posting files) 三個資料表(Kowalski,2007) 。文件表主要是記錄每筆文件的關鍵字詞；詞典表是紀錄經排序後的關鍵字詞，並紀錄其出現的文件總數(DF)及字詞編號(Term ID)，

而倒轉字串表則是記錄所有文件的關鍵字詞並關聯至包含其字詞的文件編號。當使用者以關鍵字詞檢索文件時會由詞典檔找出關鍵字所對應的字詞編號(Term ID)，接著會透過字詞編號(Term ID)關聯至倒轉字串表找出字詞所出現的所有文件。

研究對於產品描述文件之索引建置步驟如下，其示意圖如圖 3-2 所示：

1. 每篇產品描述文件給予一個唯一編號(Doc ID)。

2. 對於斷詞後文件的每個字詞做拜訪，若遇到停用字詞則將此字詞移除。

3. 若字詞在索引過的文件中未曾出現過，則在詞庫中加入此字詞，並將字詞關聯至文件，並將 DF 設為 1。

4. 若字詞於已存在於詞庫之中，則直接將字詞語文件做關聯並將此字詞的 DF 加 1。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 3-4 文件索引示意圖

[資料來源:吳振和,2011]

第三節、

設計概念分群

本研究由於資料的型態，即簡單直覺的需求採取 kNN( K-最鄰近演算法)演算法利用文字探勘挖掘出來的設計元素當作特徵值，進行產品描述的分群，計算與未知類別之文件的相似度來將其分群出多種設計概念。

3.3.1. kNN 分群

本研究由於資料的型態，即簡單直覺的需求採取 kNN( K-最鄰近演算法)演算法進行產品描述的分群，計算與已知類別之文件的相似度來判斷未知類別文件的可能類別。

分群的步驟如下

1. 將產品描述文章轉換為向量表示。

2. 將新進產品描述文章與以產品描述文章集合內之所有文章進行相似度的計算，比對門檻值取出前 k 份最相似的產品描述文章。

3. 將這 k 份產品描述文所屬的所有類別皆列為新進產品描述文的候選

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

群。

4. 將這 k 份產品描述文與新產品描述文進行相似度計算，以將新產品描述文歸屬於相似度最高之類別。

而文件的相似度則採用 cosine 相似度來加以計算。

cos�

q ,

dj � =_�d^d^j^∗q

j�∗|q|= ^∑ⁿⁱ⁼¹^d^j^×^q

�∑ⁿ_i=1(d_j)²×�∑ⁿ_i=1(q)²

... ……….

(公式 4) 其中|d_j|和|q_j|為文件及查詢向量的長度，|d_j|在文件空間中提供了正規化的作用。

經由分群過後的產品推薦文章群集，觀察各群集內所組成之詞彙，利用字詞權重調整及出現在該群集文章數，判斷字詞重要性，並加以分析該群集字詞之共通性，給定代表群集之概念名稱。

產生多組概念後，則可以依照使用者需求，利用倒轉檔索引及布林檢索模式做檢索，將欲查詢之多個設計需求作為查詢字串，對文件資料庫做檢索，以查詢字串檢索出該群集內所代表概念之字詞，或檢索多個群集所代表之概念字詞組合成符合顧客需求之設計概念。

3.3.2. 分群規則

進行 kNN 分群時，為了得到較佳的分群效果，會以階段的方式向下分群，

本研究則是以平均群內相似度來判斷是否繼續向下分群。如果個群別都已達到指定之平均群內相似度，則表示以達到足夠相似進行概念分析

平均群內相似度是將每一群集內的文件，兩兩比較後將相似度加總除以比較次數以獲得各群之群內相似度。

為了比較與父群別相似度的差異，利用加權概念，將各群計算完成之群內相似度乘上各群所含之文件數佔所有文件數的比例，即可獲得加權平均群內相似

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

度。

平均群內相似度= ∑ ^∑^di∈Ck_N^∑^dj∈Ck^sim(dⁱ^,d^j⁾

k∗(N_k−1)∗¹₂

C_k ∗^N_N^k⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯(公式 5) 其中，N為文件總數；N_k為第C_k 群之文件數量；sim(d_i, d_j)則是C_k群內某兩篇文件之相似度。將每次分群的加權平均群內相似度與其父群別比較計算出成長率((加權平均群內相似度-父群別群內相似度)/ 父群別群內相似度)來確定每次分群具有效果。

另外再進行分群時可能會造成某一群內只含有一篇產品描述，此種情況有可能是因為門檻值的過度調整產生或著是較特別的產品描述文使得群內相似度的無法提升。面對這樣的情況有兩種處理方式，第一，利用質心計算，將只含一篇描述的群集合併最相似的群集。

質心計算(吳文峰，2002)公式為：

𝐶i

��⃗ =_𝑛¹

𝑖 ∑_𝑑∈𝐶 𝑑 ��⃗

𝑖 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯(公式 6) 其中，𝑑 ��⃗為文件向量，_𝑑_{��⃗ = (𝑑}⁽¹⁾_{, 𝑑}⁽²⁾_{, … , 𝑑}^��d^{��⃗��}_)，𝑑^(𝑗)表示第 j 個詞彙在文件 d 中

的權重，_�𝑑_{��⃗�}則為文章長度；n_i為群集C_i中的文件數。算出質心後各別計算與一篇

一群的群集距離，合併最近似的群集。

第二，如果經過合併後，調整門檻值還是無法提高分群效果，則捨棄一篇一群的群集，藉以提高各群別的群內相似度。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第四章研究結果

第一節、

群集結構

為找出合適的群集以代表設計概念，並依照制定的分群規則逐步分群，接著在將概念中包含之辭彙當作設計元素並加以分類，幫助觀察概念內涵，加以分析訂定概念名稱。

首先，藉由多次測試 k 值找出各階段分群合適之 k 值，但並無明顯影響分群結果，故所有分群皆採用 k=15 進行分群動作，再來為了得到第一次分群門檻值，

計算未分群之 260 篇產品描述文章相似度得到 0.019958，將其四捨五入到小數第三位當作第一次分群門檻值 0.02，並逐步提升 0.01 來進行階段性的分群；當每一群集群內相似度皆大於 0.05 時，則停止階段分群。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

由第 0 群 260 篇產品描述經過第一次分群後，總分群結構如下圖:

圖 4-1 總分群結構圖 (群別編號|群內篇數 )

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節、

各階段分群結果

4.2.1. 第一階段分群

表 4-1 第一階段分群結果 父群別 群別 篇數組內相似度

0 1 140 0.02201 2 120 0.02112 加權平均相似度 0.021599

成長率 8.22%

第一階段分群結果如表 4-1，組內相似度由 0.019958 提升至 0.021599、成長 8.22%，但分群後未達概念分析標準，繼續進行第二階段分群。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

4.2.2. 第二階段分群

表 4-2 第二階段分群結果 1 父群別 群別 篇數組內相似度

1 3 63 0.03123 4 13 0.04351 5 5 0.05859 6 6 0.04441 7 28 0.03694 8 25 0.0299 加權平均相似度 0.034818

成長率 58.17%

第二階段中由父群別 1 向下分群結果 1 如表 4-2，在門檻值提升至 0.05 的情況下，組內相似度由 0.02201 提升至 0.034818、成長 58.17%；群別 6、7、8 未達概念分析標準，繼續進行下階段分群；群別 5 則符合概念分析規則，其概念分析如下:

‧

感覺元素視覺的（0.1478），數位的（0.1326），微妙的（0.0908），純的（0.0908），笨重的

（0.0663），全方位的（0.0663），快節奏

在文檔中應用文字探勘技術萃取設計概念之研究 - 政大學術集成 (頁 24-0)

設計描述文章

第三章 研究方法與設計

第二節、 設計元素萃取

3.2.1. 設計描述文章

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

設計元素萃取

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

設計概念分群

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

q ,

... ……….

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第四章 研究結果

群集結構

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

各階段分群結果

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

第三章研究方法與設計

第二節、設計元素萃取

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

第四章研究結果

立政治大學

立政治大學

立政治大學