• 沒有找到結果。

5.1 自動面向擷取

透過第四章的方法分類出屬於商家和產品的文字片段後,接著,要對這些文字

片段自動擷取出面向。[16]主張隱含的主題可代表一種面向,且可由非監督式主題模

型方法學習出來。因此LDA 所學習出的主題關鍵字可代表某些面向。不過只用 LDA

去產生面向代表字,由於自然語言用詞的多樣性,這些面向字詞數目是不夠的。因 此本論文會採用字詞的Word2Vec 向量表示法來擴展 LDA 學習出相關面向字,在後 續對評論文字片段進行面向判斷。

5.1.1 產生主題面向字

根據4.2.3 所述,利用 LDA 可分析出隱藏主題及主題中的關鍵字詞出現機率值,

本研究設定一個主題數,以及一個機率門檻值 θ,只有出現機率值大於 θ 值的字詞 才會被當成某主題底下的代表面向字,所成的集合以𝐴𝜔表示。以表4.8 所示範例,

當 θ 設為 0.03 時各主題取出的面向字如表 5.1 所示。

表5.1 LDA 主題面向字範例表

LDA 主題 主題面向字和 θ 值

Topic = 𝑇0 好評 0.08

物流 0.06

Topic = 𝑇1 收到 0.16

快遞 0.09 寶貝 0.06

Topic = 𝑇2 包裝 0.14

賣家 0.05 非常 0.05 嚴實 0.04 發貨 0.04

Topic = 𝑇3 頭髮 0.08

頭皮 0.06 感覺 0.04 洗完 0.04

Topic = 𝑇4 味道 0.06

姜味 0.05

5.1.2 擴展主題面向字

產生主題面向字後,接著會再擴展找出更多主題面向字。我們利用Word2Vec,

以所有評論當作語料庫,學習出各單詞的詞嵌入向量。對語料庫中找出跟𝐴𝜔中任一

個主題面向字相似度大於門檻值𝜃𝑆的字詞,取出來加入𝐴𝜔當作主題面向字的擴展字。

5.2 評論面向整理

5.2.1 評論面向對應

產生各主題面向字和其對應的擴展字後,接下來要將分類出來的商家和產品評 論文字片段歸到所屬面向。本論文方法會依據一個文字片段中,包含各主題面向中 的面向字個數來做判斷。指定到出現某個主題面向的面向字數最多的第一個主題面 向。

如表 5.2 範例所示,各主題𝑇0~𝑇𝑖會對應到面向𝐶0~𝐶𝑖以計數的方式來統計文字

片段中包含不同主題面向字的數目,若文字片段中皆未出現𝐴𝑤中的面向字,無法指

定到面向𝐶0~𝐶𝑖,就會歸類到”其他”面向,表 5.3 呈現了表 5.2 範例的文字片段所指 定之面向。

表5.2 文字片段主題計數表

文字片段 𝑇0 𝑇1 𝑇2 𝑇3 𝑇4

物流 也 很 快 1 0 0 0 0

味道 好聞 0 0 0 0 1

表 5.3 文字片段對應面向範例

文字片段 指定對應面向

物流 也 很 快 𝐶0

味道 好聞 𝐶4

5.2.2 評論摘要整合

由於許多評論文字片段會有類似的內容,本研究會一一比對各面向中的文字片

段,讓內容相似的文字片段只顯示一筆。對兩個文字片段𝑆𝑖及𝑆𝑗內每個字詞在

Word2Vec 模型學習的語意向量,做平均計算,得到𝑎𝑣𝑔_𝑣𝑖;文字片段𝑆𝑗的字詞也做 一樣的處理產生平均向量𝑎𝑣𝑔_𝑣𝑗。透過餘弦相似度(cosine similarity)計算𝑆𝑖和𝑆𝑗的相

似度,相似度若大於 σ 值則合併兩者,由|𝑆𝑖|和|𝑆𝑗|長度較長的文字片段代表,並將 記錄該文字片段已合併多少個文字片段,如(*2)。

本論文會利用底下的步驟來完成面向內所有文字片段比對整合:

1. 所有文字片段都會記錄一個 ID(1,2,3, …. ,l)和 Value = 1,l 為面向內所有文 字片段數量。

2. ID 小的文字片段開始對面向內所有文字片段做比對。

3. 首先,判斷兩者文字片段 ID 是否一樣,若一樣則跳過此文字片段,不一樣 則進行步驟4。

4. 判斷此兩個文字片段相似度是否大於σ 值,若大於則進行步驟 5,若小於則 跳過此文字片段。

5. 判斷此兩個文字片段的長短,較長文字片段的 Value 值會直接加上較短文字 片段的Value 值,而較短文字片段的 Value 值會清空為 0。

假設 σ 值設定為 0.9,表 5.4 會顯示以上步驟的範例。

表5.4 面向文字片段整合範例

ID 文字片段 內容 Value

1 𝑆𝑖 物流 快 1

2 𝑆𝑗 物流 也 很 快 1

1. ID(𝑆𝑖) ≠ ID(𝑆𝑗)。

2. sim(𝑆𝑖, 𝑆𝑗) = 0.93 > σ。

3. length(𝑆𝑖) < length(𝑆𝑗)。

4. Value(𝑆𝑖) = Value(𝑆𝑖) + Value(𝑆𝑗) = 2,Value(𝑆𝑗)設定為 0。

5. 產生”物流 也 很 快(*2)”的字串出來。

相關文件