• 沒有找到結果。

第四章 評論文字片段分類方法

4.2 評論分類特徵

4.2.3 關鍵詞特徵類型

本研究採用兩種方法進行挑選關鍵詞特徵:1) 卡方檢驗(Chi-square test) 關鍵詞挑選,2) LDA 主題關鍵詞挑選。利用上述兩方法挑選出關鍵字後,再用這 些關鍵字對評論產生特徵值,以下將一一詳述這三部分。

1) 卡方檢驗關鍵詞挑選

為了使用Chi-square 檢驗法挑選關鍵詞,本研究會先對現有資料以人為進行面 向(Aspect)標註,所需考慮之標註如表 4.5 所示:

表 4.5 人為標註面向

以表4.6 所示,字詞在面向 A 及非面相 A 分別有 2 個不同分佈的觀察值𝑂1、 𝑂2,每一個觀察值都會依面向 A 及非面相 A 的資料量計算出一個相對應的期望 值,分別是𝐸1、𝐸2,接著帶入[10]的公式五計算出每一個字詞所表示的卡方代表 值(𝑋2)

表 4.6 字詞出現分佈統計表

𝑂1 𝑂2

在面向A 中出現該字詞的文字片段數 在非面向A 中出現該字詞的文字片段數

𝑋2 = ∑ (𝑂𝑖−𝐸𝑖)2

𝐸𝑖

𝑖=1,2 (公式五)

表 4.7 所呈現為如何計算𝐸1、𝐸2和各字詞卡方代表值加總的範例,( )內代表 該字詞在此面向句的卡方代表值:

表4.7 各字詞在面向句卡方代表值範例

態度

Aspect 的文字片段數

非態度

Aspect 的文字片段數

Total 卡方代表值加總

客服 30(11.13) 10(7.78) 40 18.91(11.13+7.78)

洗髮水 5(9.88) 40(6.92) 45 16.8(9.88+6.92)

Total 35 50 85

𝐸1(客服) = 40 × (35/85) ∶= 16.46 𝐸2(客服) = 40 × (50/85) ∶= 23.52

𝑋2[態度(′客服 ′)] =(30 − 16.46)2

16.46 ∶= 11.13 𝑋2[非態度(′客服 ′)] =(10 − 23.52)2

23.52 ∶= 7.78

最後,各字詞在該面向句與非該面向句依計算出來的卡方代表值進行加總後

排序,取出前k 名的字詞當作各面向關鍵詞的依據。

2) LDA 主題關鍵詞挑選

本研究透過4.4.2 中介紹的 JGibbLDA 分析結果,不只可對各文字片段產生各 主題的程度值,還可得到各主題下相對應的字詞的出現機率(如公式六),各主題 T

下的字詞會依據公式六的𝑃𝑙𝑇𝑖值由大而小排序,本研究將各主題底下排序前k 名高 的字詞當作關鍵字。表格4.8 呈現一個當主題數 t = 5 時,主題底下顯示前 5 名字 詞的範例結果。

𝑃𝑙𝑇𝑖 = p(𝑤𝑜𝑟𝑑𝑙 | 𝑡𝑜𝑝𝑖𝑐𝑇𝑖) (公式六)

表 4.8 LDA 各主題底下字詞範例表

3) 文字片段關鍵字特徵值產生方法

分別以1)及 2)的方法挑選出出關鍵字後,要以這些關鍵字對評論產生特徵值。

本研究會運用Python 的 Word2Vec(https://github.com/zake7749/word2vec-tutorial)將

所有評論當作語料庫,以 Word2Vec 學習出各單詞的詞嵌入向量,之後利用此語

意向量表示來讓每個文字片段𝑆𝑖對每個關鍵字𝑘𝑤𝑗產生以下三種關鍵字特徵值:

3-1) 文字片段關鍵字相似度最大值

假設對關鍵字𝑘𝑤𝑗,而文字片段𝑆𝑖={𝑤1, … , 𝑤𝑛},則𝑤1到𝑤𝑛會先一一對𝑘𝑤𝑗以其 Word2Vec 模型產生的語意向量𝑉𝑤𝑙及𝑉𝑘𝑤𝑗計算餘弦相似度sim (𝑉𝑤𝑙, 𝑉𝑘𝑤𝑗)就會得到 一個特徵值𝑓𝑘𝑤1_𝑚𝑎𝑥,從中取最大值,其餘𝑘𝑤2, … , 𝑘𝑤𝑛則依此類推,產生出𝑓𝑘𝑤1_𝑚𝑎𝑥 的關鍵字特徵(j = 2,...n),公式如下:

𝑆𝑖. 𝑓𝑘𝑤1_𝑚𝑎𝑥 = max{𝜔𝑙∈ 𝑆𝑖| sim (𝑉𝑤𝑙, 𝑉𝑘𝑤𝑗)} (公式七) 3-2) 文字片段關鍵字相似度最小值

假設對關鍵字𝑘𝑤𝑗,而文字片段𝑆𝑖={𝑤1, … , 𝑤𝑛},則𝑤1到𝑤𝑛會先一一對𝑘𝑤𝑗以其 Word2Vec 模型產生的語意向量𝑉𝑤𝑙及𝑉𝑘𝑤𝑗計算餘弦相似度sim (𝑉𝑤𝑙, 𝑉𝑘𝑤𝑗)就會得到 一個特徵值𝑓𝑘𝑤1_𝑚𝑎𝑥,從中取最小值,其餘𝑘𝑤2, … , 𝑘𝑤𝑛則依此類推,產生出𝑓𝑘𝑤1_𝑚𝑎𝑥 的關鍵字特徵(j = 2,...n) ,公式如下:

𝑆𝑖. 𝑓𝑘𝑤1_𝑚𝑎𝑥 = min{𝜔𝑙 ∈ 𝑆𝑖| sim (𝑉𝑤𝑙, 𝑉𝑘𝑤𝑗)} (公式八) 3-3) 文字片段關鍵字相似度平均值

假設對關鍵字𝑘𝑤𝑗,而文字片段𝑆𝑖={𝑤1, … , 𝑤𝑛},則𝑤1到𝑤𝑛會先一一對𝑘𝑤𝑗以其

Word2Vec 模型產生的語意向量𝑉𝑤𝑙及𝑉𝑘𝑤𝑗計算餘弦相似度sim (𝑉𝑤𝑙, 𝑉𝑘𝑤𝑗)就會得到

相關文件