我們根據第五章提出的字詞重要性評估函式,在本章我們將顯示不同方法對
字詞重要性分析的效果,與不同字詞評估函式的效果。
6-1 實驗來源
我們蒐集了 2009 年 10 月以前相機論壇文章中,四大廠牌的討論句子,從這
些句子中取出詞性標註為名詞的字詞,同時我們也取出相機介紹文中,產品評論
與介紹的句子與詞性標註為名詞的字詞,以下為各大廠牌所蒐集的句子數與字詞
數如下表 6.1 所示。此外,我們亦選擇 Wiktionary Frequency List 中的前 5000 名
的常見字詞作為字詞篩選的依據。
相機論壇 Sony Nikon Fuji Olympus
句子數 9099 10657 4264 9834
字詞數 4096 4735 2764 4292
相機介紹 Sony Nikon Fuji Olympus
句子數 740 886 412 606
字詞數 1022 1126 697 939
表 6.1 文件庫的句數與字詞數
6-2 實驗評估
我們用來評估字詞重要性的依據,是以一個由人工挑選出來的特徵列表,其
列表分成兩個部份,其一部分為所有廠牌共有的特徵字詞諸如:“design”、
“battery”等等,以下通稱為相機特徵字詞。另一部分為各個廠牌特有的特徵字
詞,如:Sony 的“cybershot”、 “dsc”、 “H20”等等這類字詞。下表 6.2 為特徵列
表的字詞數,Common 表示不分廠牌都具有的相機特徵字詞數,其他則表示各廠
牌特有的特徵字詞數。
Common Sony Nikon Fuji Olympus
特徵字詞數 128 206 210 117 156
表 6.2 特徵字詞數
[實驗 1] 文件庫內部字詞為特徵字詞之比率評估
首先我們希望找出來的字詞,能夠涵蓋多數的特徵字詞,並且是每個廠牌都
會提到的特徵字詞,我們實驗從論壇文件庫及相機介紹文件庫中,各個廠牌取出
的字詞確實有對應到相機特徵字詞,以及各廠牌特有特徵字詞的比例。
[實驗結果]
如下頁表 6.3 所示,就論壇文件庫的部份可看出,各別廠牌可被找出是相機
特徵字詞,平均可以找出 100 個左右的相機特徵字詞,其中在各個廠牌共同會出
現的特徵字詞就高達 97 個(75.8%),而各廠牌特有的特徵字詞,約 10 個左右的
特徵字詞會有遺失的情況。
在相機介紹文件庫中其找出的相機特徵字詞比例與各廠牌特徵字詞比例皆
較低,主要是因為我們取用的相機文件庫的資料數量,相對於論壇文件庫來說減
少了許多,然而就特徵字詞的部份找出的效果平均都還有在 80.0%左右,故我們
可以知道不管在論壇或相機介紹文件庫中包含了多數的特徵字詞。
論壇文件庫 Sony Nikon Fuji Olympus
涵蓋相機特徵字詞比例 84.3% 86.7% 81.3% 86.0%
涵蓋各廠牌特徵字詞比例 94.6% 92.0% 92.3% 91.0%
相機介紹文件庫 Sony Nikon Fuji Olympus
涵蓋相機特徵字詞比例 79.7% 83.6% 75.8% 81.25%
涵蓋各廠牌特徵字詞比例 10.5% 11.3% 10.0% 8.4%
表 6.3 文件庫內部特徵字詞涵蓋比例
[實驗 2] 論壇文件庫內部字詞資訊的準確度
我們希望透過論壇文件庫的字詞分析方法擷取出較多的特徵字詞,首先我們
必頇先了解各個字詞分析方法找出來的字詞是否準確,我們評估是根據排名在前
N 名中可以找出多少的特徵字詞,以 Precsion@N 表示,以下實驗皆以四大廠牌
的結果進行平均。
透過我們的字詞分析方法,每個字詞會得到一個字詞重要性評估值,由這個
數值高低決定字詞的重要性程度,我們再透過不同的結合方式設計重要性評估函
式,在此我們分別考慮加入常見字詞列表 Frequency List (以下以 FL 簡稱)與否的
準確度。
[實驗結果]
圖 6.1 顯示使用文件庫內部各種字詞分析方法計算字詞重要性程度,我們可
以看出依據各種字詞分析方法所得的評估值都可達到不錯的效果,在前 100 名的
準確度都可達到 0.45 以上,而其中 KL divergence(以下以 KL 簡稱)可達到很高的
準確度,主要是受到各別廠牌特徵可以找到較多的廠牌特有的特徵字詞,而詞頻
(以下以 TF 簡稱)在平均約 0.5 左右,效果也維持在一個穩定的狀態。
圖 6.2 顯示結合兩種不同的重要性評估函式的準確度,以前 100 名來看,可
發現雖然整體的準確度相較於單一字詞分析方法來說有下降的趨勢,但當我們同
時考慮 TF 與 KL 的重要性的效果比其他兩者較好,也突顯出 TF 值高與 KL 值高
的字詞能有效地被找出來。
圖 6.3 顯示重要性評估評估函式的準確度,我們發現加入 Mutual Information
值(以下以 MI 值簡稱)的字詞重要性評估,準確度下降主要是因為 MI 值會受到
與廠牌字詞太常出現但是並不一定是有意義的字詞,所以若未考綠 FL 的情況,
在前 100 名中只可達到 0.29 的準確度,結合各方法與 FL (以TF*KL*MI(FL)_F表
示),則可提升到 0.33,顯示加入 Frequency List Filtering 可以有效地過濾一些不
重要的字詞並提升準確度。在此,我們發現使用論壇文件庫的重要性評估函式的
效果並未比詞頻的效果好,主要是因為重要性評估函式希望是找出在 TF、KL、
TF_F KL_F MI_F FL_F
圖 6.1 論壇文件庫內部字詞資訊重要性各別分析的準確度
0
TF*KL_F TF*MI_F KL*MI_F
圖 6.2 論壇文件庫內部字詞重要性兩兩結合方法評估的準確度
TF*KL_F TF*KL*MI_F TF*KL*MI(FL)_F
圖 6.3 論壇文件庫內部字詞多個方法結合重要性評估的準確度
0
KL_F(FL) IntraScoreF(FL)
圖 6.4 論壇文件庫中相機特徵字詞的準確度比較
因為相機介紹文的資料量相對於論壇文件庫較少,而使得一些 TF 值低的特徵字
詞並未被找出來。
圖 6.6 針對兩兩字詞分析進行結合,我們可以看到在前 100 名中詞頻與 KL
的效果是較穩定的,而 TF 與 MI 的結合在 70 名之後表現較 TF 與 KL 的效果好,
主要是因為在相機介紹文件庫中,主要在介紹相機的功能等等,故出現與廠牌共
同出現的 TF 高,而使得 70 名之後的表現較好。
圖 6.7 顯示相機介紹文件庫內部重要性評估函式的準確度。在這裡我們很明
顯發現未考慮常見字詞列表過濾字詞的效果比較好,其原因是 Frequency List 中
包含部分特徵字詞,而因為在相機介紹文中 TF 與在 Frequency List 的機率分布
懸殊,使得特徵字詞的權重值被降低。
在各個分析方法中 K 與論壇文件庫同樣有達到不錯的效果,但亦是受到各
廠牌的特有特徵字詞影響,若單就相機特徵字詞的準確度來看,其效果亦沒有結
合各種分析方法的字詞重要性評估函式效果好。
整體而言,論壇與相機介紹文件庫內部字詞資訊中,若各別考慮廠牌特有特
徵字詞時,則採用 KL 的結果可達到較高的準確度,但若要對整體的特徵字詞進
行重要性評估,雖然相較於各別方法的準確度略低,但我們的產品特徵字詞重要
性評估函式可以達到不錯的效果,值得一提的是我們對於論壇與相機介紹文件庫
的字詞重要性評估函式的結果是一致的。
0
TF_C KL_C MI_C FL_C
圖 6.5 相機介紹文件庫內部字詞重要性各別方法的準確度
TF*KL_C TF*MI_C KL*MI_C
圖 6.6 相機介紹文件庫內部字詞重要性兩兩結合方法評估的準確度
0
TF*KL_C TF*KL*MI_C TF*KL*MI(FL)_C
圖 6.7 相機介紹文件庫內部字詞多個方法結合重要性評估的準確度
KL_C(FL) IntraScoreC(FL)
圖 6.8 相機介紹文件庫中相機特徵字詞的準確度比較
[實驗 4] 跨文件庫字詞資訊的準確度
對於各個文件庫字詞都有其優缺點,我們希望透過跨文件庫的字詞資訊,有
效擷取出特徵字詞。
透過跨文件庫字詞分析方法,每個字詞都可取得一個字詞重要性評估值,透
過字詞重要性評估函式,我們討論加入常見字詞列表與否的準確度。
[實驗結果]
圖 6.9 顯示跨文件庫字詞各分析方法的準確度。KLCF在擷取特徵字詞時,其
效果比較突顯,主要是因為在相機介紹文件庫中字詞的重要性比較能被突顯,而
相對於論壇文件庫的字詞包含較多常見用語,KLCF 可以得到不錯的效果,其前
50 名的準確度還有 0.6。而 DJS的效果跟 KLCF雖然相似,但其取出特徵字詞的集
合是有些許差異的,這表示 DJS跟 KLCF可以擷取出不同的特徵字詞,表示我們
可以在跨文件庫中擷取到我們想要的特徵字詞。
圖 6.10 顯示 KLCF與 DJS是具有互補的關係,主要是因為 KLCF會過濾掉大
量的字詞,而當中卻有一些字詞是重要的,而 DJS可以補償一些相機介紹文件庫
中也很重要的字詞。
圖 6.11 顯示加入 FL 考慮與否的跨文件庫各種重要性評估函式準確度。我們
比較了跨文件庫結合 Intra Score、TF、KL、TF 與 KL 的效果,我們發現結合 TF
的效果比其他各方法的效果較好;當加入 FL 的效果更是被突顯出來,主要是受
到 DJS在論壇常見的字詞亦因為 TF 夠高的關係而被擷取出來,所以加入 FL 可以
有效地將這種字詞過濾並篩選掉,在加入 FL 的情況下,前 50 名的準確度提升
KLCF JSD
圖 6.9 跨文件庫字詞重要性各別分析方法的準確度
KLCF*JSD KLCF+JSD
圖 6.10 跨文件庫字詞重要性結合兩個分析方法的準確度
0
IntraScoreF*KLCF+JSD(FL) KL*KLCF+JSD
TF*KL*KLCF+JSD TF*KLCF+JSD
TF*KLCF+JSD(FL)
IntraScoreC(FL) IntraScoreF(FL) InterScore(FL)
圖 6.12 各個重要性評估函式的準確度
我們從上述各個實驗可以發現,單就文件庫內部資訊想要進行特徵字詞的擷
IntraScoreC(FL) IntraScoreF(FL) InterScore(FL)
圖 6.13 相機特徵字詞在各個重要性評估函式的準確度
Intra_Score F Intra_Score C Inter_Score stick image h20
memory mode range picture † point alpha review * performance * mode shot improvement * image
image balance system † mode mirror camera † thank * program † gallery
size portrait grip Model ability view lot * lack iso anyone * colour * button driver † raw dslr product * issue scene speed tone sensor computer † display model
raw bit click † angle front * Sony
file card option m * combination * shooting
*為口語與一般字詞, † 一般特徵字詞