應用文件分類技術(LSI,SVMs)於語意相關性量測

第六章實驗成果與比較分析

6.2. 應用文件分類技術(LSI,SVMs)於語意相關性量測

在本研究第二個實驗當中，我們將比較一個監督式學習 SVMs 以及一個非監督式學習 LSI 在文件之間語意相關性量測的差異，在監督式學習方面將以 LEE 所提出的一個基於 SVMs 的多重分類器架構下進行語意相關性量測；而在非監督式學習方面將以第四章所提到的一個以類別中心為基礎的文件分類器來進行語意相關性量測。其系統架構圖如圖 6.40 以及圖 6.41 所示。

圖 6. 40 監督式語意相關性量測架構

LSI Category Centroid 1

LSI Category Centroid 2

LSI Category Centroid 3

LSI Category Centroid N

Test Document Semantic Vector

Query Transform U,S^-1matrice

Test Document

Vector x

Vector xLSI

y=<Cat_Centi,xLSI>

Vector Y={y1,y2,y3, ,yn}

圖 6. 41 非監督式語意相關性量測架構

語意量測實驗一：針對下列五個主題比較 SVMs[38]與 LSI(K=100)在語意向量之間的差異，其中五個主題分別為：政治、地方、財經、體育以及影視。而 SVMs 的取捨參數(trade-off)分別為政治 C=4、地方 C=1、財經 C=1、

體育 C=4 以及影視 C=11 的情況下來進行語意量測的實驗。

表 6. 5 奧運相關主題文件之語意向量

Doc ID Method 政治地方財經體育影視

SVMs -0.37894 -0.42436 -0.1668 1 -0.49548 A01 LSI 0.015714 -0.026781 -0.002254 0.327299 -0.03203

SVMs -0.75771 -1 -0.17115 0.93606 -1 A02 LSI 0.020138 -0.089264 0.017295 0.219303 0.002517

SVMs -0.11987 -0.2311 -0.10871 1 -0.28442 A03 LSI 0.004534 -0.004409 0.001757 0.274864 0.000639

SVMs -0.69532 -0.69291 -0.17455 0.923604 -0.91693 A04 LSI -0.003142 0.007078 0.055051 0.233313 -0.01228

表 6. 6 總統選舉相關主題文件之語意向量

Doc ID Method 政治地方財經體育影視

SVMs 0.812184 -0.52545 -0.18117 -0.2197 -0.52572 B01 LSI 0.25727 0.000988 0.001971 -0.003569 -0.03381

SVMs 1 -0.57839 -0.10472 -0.41619 -0.44583 B02 LSI 0.145161 0.004914 -0.026677 0.000877 0.013331

SVMs 0.499871 -0.3078 -0.10145 -0.22144 -0.21905 B03 LSI 0.113082 0.001995 -0.003348 -0.002253 0.015409

SVMs 0.87648 -0.40242 -0.09017 -0.43478 -0.3467 B04 LSI 0.185217 -0.004325 -0.005811 0.00141 0.026434

SVMs 1 -0.41593 -0.11963 -0.72554 -0.43798 B05 LSI 0.16239 0.019193 -0.015947 -0.001529 0.023357

SVMs 0.672464 -0.21272 -0.11468 -0.54275 -0.11889 B06 LSI 0.129233 0.063483 -0.010254 0.014755 0.030768

表 6. 7 股市相關主題之文件語意向量 Doc

ID Method 政治地方財經體育影視

SVMs -0.40599 -0.79534 1 -0.52884 -0.60277 C01 LSI -0.04163 0.03272 0.286181 -0.018962 -0.01132

SVMs -0.57777 -0.74709 1 -0.59084 -0.57861 C02 LSI 0.026987 -0.067795 0.215194 0.016177 0.012235

SVMs -0.07157 -0.42728 0.249988 -0.17057 -0.17057 C03 LSI -0.009488 -0.010631 0.202265 -0.003762 -0.02898

SVMs -0.03496 -0.09389 0.101825 -0.003816 -0.08316 C04 LSI -0.020054 0.038523 0.264417 0.001301 0.003815

表 6. 8 颱風相關主題之文件語意向量 Doc

ID Method 政治地方財經體育影視

SVMs -0.46142 0.891476 0.139402 -0.03818 -0.22716 D01 LSI 0.036209 0.182336 -0.016688 0.015148 -0.02001

SVMs -0.22078 0.797401 -0.20517 -0.32953 -0.65897 D02 LSI 0.004853 0.119845 0.022342 0.033017 0.018202

SVMs -0.30505 0.986991 -0.23 -0.56894 -0.61897 D03 LSI 0.011467 0.234351 -0.002652 0.001326 -0.0038 SVMs -0.55108 -0.01332 -0.10681 -0.47601 -0.0724 D04 LSI 0.046847 0.107625 0.002706 -0.002293 0.019681

SVMs -0.19335 0.91271 -0.0209 -0.36316 -012035 D05 LSI 0.028606 0.064873 -0.014474 -0.007939 0.018093

SVMs -0.18953 0.486716 -0.0783 -0.29895 -0.39792 D06 LSI -0.010863 0.145753 -0.009786 0.001075 0.061908

SVMs -0.28673 -0.939511 -0.1692 -0.71483 -0.84118 D07 LSI 0.031493 0.094223 0.003517 0.005031 0.014684

SVMs -0.18817 0.866453 -0.19675 -0.3674 -0.42675 D08 LSI 0.055258 0.096226 -0.007721 -0.004313 0.014142

表 6. 9 金馬獎相關主題之文件語意向量 Doc

ID Method 政治地方財經體育影視

SVMs -0.33646 -0.8082 -0.04921 -0.55368 0.882657 E01 LSI 0.013421 -0.052545 -0.010336 -0.001266 0.311545

SVMs -0.21386 -0.48328 -0.38393 -0.28549 1 E02 LSI 0.034167 -0.02018 0.006737 -0.031947 0.336659

SVMs -0.4301 -0.62856 -0.22967 -0.51188 1 E03 LSI -0.009555 -0.016275 -0.015535 0.006878 0.363582

SVMs -0.17358 -0.41328 -0.17779 -0.33717 1 E04 LSI 0.00457 0.004778 -0.029062 -0.002641 0.349496

SVMs -0.4358 -0.75351 -0.24676 -0.97396 1 E05 LSI 0.061851 -0.01867 -0.048319 -0.028247 0.428903

由表 6.5~表 6.9 所示，在 LSI 產生的文件語意向量中，文件在非相關類別的語意值輸出有時無法達到如 SVMs 所能輸出的負數值，卻只能輸出一個相當小的正數值，這是因為 LSI 在訓練過程(SVD)當中是透過一個包含所有類別相關的文件向量空間，所以當詞彙之間有涵蓋多於一個類別，將會使得類別之間透過具有相同的詞彙來建立起關係。為了證實類別之間將不受這些數值的影響，本研究將針對文件之間的相關性來證實上述了假設。

語意量測實驗二：透過量測距離的方法，量測文件之間的相關性，根據 LEE 的實驗，本研究同樣在每個類別選擇兩個文件來代表。而距離的量測公式如(6.11)式，

Distance( , )= 2

Dim A B

A B Dim

  

 (6.11)

表 6. 10 透過距離量測語意向量之間的相關性(SVMs,LSI)

Dist A01 A02 B01 B02 C01 C02 D01 D02 E01 E02

A01 100.00% 86.90% 58.94% 66.00% 54.14% 61.53% 62.32% 65.74% 52.38% 61.75%

A02 72.9% 100.00% 64.37% 72.75% 61.55% 71.53% 66.63% 71.90% 48.48% 57.59%

B01 46% 34.8% 100.00% 87.49% 58.54% 63.32% 71.25% 78.84% 57.37% 66.85%

B02 37.3% 26.5% 90.6% 100.00% 67.48% 72.07% 71.31% 80.93% 56.61% 65.40%

C01 38.0% 38.0% 44.7% 42.7% 100.00% 85.29% 65.16% 65.73% 54.97% 62.43%

C02 36.4% 36.9% 40.7% 38.5% 94.0% 100.00% 71.20% 72.94% 54.41% 60.84%

D01 52.8% 35.3% 60.5% 55.1% 46.9% 46.1% 100.00% 90.95% 59.27% 65.64%

D02 45.4% 27.1% 37.9% 32.6% 37.0% 37.8% 77.1% 100.00% 58.65% 64.45%

E01 33.1% 22.6% 40.7% 39.8% 42.4% 42.6% 43.2% 33.4% 100.00% 94.22%

E02 37.0% 21.9% 41.5% 39.4% 31.6% 31.4% 47.2% 38.4% 82.2% 100.00%

如表 6.10 所示，粗體為本實驗數據，瘦體為 SVMs 數據，透過歐基里德距離量測，可有效應用語意向量區分不同類別的文件，雖然實驗結果並非能如 SVMs 來的明顯，但已經足以區分是否為相同類別的文件。

語意量測實驗三：透過量測餘弦(cosine)的方法，量測文件之間的相關性，根據 LEE 的實驗，本研究同樣在每個類別選擇兩個文件來代表。

表 6. 11 透過 Cosine 量測語意向量之間的相關性(SVMs,LSI)

Cos A01 A02 B01 B02 C01 C02 D01 D02 E01 E02

A01 100.00% 94.48% 4.58% 6.89% -8.32% -4.31% 2.13% -28.00% -8.37% 7.01%

A02 96.1% 100.00% 4.23% 6.37% 8.83% 25.56% 16.69% -9.62% -17.94% -4.38%

B01 49.5% 56.2% 100.00% 95.75% -12.76% -31.62% 20.64% 22.72% -8.71% 13.04%

B02 40.6% 47.8% 99% 100.00% 11.53% -5.85% 2.05% 5.12% -2.81% 18.10%

C01 52.4% 67.8% 59.6% 60.7% 100.00% 86.80% -0.69% -34.86% -9.46% 7.61%

C02 51.6% 67.4% 54.8% 56.0% 99.7% 100.00% 24.90% -8.34% -3.38% 9.45%

D01 38.6% 40.6% 51.8% 50.4% 48.2% 49.4% 100.00% 90.61% -25.47% -2.06%

D02 44.2% 40.3% 18.7% 17.9% 43.1% 46.8% 87.4% 100.00% -15.24% 6.83%

E01 35.1% 43.5% 44.1% 49.2% 61.5% 62.9% 15.0% 23.5% 100.00% 98.72%

E02 36.1% 37.9% 38.8% 43.1% 40.5% 42.2% 14.77% 26.4% 95.5% 100.00%

語意量測實驗四：透過量測 Dice 的方法，量測文件之間的相關性，根

Cos A01 A02 B01 B02 C01 C02 D01 D02 E01 E02

A01 100.00% 89.65% 4.45% 6.86% -8.25% -4.22% 1.83% -27.24% -8.37% 6.74%

A02 92.8% 100.00% 3.16% 5.71% 8.26% 25.54% 11.23% -8.01% -17.93% -4.11%

B01 49.5% 55.5% 100.00% 95.75% -12.67% -25.54% 19.62% 22.08% -8.54% 10.02%

B02 40.6% 48.0% 98.5% 100.00% 11.44% -5.35% 1.62% 5.06% -2.71% 13.25%

C01 52.3% 67.6% 59.1% 60.5% 100.00% 86.80% -0.63% -34.23% -9.43% 7.22%

C02 51.6% 67.2% 54.6% 55.9% 99.6% 100.00% 18.29% -7.11% -3.34% 8.74%

D01 41.6% 44.8% 51.4% 50.3% 48.8% 49.6% 100.00% 90.61% -22.39% -1.43%

D02 44.3% 41.8% 18.8% 18.7% 43.6% 47.1% 81.2% 100.00% -12.91% 4.49%

E01 35.2% 43.8% 44.2% 49.2% 61.4% 62.8% 25.4% 24.4% 100.00% 98.72%

E02 36.1% 38.8% 38.8% 43.1% 40.8% 42.2% 23.4% 26.7% 95.3% 100.00%

語意量測實驗五：透過量測 Jaccard 的方法，量測文件之間的相關性，

根據 LEE[38]的實驗，本研究同樣在每個類別選擇兩個文件來代表。而 Dice 的量測方式如(6.13)式。

Cos A01 A02 B01 B02 C01 C02 D01 D02 E01 E02

A01 100.00% 81.25% 2.28% 3.55% -3.96% -2.07% 0.92% -11.99% -4.01% 3.49%

A02 87.4% 100.00% 1.60% 2.94% 4.31% 14.64% 5.95% -3.85% -8.23% -2.02%

B01 49.8% 52.9% 100.00% 70.19% 2.28% 3.55% -5.96% -11.32% 10.88% 12.41%

B02 45.7% 49.0% 97.1% 100.00% 1.60% 2.94% 6.07% -2.60% 0.82% 2.60%

C01 51.2% 60.7% 55.0% 55.9% 100.00% 72.76% -0.31% -14.61% -4.50% 3.74%

C02 50;8% 60.4% 52.4% 53.1% 99.3% 100.00% 10.06% -3.43% -1.64% 4.57%

D01 46.1% 47.5% 50.7% 50.1% 49.4% 49.8% 100.00% 72.68% -10.07% -0.71%

D02 47.3% 46.2% 38.1% 38.1% 47.0% 48.6% 72.7% 100.00% -6.06% 2.30%

E01 43.5% 47.1% 49.6% 49.6% 56.5% 57.3% 40.1% 39.8% 100.00% 96.95%

E02 43.9% 45.0% 46.8% 46.8% 45.8% 46.5% 39.5% 40.6% 91.4% 100.00%

透過語意量測實驗三至語意量測實驗五的實驗所示，本研究所提出的方法可有效改善語意相關性量測的明顯度，可從 cosine、dice 以及 jaccard 等相似性的量測觀察出來。

以下我們將 SVMs 以及 LSI 應用在語意相關性量測的差異歸類如表 6.14 所示。

表 6. 14 SVMs 與 LSI 在語意相關性量測的差異

語意相關性量測 Support Vector Machines Latent Semantic Indexing

Num. Of Classifier Multiple (Number of Category) Same as SVM Number of Space Number of Category Only 1

Method Supervised Learning Unsupervised Learning

Semantic Vector Generated by Decision of SVM Generated by Similarity of Category Centroid and Doc

Training Parameter Kernel Function , C(trade off of Slack variable)

K(Dimensionality of LSI Space)

針對上述實驗結果，假使在沒有分類錯誤的情況下，SVMs 針對相關測試文件將標示為正的決策值，而不相關的測試文件將會得到負的決策值。因此在運算文件語意向量的相似值時很有可能在兩個不相關類別的文件語意向量上獲得較高的相似性(cosine, dice, jaccard)，譬如兩個文件語意向量 A=(-1,-0.3,1,-0.1),B=(-0.5,-0.6,-0.1,1) 將會得到 0.48(normalize=0.26) 的相似值，然而本研究所提出的方法可將所產生的語意相似值透過一個明顯的差異來區別不同語意相關的文件。

透過上述兩個實驗可證實，本研究所提出以類別中心為基礎的文件分類器能夠有效應用在多國語言文件分類以及文件之間的語意相關性量測，並相較於 SOMs 以及 SVMs 能夠獲得較好的效能呈現。透過實驗証實，在設定相似臨界值介於 84~81 之間且在維度設定在 100 維左右時將可獲得較佳且較穩定的分類效果；同樣地在 K=100 的情況下，語意相關性量測在不相關文件之間也具有明顯的差異。

在文檔中一個監督式學習與非監督式學習技術應用於多國語言文件探勘之比較研究 (頁 93-102)

第六章 實驗成果與比較分析

6.2. 應用文件分類技術(LSI,SVMs)於語意相關性量測

第六章實驗成果與比較分析