第二章文獻探討

(1)

第二章文獻探討

有關於試題方面的研究大部分都著重在試題品質的管控及建題機制方面，如檢查試題重複性、一致性、完整性及關聯性方面作探討 (蕭經武民 88)；藉由固定數量的題幹正確解及誘答項，來排列組合出各種測驗題的智慧型造題機制，來達到快速豐富題目並避免因過度使用，而造成猜題現象的問題 (侯妤青民 89)。本研究主要在於建構一套試題分類系統，並朝以下三方面進行探討:

1. 中文斷詞 2. 文件分類 3. 相似度分析

第一節中文斷詞

針對中文的試題而言，進行分類之前，必須先要可以對中文進行斷詞的工作，以便於了解每一種類型的試題中所包含的關鍵字詞有哪些。然而在斷詞方面，中文比起印歐文字要困難許多。

中文字與印歐文字的差別，主要在於斷詞的方式(Nie 1996)。以印

(2)

文字所構成的字詞。

以中文字而言，主要的特色在於:

1. 字與字之間緊密相連。

2. 有意義的詞中所包含的文字與介詞或副詞可能重複使用。

中文文件大致上有下列幾種斷詞法，分別是：詞庫式斷詞法 (Chen.K.J and S.H Kiu, 1992)、統計式斷詞法 (Fan 1988, Sproat 1990)、

混合式斷詞法 (Nie 1996)及基因演算斷詞法以下將分別對這些斷詞法作說明:

一、詞庫式斷詞法

為目前普遍使用的斷詞方法，其演算法相當直覺且實作容易。然而，斷詞的品質與詞庫大小有相當的關係。所以，必須時常對詞庫的內容加以維護，另外其他學者將詞庫斷詞法，輔以一些詞性的結構，

發展出規則式斷詞法(陳克健民 85)，提昇斷詞的品質。

二、統計式斷詞法

(3)

互用(Nie 1996)。再者，統計式斷詞常受限於一接馬可夫模式(first-order Markov Models)(Li 1991)，進一步擴充此模式會提高演算法的時間複雜度(Nie 1996)，所以大多只針對二字詞進行處理，三字詞如:「大賣場」、

四字詞如「小額投資」等就無法有效擷取。

三、混合式斷詞法

將詞庫斷詞法及統計斷詞法整合。(Nie 1996)利用詞庫斷出不同組合的詞彙，然後利用詞彙的統計資訊，找出最佳的斷詞組合。此法乃需要大型的語料庫提供統計資訊。

四、基因演算斷詞法

基因演算法(Genetic Algorithms)是在 1975 年由 John Holland 提出，其理論是基於達爾文物競天擇、適者生存，不適者淘汰的為基礎，

所發展出來的最佳化搜尋演算法。在一個群體中，會因為環境的限制，

適應力較好的個體會存活，而延續下一代，經由數代的演化，而逐步的得到許多可能解，甚至是最佳解。

(4)

堅決支持」七個字為例:

C1 C2 C3 C4 C5 C6 C7

強調將堅決支持

1 0 0 1 1 0 1 Å 染色體

斷開的關鍵詞 W1 其組成為 C1，用 W1 (C1)代表，第二組斷開的關鍵詞 W2 其組成為 C1,C2,C3，用 W2(C1,C2,C3)代表，以此類推第三及第四組的關鍵詞分別為，W3(C5)、W4(C6,C7)，則適應函數 (Fitness function) F 為:

[ ]

∑

=

×

= ^y

i

i LW

W T F

1

)2

( )

( (2-1)

式中

T(Wi)：關鍵詞 Wi在詞庫中出現的機率 L(Wi)：關鍵詞 Wi的長度

0<i<y, i 為正整數

IF L(Wi) > N THEN T(Wi) = -1 IF Wi can’’t find THEN T(Wi) = 1

(5)

經由數代的複製、交配、突變之後，得到最佳的斷詞如下:

C1 C2 C3 C4 C5 C6 C7 強調將堅決支持

0 1 1 0 1 0 1 Å 染色體 (引用自張育銘、黃國禎民 90)

(6)

第二節文件分類 (Text Categorization)

試題分類的概念將嘗試由文件分類的概念移植過來，因此以下將針對文件分類作說明。

文件分類通常所指的是由一群專家，針對一類群的文件進行分類的工作，然而隨著文件的增加，這樣的工作將會變得十分的困難，而且無法持續的進行這類的工作，因此自動化文件分類在智慧型的資訊系統中，是很重要的技術(M. Iwayama, 1994)。

文件分類的方法很多，大致上分成決策規則 (Decision rule)、知識庫 (Knowledge base)及文件相識度 (Text similarity)等等。

大部分的文件分類研究，都將文件的類型鎖定新聞內容，因為新聞內容在產生之初，都已經根據報社預先規劃進行分類，因此新聞內容及其分類的結果，是最容易取得而且客觀的研究素材。在教育領域中，試題也都會依據課程大綱或能力項目來出題並且分類，因此這樣的素材也是具有客觀標準。以下將針對文件分類做介紹:

(7)

一、 最早的文件分類文獻

英文的文件分類，是由 Maron 於 1961 年提出 (Maron 1961)，其文件分類的方法，是由文件中所萃取出一些關鍵詞當作線索。並假設電腦可以從文件中自動萃取出這些關鍵詞，那便可以自動分類。其實驗採用 405 篇文章的摘要當作描述樣本，並使用 206 篇當作訓練資料，

145 篇當作測試資料，結果得到 3263 個詞，去掉出現頻率最高，及只出現過一兩次的詞，留下 1088 個詞。再藉由亂度(Entropy)公式：

M(C)=-P ⁺log2P ⁺- P ^–log2P ^– (2-2) 其中

C 代表所要分類的文件類別

P⁺代表文件被歸類為”+”類的機率 P ^–代表文件被歸類為”-”類的機率

將分佈平均者去掉，保留分佈不平均者，因為不平均者才有分類的價值。最後只留下 90 個詞的關鍵字。其實驗結果，訓練資料有 84.6%

的回歸率，而測試資料也有 51.8%的回歸率。

(8)

二、 路透社 Reuters-21578

在英文的文件分類領域中，由 CONSTRUE 及 Hayes 採用 Reuters-22173 為路透社建立的規則式 (rule based)的文件分類系統，這套系統在人工與機器的分類上所得結果的一致性相當高。而在 1996 年 ACM SIGIR 研討會上，與會專家為了讓 Reuters-22173 有更高的標準。

因此 Steven Finch 與 David D. Lewis 更著手刪除重覆的文件 595 篇，並減少了拼字上的錯誤，而使文件總數降為 21578 篇，並訂為 Reuters-21578。此外他們也為每一份文件訂上了統一的文件格式，如分別為文章的起始與結尾標上 <REUTERS> </REUTERS> 的標籤 (Tag)，讓文件分類研究者有一套統一的實驗資料標準(蔡文憲民 87)。

(9)

三、 字詞權重函數 (Term Weighting)

字詞權重在文件分類的領域十分重要，其目的是要藉由權重，來得知哪些字詞可以成為分類的特徵字詞 (feature word) ，而 Term Frequency 及 Inverse Document Frequency 在字詞權重是最基礎的理論，說明如下:

(一) 字詞出現頻率(Term Frequency, TF):

關鍵詞出現率指的是某一關鍵詞在某類文件中的出現次數，在 文件 d 中關鍵詞 t 的權重可定義為:

W(d,t)=TF(d,t) (2-3) 其中

TF(d,t) ：文件 d 中出現關鍵詞 t 的權重

TF 值可以得到很高的回歸率(Recall Rate)，但並不精密。主要 是因為關鍵詞，如果經常出現在各種文件類別的話，這些關鍵詞作為某種文件分類的特徵並不明顯。因此最好將出現各文件類別中頻率高的關鍵詞從關鍵詞集(Term Collection)之中移除，以提高

(10)

(二) 逆文件頻率(Inverse Document Frequency, IDF):

出現單一關鍵詞的文件數量稱之為逆文件頻率。逆文件頻率所表達的概念是，關鍵詞是否普遍的出現在各個文件當中，如果普遍出現的比例越高，則越無法突顯分類的特徵﹔相對的越低，最 好是集中出現在同一個分類之中，則越容易突顯。假設關鍵詞為 t，

則 IDF 定義如下:

IDF(t) = N/df(t) (2-4) 其中

N：代表文件的總數

df(t)：代表含有關鍵詞 t 的文件總數

如果使用 IDF 來表達關鍵詞的特徵(term specificity)，則將可 以提高回歸率(Salton and Buckley, 1988)。

(11)

(三) 同時強調字詞出現頻率及普遍性 TF × IDF

而根據 Salton 建議，如果使用 TF× IDF 當作加權數的話，則 將會有更好的執行效率。

Ｗ（d,t）=TF(d,t) ．IDF(t) (2-5)

其中

W(d,t)：關鍵詞 t 在 d 文件類別的權數

TF(d,t)：關鍵詞出現率(Term Frequency)

IDF(t)：逆文件頻率(Inverse Document Frequency)

藉由上述的公式，可以很明顯的提高回歸率及精密度。

(12)

(四) 加權式逆文件頻率 (Weighted Inverse Document Frequency, WIDF) (M. Iwayama, 1994):

依據 IDF 的定義，只論關鍵字出現的文件類別總數，不論各 類文件出現該關鍵字次數，將會出現特徵分佈不合理問題。以行 來代表文件分類 di，以列代表關鍵詞 tj，其出現頻率如下表:

表 2-1 文件集合範例

D1 D2 D3 D4

T1 0 40 3 0 T2 2 50 3 2 T₃ 3 2 3 2 T4 0 80 0 0 T5 0 30 20 0 (參考 M. Iwayama 1994)

以 T1、T4及 T5的關鍵字而言，其分佈在 D1~D4的頻率並不平 均，因此可以很容易的辨別其分類。T2的分佈也不平均，在 D2有 50 的權重，而 T3可以清楚的看出權重分佈平均，而計算得到:

1/df(T2)=1/(1+1+1+1)=1/4

(13)

可以改成 50/(2+50+3+2)，將會更加合理。因此使用 WIDF，在文 件 d 中含有 t 關鍵詞定義如下:

∑

∈

=

D i

t i TF

t d t TF

d

WIDF ( , )

) , ) (

,

( _(2-6)

其中

TF(d,t)：代表關鍵字在 d 文件類別中出現的頻率

∑

i∈D

t i

TF(, )：i 代表 D 的文件集合的範圍內的 各類文件。

因為 TF(d,t)已經包含在分子了，所以不需要再另外乘上 TF(d,t)。因此可將 W(d,t)定義為﹔

∑

∈

=

D i

t i t TF

d

WIDF ( , )

) 1 ,

( _(2-7)

由 M. Iwayama 的實驗中，可以得知，其回歸率確實比 TF× IDF 提高了 4.4%，而最高的回歸率也達到 96% (該實驗以英文為主)。

(14)

(五) 採用取平方的 IDF

由上述的內容得之，使用

) log (

t df

N 會降低詞的特殊性，所以分類效果不甚理想，為了拉大特殊詞與常用詞之間的差距，可以採

用

2

) ( 



 



 t df

N 作為 IDF (林頌華民 88)。則權重定義可調整成：

2

) ) (

, ( ) ,

( 



 



⋅

= df t

t N d TF t d

W (2-8)

其中

TF(d,t)：關鍵詞出現率(Term Frequency)

df(t)：代表含有關鍵詞 t 的文件總數

N：文件類別總數

在林頌華的研究用於處理中文新聞分類，採用二、三字詞為基本單位來處理太一新聞資料庫，在 5376 筆測試資料中對 53767 筆資料作計算，則以原始類別來說，可得到 78.89%的正確率，而第三高分則可高達 93.43% (該實驗以中文為主)。

(15)

以上所探討的文件分類關鍵字權重函數，可以發現大部份都是在 逆文件頻率 IDF 上作調整，以達到最佳的分類效果，主要是因為太過 於普遍出現的關鍵詞，會干擾到分類的效果;相反的關鍵詞越集中在單 一的類別之中，則其效果越好。以下就分別依各種字詞權重函數(TWF) 之優劣分析於表 2-2:

表 2-2 各種字詞權重函數 (TWF) 比較表

TWF 公式分析

TF W(d,t)=TF(d,t)

1. 可以表現出一個關鍵字在某文件類別上重要的程度。

2. 無法辨識出關鍵字是否普遍出現在各文件類別之中

IDF IDF(t) = N/df(t)

1. 可以表現是一個關鍵字普遍存在於各文件類別的程度

2. 無法突顯關鍵字在單一文件類別的重要性

TF× IDF Ｗ（d,t）=TF(d,t) ．IDF(t)

1. 可以表現是一個關鍵字普遍存在於各文件類別的程度，也可以了解關鍵詞是否普遍的出現在各種文件類別的程度。

(16)

表 2-2 各種字詞權重函數 (TWF) 比較表 (續)

TWF 公式分析

WIDF

∑

∈

=

D i

t i TF

t d t TF

d

WIDF (, )

) , ) (

, (

2. 可以表現出普遍存在於各文件類別，但卻有高出現率的關鍵詞特徵。

TF× IDF²

2

) ) (

, ( ) ,

( 

 



⋅

= df t

t N d TF t d W

2. 可以讓集中在某一文件類別的關鍵字，其特徵更加突顯。

(17)

第三節文件相似度(Text Similarity)

相識度測量方法分為是向量模式 (Vector Model) 及機率模式 (Probabilistic Model)兩類，以下將介紹兩類的測量模式:

一、向量模式 (Vector Model)

文件向量可以用每一個包含在文件中的關鍵詞權重來構成，以用於區別文件之間的差別定義如下:

Vd=(w1,w2,……,wn) (2-9) 其中

wi：1<=i<=n，代表每一個關鍵字的權重 Vd：文件類別 d 的向量

衡量向量間差異的方法有很多，以 Jaccard 函數來說，其定義如下:

∑

ⁿ ⁽^w^ik^⋅^w^jk⁾

(18)

二、機率模式 (Probabilistic Model)

藉由機率的理論所計算出文件 d 在 C_i類別出現機率為 P(C_i|d)，則:

∑

=

t i

i d P C t d P t d

C

P( | ) ( | , ) ( | ) (2-11)

關鍵詞 t 的範圍超過 Ci及 d 的向量元素，假設 Ci及 d 的條件彼此 獨立，則 P(Ci|t,d)=P(Ci|t)，則可以求得公式如下:

∑

=

t i

i d P C t P t d

C

P( | ) ( | ) ( | ) (2-12)

使用 Bayes rule，則最後可以得到，公式如下:

∑

=

t

i i

i P t

d t P C t C P

P d C

P ( )

)

| ( )

| ) (

( )

|

( (2-13)

關鍵詞 t 隨機於 Ci類別取出，則其機率為 P(t|Ci) ；關鍵詞 t 若隨 機於文件 d 中取出，則其機率為 P(t|d) ，P(t)及 P(Ci)分別代表關鍵詞 及文件類別的機率，而所有的機率都是由訓練資料集所評估出來的。

當一個文件 d 被歸類到類別 Ci之後，則會得到 P(Ci|d)的最高機率。

第二章 文獻探討