• 沒有找到結果。

第二章 文獻探討

N/A
N/A
Protected

Academic year: 2021

Share "第二章 文獻探討 "

Copied!
18
0
0

加載中.... (立即查看全文)

全文

(1)

第二章 文獻探討

有關於試題方面的研究大部分都著重在試題品質的管控及建題機 制方面,如檢查試題重複性、一致性、完整性及關聯性方面作探討 (蕭 經武 民 88);藉由固定數量的題幹正確解及誘答項,來排列組合出各 種測驗題的智慧型造題機制,來達到快速豐富題目並避免因過度使 用,而造成猜題現象的問題 (侯妤青 民 89)。本研究主要在於建構一 套試題分類系統,並朝以下三方面進行探討:

1. 中文斷詞 2. 文件分類 3. 相似度分析

第一節中文斷詞

針對中文的試題而言,進行分類之前,必須先要可以對中文進行 斷詞的工作,以便於了解每一種類型的試題中所包含的關鍵字詞有哪 些。然而在斷詞方面,中文比起印歐文字要困難許多。

中文字與印歐文字的差別,主要在於斷詞的方式(Nie 1996)。以印

(2)

文字所構成的字詞。

以中文字而言,主要的特色在於:

1. 字與字之間緊密相連。

2. 有意義的詞中所包含的文字與介詞或副詞可能重複使用。

中文文件大致上有下列幾種斷詞法,分別是:詞庫式斷詞法 (Chen.K.J and S.H Kiu, 1992)、統計式斷詞法 (Fan 1988, Sproat 1990)、

混合式斷詞法 (Nie 1996)及基因演算斷詞法以下將分別對這些斷詞法 作說明:

一、 詞庫式斷詞法

為目前普遍使用的斷詞方法,其演算法相當直覺且實作容易。然 而,斷詞的品質與詞庫大小有相當的關係。所以,必須時常對詞庫的 內容加以維護,另外其他學者將詞庫斷詞法,輔以一些詞性的結構,

發展出規則式斷詞法(陳克健 民 85),提昇斷詞的品質。

二、 統計式斷詞法

(3)

互用(Nie 1996)。再者,統計式斷詞常受限於一接馬可夫模式(first-order Markov Models)(Li 1991),進一步擴充此模式會提高演算法的時間複雜 度(Nie 1996),所以大多只針對二字詞進行處理,三字詞如:「大賣場」、

四字詞如「小額投資」等就無法有效擷取。

三、 混合式斷詞法

將詞庫斷詞法及統計斷詞法整合。(Nie 1996)利用詞庫斷出不同組 合的詞彙,然後利用詞彙的統計資訊,找出最佳的斷詞組合。此法乃 需要大型的語料庫提供統計資訊。

四、 基因演算斷詞法

基因演算法(Genetic Algorithms)是在 1975 年由 John Holland 提 出,其理論是基於達爾文物競天擇、適者生存,不適者淘汰的為基礎,

所發展出來的最佳化搜尋演算法。在一個群體中,會因為環境的限制,

適應力較好的個體會存活,而延續下一代,經由數代的演化,而逐步 的得到許多可能解,甚至是最佳解。

(4)

堅決支持」七個字為例:

C1 C2 C3 C4 C5 C6 C7

強 調 將 堅 決 支 持

1 0 0 1 1 0 1 Å 染色體

斷開的關鍵詞 W1 其組成為 C1,用 W1 (C1)代表,第二組斷開的 關鍵詞 W2 其組成為 C1,C2,C3,用 W2(C1,C2,C3)代表,以此類推第三 及第四組的關鍵詞分別為,W3(C5)、W4(C6,C7),則適應函數 (Fitness function) F 為:

[ ]

=

×

= y

i

i

i LW

W T F

1

)2

( )

( (2-1)

式中

T(Wi):關鍵詞 Wi在詞庫中出現的機率 L(Wi):關鍵詞 Wi的長度

0<i<y, i 為正整數

IF L(Wi) > N THEN T(Wi) = -1 IF Wi can’’t find THEN T(Wi) = 1

(5)

經由數代的複製、交配、突變之後,得到最佳的斷詞如下:

C1 C2 C3 C4 C5 C6 C7 強 調 將 堅 決 支 持

0 1 1 0 1 0 1 Å 染色體 (引用自張育銘、黃國禎 民 90)

(6)

第二節 文件分類 (Text Categorization)

試題分類的概念將嘗試由文件分類的概念移植過來,因此以下將 針對文件分類作說明。

文件分類通常所指的是由一群專家,針對一類群的文件進行分類 的工作,然而隨著文件的增加,這樣的工作將會變得十分的困難,而 且無法持續的進行這類的工作,因此自動化文件分類在智慧型的資訊 系統中,是很重要的技術(M. Iwayama, 1994)。

文件分類的方法很多,大致上分成決策規則 (Decision rule)、知識 庫 (Knowledge base)及文件相識度 (Text similarity)等等。

大部分的文件分類研究,都將文件的類型鎖定新聞內容,因為新 聞內容在產生之初,都已經根據報社預先規劃進行分類,因此新聞內 容及其分類的結果,是最容易取得而且客觀的研究素材。在教育領域 中,試題也都會依據課程大綱或能力項目來出題並且分類,因此這樣 的素材也是具有客觀標準。以下將針對文件分類做介紹:

(7)

一、 最早的文件分類文獻

英文的文件分類, 是由 Maron 於 1961 年提出 (Maron 1961),其 文件分類的方法,是由文件中所萃取出一些關鍵詞當作線索。並假設 電腦可以從文件中自動萃取出這些關鍵詞,那便可以自動分類。其實 驗採用 405 篇文章的摘要當作描述樣本,並使用 206 篇當作訓練資料,

145 篇當作測試資料,結果得到 3263 個詞,去掉出現頻率最高,及只 出現過一兩次的詞,留下 1088 個詞。再藉由亂度(Entropy)公式:

M(C)=-P +log2P +- P log2P (2-2) 其中

C 代表所要分類的文件類別

P+ 代表文件被歸類為”+”類的機率 P 代表文件被歸類為”-”類的機率

將分佈平均者去掉,保留分佈不平均者,因為不平均者才有分類 的價值。最後只留下 90 個詞的關鍵字。其實驗結果,訓練資料有 84.6%

的回歸率,而測試資料也有 51.8%的回歸率。

(8)

二、 路透社 Reuters-21578

在 英 文 的 文 件 分 類 領 域 中 , 由 CONSTRUE 及 Hayes 採 用 Reuters-22173 為路透社建立的規則式 (rule based)的文件分類系統,這 套系統在人工與機器的分類上所得結果的一致性相當高。而在 1996 年 ACM SIGIR 研討會上,與會專家為了讓 Reuters-22173 有更高的標準。

因此 Steven Finch 與 David D. Lewis 更著手刪除重覆的文件 595 篇,並 減 少 了 拼 字 上 的 錯 誤 , 而 使 文 件 總 數 降 為 21578 篇 , 並 訂 為 Reuters-21578。此外他們也為每一份文件訂上了統一的文件格式,如 分 別 為 文 章 的 起 始 與 結 尾 標 上 <REUTERS> </REUTERS> 的 標 籤 (Tag),讓文件分類研究者有一套統一的實驗資料標準(蔡文憲 民 87)。

(9)

三、 字詞權重函數 (Term Weighting)

字詞權重在文件分類的領域十分重要,其目的是要藉由權重,來 得 知 哪 些 字 詞 可 以 成 為 分 類 的 特 徵 字 詞 (feature word) , 而 Term Frequency 及 Inverse Document Frequency 在字詞權重是最基礎的理 論,說明如下:

(一) 字詞出現頻率(Term Frequency, TF):

關鍵詞出現率指的是某一關鍵詞在某類文件中的出現次數,在 文件 d 中關鍵詞 t 的權重可定義為:

W(d,t)=TF(d,t) (2-3) 其中

TF(d,t) :文件 d 中出現關鍵詞 t 的權重

TF 值可以得到很高的回歸率(Recall Rate),但並不精密。主要 是因為關鍵詞,如果經常出現在各種文件類別的話,這些關鍵詞 作為某種文件分類的特徵並不明顯。因此最好將出現各文件類別 中頻率高的關鍵詞從關鍵詞集(Term Collection)之中移除,以提高

(10)

(二) 逆文件頻率(Inverse Document Frequency, IDF):

出現單一關鍵詞的文件數量稱之為逆文件頻率。逆文件頻率所 表達的概念是,關鍵詞是否普遍的出現在各個文件當中,如果普 遍出現的比例越高,則越無法突顯分類的特徵﹔相對的越低,最 好是集中出現在同一個分類之中,則越容易突顯。假設關鍵詞為 t,

則 IDF 定義如下:

IDF(t) = N/df(t) (2-4) 其中

N:代表文件的總數

df(t):代表含有關鍵詞 t 的文件總數

如果使用 IDF 來表達關鍵詞的特徵(term specificity),則將可 以提高回歸率(Salton and Buckley, 1988)。

(11)

(三) 同時強調字詞出現頻率及普遍性 TF × IDF

而根據 Salton 建議,如果使用 TF× IDF 當作加權數的話,則 將會有更好的執行效率。

W(d,t=TF(d,t) IDF(t) (2-5)

其中

W(d,t):關鍵詞 t 在 d 文件類別的權數

TF(d,t):關鍵詞出現率(Term Frequency)

IDF(t):逆文件頻率(Inverse Document Frequency)

藉由上述的公式,可以很明顯的提高回歸率及精密度。

(12)

(四) 加權式逆文件頻率 (Weighted Inverse Document Frequency, WIDF) (M. Iwayama, 1994):

依據 IDF 的定義,只論關鍵字出現的文件類別總數,不論各 類文件出現該關鍵字次數,將會出現特徵分佈不合理問題。以行 來代表文件分類 di,以列代表關鍵詞 tj,其出現頻率如下表:

表 2-1 文件集合範例

D1 D2 D3 D4

T1 0 40 3 0 T2 2 50 3 2 T3 3 2 3 2 T4 0 80 0 0 T5 0 30 20 0 (參考 M. Iwayama 1994)

以 T1、T4及 T5的關鍵字而言,其分佈在 D1~D4的頻率並不平 均,因此可以很容易的辨別其分類。T2的分佈也不平均,在 D250 的權重,而 T3可以清楚的看出權重分佈平均,而計算得到:

1/df(T2)=1/(1+1+1+1)=1/4

(13)

可以改成 50/(2+50+3+2),將會更加合理。因此使用 WIDF,在文 件 d 中含有 t 關鍵詞定義如下:

=

D i

t i TF

t d t TF

d

WIDF ( , )

) , ) (

,

( (2-6)

其中

TF(d,t):代表關鍵字在 d 文件類別中出現的頻率

i∈D

t i

TF(, ):i 代表 D 的文件集合的範圍內的 各類文件。

因 為 TF(d,t)已 經 包 含 在 分 子 了 , 所 以 不 需 要 再 另 外 乘 上 TF(d,t)。因此可將 W(d,t)定義為﹔

=

D i

t i t TF

d

WIDF ( , )

) 1 ,

( (2-7)

由 M. Iwayama 的實驗中,可以得知,其回歸率確實比 TF× IDF 提高了 4.4%,而最高的回歸率也達到 96% (該實驗以英文為主)。

(14)

(五) 採用取平方的 IDF

由上述的內容得之,使用

) log (

t df

N 會降低詞的特殊性,所以分 類效果不甚理想,為了拉大特殊詞與常用詞之間的差距,可以採

2

) ( 



t df

N 作為 IDF (林頌華 民 88)。則權重定義可調整成:

2

) ) (

, ( ) ,

( 



= df t

t N d TF t d

W (2-8)

其中

TF(d,t):關鍵詞出現率(Term Frequency)

df(t):代表含有關鍵詞 t 的文件總數

N:文件類別總數

在林頌華的研究用於處理中文新聞分類,採用二、三字詞為基 本單位來處理太一新聞資料庫,在 5376 筆測試資料中對 53767 筆 資料作計算,則以原始類別來說,可得到 78.89%的正確率,而第 三高分則可高達 93.43% (該實驗以中文為主)。

(15)

以上所探討的文件分類關鍵字權重函數,可以發現大部份都是在 逆文件頻率 IDF 上作調整,以達到最佳的分類效果,主要是因為太過 於普遍出現的關鍵詞,會干擾到分類的效果;相反的關鍵詞越集中在單 一的類別之中,則其效果越好。以下就分別依各種字詞權重函數(TWF) 之優劣分析於表 2-2:

表 2-2 各種字詞權重函數 (TWF) 比較表

TWF 公式 分析

TF W(d,t)=TF(d,t)

1. 可以表現出一個關鍵字 在某文件類別上重要的 程度。

2. 無法辨識出關鍵字是否 普遍出現在各文件類別 之中

IDF IDF(t) = N/df(t)

1. 可以表現是一個關鍵字 普遍存在於各文件類別 的程度

2. 無法突顯關鍵字在單一 文件類別的重要性

TF× IDF W(d,t)=TF(d,t) .IDF(t)

1. 可以表現是一個關鍵字 普遍存在於各文件類別 的程度,也可以了解關鍵 詞是否普遍的出現在各 種文件類別的程度。

(16)

表 2-2 各種字詞權重函數 (TWF) 比較表 (續)

TWF 公式 分析

WIDF

=

D i

t i TF

t d t TF

d

WIDF (, )

) , ) (

, (

1. 可以表現是一個關鍵字 普遍存在於各文件類別 的程度,也可以了解關 鍵詞是否普遍的出現在 各種文件類別的程度。

2. 可以表現出普遍存在於 各文件類別,但卻有高 出現率的關鍵詞特徵。

TF× IDF2

2

) ) (

, ( ) ,

( 



= df t

t N d TF t d W

1. 可以表現是一個關鍵字 普遍存在於各文件類別 的程度,也可以了解關 鍵詞是否普遍的出現在 各種文件類別的程度。

2. 可以讓集中在某一文件 類別的關鍵字,其特徵 更加突顯。

(17)

第三節 文件相似度(Text Similarity)

相 識 度 測 量 方 法 分 為 是 向 量 模 式 (Vector Model) 及 機 率 模 式 (Probabilistic Model)兩類,以下將介紹兩類的測量模式:

一、 向量模式 (Vector Model)

文件向量可以用每一個包含在文件中的關鍵詞權重來構成,以用 於區別文件之間的差別定義如下:

Vd=(w1,w2,……,wn) (2-9) 其中

wi:1<=i<=n,代表每一個關鍵字的權重 Vd:文件類別 d 的向量

衡量向量間差異的方法有很多,以 Jaccard 函數來說,其定義如下:

n (wikwjk)

(18)

二、 機率模式 (Probabilistic Model)

藉由機率的理論所計算出文件 d 在 Ci類別出現機率為 P(Ci|d),則:

=

t i

i d P C t d P t d

C

P( | ) ( | , ) ( | ) (2-11)

關鍵詞 t 的範圍超過 Ci及 d 的向量元素,假設 Ci及 d 的條件彼此 獨立,則 P(Ci|t,d)=P(Ci|t),則可以求得公式如下:

=

t i

i d P C t P t d

C

P( | ) ( | ) ( | ) (2-12)

使用 Bayes rule,則最後可以得到,公式如下:

=

t

i i

i P t

d t P C t C P

P d C

P ( )

)

| ( )

| ) (

( )

|

( (2-13)

關鍵詞 t 隨機於 Ci類別取出,則其機率為 P(t|Ci) ;關鍵詞 t 若隨 機於文件 d 中取出,則其機率為 P(t|d) ,P(t)及 P(Ci)分別代表關鍵詞 及文件類別的機率,而所有的機率都是由訓練資料集所評估出來的。

當一個文件 d 被歸類到類別 Ci之後,則會得到 P(Ci|d)的最高機率。

數據

表 2-2  各種字詞權重函數 (TWF) 比較表  (續) TWF  公式  分析  WIDF  ∑ ∈= Di tiTFtdtTFdWIDF(, )),)(,( 1.  可以表現是一個關鍵字普遍存在於各文件類別的程度,也可以了解關鍵詞是否普遍的出現在 各種文件類別的程度。  2

參考文獻

相關文件

二零一七年七月十日會議

 一、講經文。此為俗講話本正宗。這類作品,大

Segmented Bushy Path 分為兩個步驟,第一個步驟是文件結構的切割 (Text Segmentation),也就是分析文件內容並將文件內容切割成幾個具有代 表的結構。Text Segmentation

• 本章動畫的主角是各個英文字母文字物件,由 於 Flash 提供了文字物件打散 (Break Apart) 及分散至圖層 (Distribute to Layer)

Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval pp.298-306.. Automatic Classification Using Supervised

第一課節:介紹成本會計和解釋成本概念及詞彙 第二課節:了解用於編製財務報表的不同成本分類

1998 年 2 月,XML 建議標準提出,是目前通用的 XML1.0 版 本標準,XML 的規格便是由 W3C XML 工作群維護並負責增修 跟調整的工作。基本上 SGML、HTML