• 沒有找到結果。

第三章、 系統設計

3.4 Evaluation - 評估方式

當求出了一組義原子集合,若要以此集合作為評閱作文的依據,則此組集合 的鑑別力,理論上來說,是指此集合在將來對測試資料(Testing Data)的鑑別 力,並希望此鑑別的能力能夠越高越好。然而實際上的處理並不是如此,我們只 能在一開始的訓練資料中,來討論該集合作為評閱作文時的鑑別力,並期許在此 訓練資料中找出來最有鑑別力的集合,將來在測試資料中,一樣擁有最佳的鑑別 力。

很重要的一點是,究竟該如何表示出一組義原子集合其所代表的鑑別力。很 明顯的,此組義原子集合必須要能夠針對不同作文批閱出等級不同的排序。為了 達到此目的,本系統設計了三個步驟,第一個步驟,依據此義原子集合針對不同 的作文算出它們的全序關係;第二個步驟,挑選出其中的間距點,將此全序關係 區分為六群;第三個步驟,依據這六個分群,計算此組義原子集合的鑑別力,最 後從中挑出最佳的義原子集合。

步驟 1.(作文全序關係)

假設此義原子集合P共有k個義原,測試資料的作文共有t篇文章。針對 每個測試資料中的作文m,計算義原子集合P中的k個義元在該篇作文的出 現次數mi。如此,我們可以得到一組數字集合H:{mi|1<=i<=t}。明顯

的,這組數字集合可以由小到大做排序得到{n1,n2,n3,…,nt},而具有全序 (B1,B2,B3,B4,B5)用來區分這六群。

舉例說明:假設考慮中的義原子集合P1有250 個義原(k=250),測試 資料計有300 篇作文(t=300),其中一分的作文佔了 30 篇,二分的作文 佔了50 篇,三分的作文佔了 70 篇,四分的作文佔了 60 篇,五分的作文 佔了50 篇,六分的作文佔了 40 篇。也就是測試資料作文中等級的分佈為 (30,50,70,60,50,40)。依照步驟一,計算得到 300 個由小到大排序的數 字。步驟二依訓練作文等級的分佈,挑選出五個邊界。因為等級一分作文

依求出的這五個邊界值B1,B2,B3,B4,B5,再根據義原子集合 P,可 得到訓練資料的作文分級的統計資料。本系統以這五個邊界值作為作文批閱 的依據,當一篇作文使用的義元數量小於B1,即在步驟二的分群中屬於第

15

一群,系統評閱該篇作文等級為一;依此規則,當一篇作文使用的義元數量 介於B1 和 B2 之間,則認為該篇作文等級為二,其餘以此類推。

底下我們將以同一例子來說明,假設此五個邊界值分別是6、17、30、

47、67。表一顯示依據義原子集合P1對訓練作文的分級資料。表一中,第 一欄的20、8、2 這三個數字,表示了在所有 30 篇的一分作文中,用了此 義元集合P的次數為 0~5 次的有 20 篇,6~16 次的有 8 篇,17~29 次的 有2 篇。其餘以此類推。

邊界\等級 1 分 2 分 3 分 4 分 5 分 6 分

0~5 20 15 1 1 0 0

6~16 8 38 11 2 0 1 17~29 2 5 45 8 2 1 30~46 0 2 10 27 3 2 47~66 0 0 3 17 40 6

>66 0 0 0 5 5 20

表 1 例子 1 相對應的表格

針對每組不同的義原集合P,可求出此義原子集合 P 所對應的表格 T,

以及相對應的五個邊界值B1、B2、B3、B4、B5。為了計算此組義原集合 P 的鑑別力,設計了一套評估函數計算出義原集合P 的鑑別力:

邊界\等級 1 分 2 分 3 分 4 分 5 分 6 分

以例子一來計算,該義原集合P 的分數計算如下:

S ( P ) = ( 2 01 2 + 8 ) / 3 0 +

( 3 8 2 + ( 1 5 + 5 ) + 2 ( - 1 ) ) / 5 0 + ( 4 5 2 + ( 1 1 + 1 0 ) ) / 7 0 +

( 2 7 2 + ( 8 + 1 7 ) + 1 ( - 1 ) ) / 6 0 + ( 2 0 2 + 6 + ( - 1 ) + ( - 2 ) ) / 5 0

= 7 . 2 2 5 7

×

× ×

×

× ×

×

取得最佳子集合

利用式子(1)評估函數,可以計算出一組義原集合作為特徵時的分數,

而該分數變是用來評斷該組義原集合的鑑別力,當分數愈高,即表示該組 義原集合愈有鑑別力,最後的目標為在大量的義原當中,篩選出其中一組 會使評估函數分數最高,也就是最有鑑別力的子集合。而篩選子集合的方 法,便是利用三個門檻值(H/L 的下界、F 的上界及 F 的下界),藉由設定不 同的門檻值,便可得到一組不同的義原子集合,接著利用設計的評估含數 計算此組義原集合的分數並紀錄下來,不斷重覆調整三個門檻值,直到篩 選的三個門檻範圍都結束,從中挑出評估函數分數最高的義原集合作為系 統產生的最佳特徵,此組集合即代表著最具有鑑別力的最佳義原子集合。

相關文件