第三章、 特徵擷取
3.2 間接特徵的擷取
本系統所使用的間接特徵共有四種,分別為文章字數、主題數、名詞數量以 及平均段落字數,各項特徵擷取方法將分述如下:
3.2.1 文章字數
文章字數的多寡,雖不能成為評分的主要訴求,但在閱卷者評分的準則中,
欲成為高分文章,對於字數,卻往往存在著一定程度的要求。因此,本系統以文 章字數作為一類特徵,並由訓練資料中觀察文章字數與評閱分數之間的關係。如 下圖 3 所示:
0 100 200 300 400 500
一分 二分 三分 四分 五分 六分
平均字數
圖表 3:平均字數
3.2.2 主題數
統計主題數量,卻不加以衡量該議題是否言之有物,這樣的作法猶如欠缺臨門一
均段落字數具有高度相關,因此設計一簡單公式來改善原有公式的盲點。
依照字面上的意思看來,平均段落字數計算公式應為:
平均段落字數 = 字數 ÷ 分段數
但這樣的計算方法卻存在著一個矛盾的問題。當不同的文章,在字數皆相同 的情況下,若文章分段數量越少,依此計算方法所得到的平均分段字數越多。例 如,同為四百五十字的三篇文章,第一篇分段數為兩段,第二篇分段數為四段,
第三篇分段數為六段,從分段方式的角度來看,分段數為四段的文章應具有最高 的平均段落字數,但依照原計算方式,所得結果並非如此,因此須對原計算方法 做適度的改良。圖 6 所示即為依照原公式計算所得統計圖表。根據此表,得知若 依原公式計算,低分文章平均段落字數較高分文章高實屬不合情理;其原因在 於,多數低分文章的分段方式較高分文章差,分段方式多屬一段或兩段,在平均 段落字數的計算上因分母較小,故所得數值較高。
0 20 40 60 80 100 120 140
一分 二分 三分 四分 五分 六分
平均段落字數
圖表 6:平均段落字數
依原本的公式計算方法,我們可定義 A(x) = w ÷ x,其中定義 A(X)為平均 段落字數,w 為字數,x 為文章分段數;當字數(w)相同時,A(x)與 x 成反比關係,
分段數越小,所得平均段落字數越大,其關係圖如圖 7 所示:
1 2 3 4 5 6 分段數
平均段 落字數
圖表 7:原始平均段落字數
但在作文的構思佈局中,我們認為,較佳的分段方式應將文章分為「起、承、
轉、合」四個段落;換言之,具有較高的平均段落字數特徵應落在分段方式為四 段的文章上,因此我們所希望得到的關係圖表如圖 8 所示。
1 2 3 4 5 6
分段數 平均段
落字數
圖表 8:理想平均段落字數
為達此一目的,本系統透過簡易的數學推理證明,對原本的公式進行適度的 修改調整。在原本的計算方法中,分段數量小意謂著分母(x)較小,則依此計算 方法所得平均段落字數大,欲改善此結果,需對分母做些許的修正。根據觀察,
分段數小於兩段是一種較差的分段方式,較適當的方式為將文章分為四個段落來 撰寫;因此當分段方式不理想時,必須將 x 調高至一適度數值,避免因分段數小 造成平均段落字數高的反效果;我們以四段(x=4)作為最佳寫作分段方式的標 準,過多或過少的分段方式皆屬較差的作法。
當分段數小於四段時,定義一常數 k,令 x'= k-x(k > x)取代原有 x
作為新的分母,則新公式可改寫如下: