第三章、 系統設計
3.2 Pre-Processing–資料前置處理
「Pre-Processing」模組主要作資料前置處理的工作,包括中文斷詞、作文概 念化及系統所需表面特徵抽取(如文章字數、文章段落數、文章所使用成語數、
完整句子數及好義原個數)。此模組主要由「Conceptualization –概念化」及
「Feature Extraction –特徵抽取」兩個小模組所構成。其中,第一個小模組,
負責將輸入資料(即訓練資料及測試資料的作文)作中文斷詞處理,接著將作文資 料概念化,使用的方法係根據知網(HowNet),將所有斷好的詞語轉換為義原;
第二個小模組,主要負責抽取系統所需表面特徵。資料的處理流程見圖表4。
圖表 4 資料前處理流程圖
以下分別用兩個小節,詳述這兩個小模組的執行內容。
3.2.1 Conceptualization
–概念化
中文斷詞處理
本系統所採用的中文斷詞工具係根據「中央研究院資訊科學研究所 詞庫小組中文斷詞系統 1.0 版」。[11]
作文概念化
在完成作文的斷詞工作之後,緊接著的工作係根據知網
(HowNet),將所有作文中的詞語轉換為知網中所描述的義原。以下用 一個簡單的例子來說明此轉換過程,考慮文章中的一句話:
「大家的動作由緩慢轉變成快速」
在經過中文斷詞程序處理之後,成為:
「 (大家) (的) (動作) (由) (緩慢) (轉變成) (快速)」共七個詞語,
根據查詢知網資料庫後,各詞語的主義原如下所式:
(大家)這個詞語的主義原為{human|人}、
(的)的主義原為{FuncWord|功能詞}、
(動作)的主義原為{do|做}、
(由)的主義原為{FuncWord|功能詞}、
(緩慢)的主義原為{slow|慢}、
(轉變成)的主義原為{become|成為}、
(快速)的主義原為{fast|快},
這句話共有七個中文詞語,而其中包含六個不同的「義原」。
3.2.2 Feature Extraction
–特徵抽取
負責萃取系統所需表面特徵,包括「文章字數」、「文章段落數」、「文章 所使用成語數」、「完整句字數」及「好義原個數」,以下分別說明及描述此 五項表面特徵的抽取過程。
首先定義高分作文群乃指該作文分數等級為五、六分,而低分作文群乃 指該作文分數等級為一、二分。
文章字數特徵
通常在老師所評分的文章中,「高分作文」在文章所使用總字數上 會比「低分作文」更多,這也與一般作文基本要求有關,不足規定字數 的文章並不會獲得過高的評價。
觀察所有訓練文章中(見圖表5),作文文章所使用總字數分佈,高 分群與低分群有相當的鑑別力。高分群的平均文章使用總字數為398 個 字,而低分群的平均文章使用總字數為245 個字。
圖表 5 訓練資料中文章字數分佈
基於此項觀察,因此將「文章所使用總字數」納入系統評分的表面 特徵中。
文章段落數特徵
雖然在中國古代的各種書籍典冊上,文章通常不分段,但是一篇未 分段的文章可想而知,閱讀起來勢必格外吃力。因此在現今的命題作文 基本假設上,皆要求需對文章作基本分段,而一般作文常見的分段法則 有「三段法」為結構引言、正文及總結與「四段法」為結構起、承、轉、
合。藉由文章的分段效果,可使文章層次看起來較清楚,也較容易使讀 者掌握文意。
觀察所有訓練文章中(見圖表6),作文文章所採用分段數分佈,高 分群與低分群亦有相當的鑑別力。高分群的平均文章採用分段數為 4.209 段,而低分群的平均文章採用分段數為 2.537 段。
圖表 6 訓練資料中文章段落數分佈
基於此項觀察,因此將「文章所採用分段數」納入系統評分的表面 特徵中。
文章所使用成語數特徵
中國歷代文化悠久,其文學領域更是廣闊,浩如煙海,而最能代表 中國文學精髓的,說來簡單,就是我們常說的「成語」。
中國成語有它的特點,而且大都有經有典可查,而大部份更是文學 作品上的名言錦句,它非但有很強的概括力,而且更能反映在生活的遭 遇上或作行為道德的見證。
就講述某件事實來說,可能用了幾十個字還說不明白道理,但只要 適當地用一句成語,往往就非常出色,使人完全領會,在寥寥數字裡卻 寓意著貼切而深刻的道理。因此成語的掌握,對於一篇作文來講,也有 著極為正面的加分作用。
觀察所有訓練文章中(見圖表7),作文文章所使用的成語比例上,
高分群與低分群亦有相當的鑑別力。高分群的平均文章使用成語數為 0.945 個,而低分群的平均文章使用成語數為 0.218 個。
圖表 7 訓練資料中文章所採用成語數分佈
基於此項觀察,因此將「文章所採用成語數」納入系統評分的表面 特徵中。
完整句子數特徵
對閱讀者來講,適當的句子結尾更能方便讀者閱讀。試想當一段文 章從頭到尾都沒有結束符號的話,真的很難讓人能一口氣閱讀完。
觀察所有訓練文章中(見圖表8),作文文章所使用的完整句子數 上,高分群與低分群亦有相當的鑑別力。高分群的平均文章使用完整句 子數為7.8 句,而低分群的平均文章使用完整句子數為 3.5 句。
圖表 8 訓練資料中文章所採用完整句子數分佈
基於此項觀察,因此將「文章所採用完整句子數」納入系統評分的 表面特徵中。
好義原個數特徵
首先對「好義原」的定義作說明,所謂的好義原係指在訓練資料中,
收集某些特定義原,而這些義原在文章高分群裡出現頻率甚高於在文章 低分群的出現頻率。而本系統從訓練資料中所收集的好義原數量共計 229 個。
觀察所有訓練文章中(見圖表9),作文文章所使用的完整句子數 上,高分群與低分群亦有相當的鑑別力。高分群的平均文章使用好義原 個數為31.81 個,而低分群的平均文章使用好義原個數為 11.12 個。
圖表 9 訓練資料中文章所採用好義原個數分佈
基於此項觀察,因此將「文章所採用完整句子數」納入系統評分的 表面特徵中。