• 沒有找到結果。

Pre-Processing–資料前置處理

第三章、 系統設計

3.2 Pre-Processing–資料前置處理

Pre-Processing」模組主要作資料前置處理的工作,包括中文斷詞、作文概 念化及系統所需表面特徵抽取(如文章字數、文章段落數、文章所使用成語數、

完整句子數及好義原個數)。此模組主要由「Conceptualization –概念化」及

Feature Extraction –特徵抽取」兩個小模組所構成。其中,第一個小模組,

負責將輸入資料(即訓練資料及測試資料的作文)作中文斷詞處理,接著將作文資 料概念化,使用的方法係根據知網(HowNet),將所有斷好的詞語轉換為義原;

第二個小模組,主要負責抽取系統所需表面特徵。資料的處理流程見圖表4。

圖表 4 資料前處理流程圖

以下分別用兩個小節,詳述這兩個小模組的執行內容。

3.2.1 Conceptualization

–概念化

‹ 中文斷詞處理

本系統所採用的中文斷詞工具係根據「中央研究院資訊科學研究所 詞庫小組中文斷詞系統 1.0 版」。[11]

‹ 作文概念化

在完成作文的斷詞工作之後,緊接著的工作係根據知網

(HowNet),將所有作文中的詞語轉換為知網中所描述的義原。以下用 一個簡單的例子來說明此轉換過程,考慮文章中的一句話:

「大家的動作由緩慢轉變成快速」

在經過中文斷詞程序處理之後,成為:

「 (大家) (的) (動作) (由) (緩慢) (轉變成) (快速)」共七個詞語,

根據查詢知網資料庫後,各詞語的主義原如下所式:

(大家)這個詞語的主義原為{human|人}、

(的)的主義原為{FuncWord|功能詞}、

(動作)的主義原為{do|做}、

(由)的主義原為{FuncWord|功能詞}、

(緩慢)的主義原為{slow|慢}、

(轉變成)的主義原為{become|成為}、

(快速)的主義原為{fast|快},

這句話共有七個中文詞語,而其中包含六個不同的「義原」。

3.2.2 Feature Extraction

–特徵抽取

負責萃取系統所需表面特徵,包括「文章字數」、「文章段落數」、「文章 所使用成語數」、「完整句字數」及「好義原個數」,以下分別說明及描述此 五項表面特徵的抽取過程。

首先定義高分作文群乃指該作文分數等級為五、六分,而低分作文群乃 指該作文分數等級為一、二分。

‹ 文章字數特徵

通常在老師所評分的文章中,「高分作文」在文章所使用總字數上 會比「低分作文」更多,這也與一般作文基本要求有關,不足規定字數 的文章並不會獲得過高的評價。

觀察所有訓練文章中(見圖表5),作文文章所使用總字數分佈,高 分群與低分群有相當的鑑別力。高分群的平均文章使用總字數為398 個 字,而低分群的平均文章使用總字數為245 個字。

圖表 5 訓練資料中文章字數分佈

基於此項觀察,因此將「文章所使用總字數」納入系統評分的表面 特徵中。

‹ 文章段落數特徵

雖然在中國古代的各種書籍典冊上,文章通常不分段,但是一篇未 分段的文章可想而知,閱讀起來勢必格外吃力。因此在現今的命題作文 基本假設上,皆要求需對文章作基本分段,而一般作文常見的分段法則 有「三段法」為結構引言、正文及總結與「四段法」為結構起、承、轉、

合。藉由文章的分段效果,可使文章層次看起來較清楚,也較容易使讀 者掌握文意。

觀察所有訓練文章中(見圖表6),作文文章所採用分段數分佈,高 分群與低分群亦有相當的鑑別力。高分群的平均文章採用分段數為 4.209 段,而低分群的平均文章採用分段數為 2.537 段。

圖表 6 訓練資料中文章段落數分佈

基於此項觀察,因此將「文章所採用分段數」納入系統評分的表面 特徵中。

‹ 文章所使用成語數特徵

中國歷代文化悠久,其文學領域更是廣闊,浩如煙海,而最能代表 中國文學精髓的,說來簡單,就是我們常說的「成語」。

中國成語有它的特點,而且大都有經有典可查,而大部份更是文學 作品上的名言錦句,它非但有很強的概括力,而且更能反映在生活的遭 遇上或作行為道德的見證。

就講述某件事實來說,可能用了幾十個字還說不明白道理,但只要 適當地用一句成語,往往就非常出色,使人完全領會,在寥寥數字裡卻 寓意著貼切而深刻的道理。因此成語的掌握,對於一篇作文來講,也有 著極為正面的加分作用。

觀察所有訓練文章中(見圖表7),作文文章所使用的成語比例上,

高分群與低分群亦有相當的鑑別力。高分群的平均文章使用成語數為 0.945 個,而低分群的平均文章使用成語數為 0.218 個。

圖表 7 訓練資料中文章所採用成語數分佈

基於此項觀察,因此將「文章所採用成語數」納入系統評分的表面 特徵中。

‹ 完整句子數特徵

對閱讀者來講,適當的句子結尾更能方便讀者閱讀。試想當一段文 章從頭到尾都沒有結束符號的話,真的很難讓人能一口氣閱讀完。

觀察所有訓練文章中(見圖表8),作文文章所使用的完整句子數 上,高分群與低分群亦有相當的鑑別力。高分群的平均文章使用完整句 子數為7.8 句,而低分群的平均文章使用完整句子數為 3.5 句。

圖表 8 訓練資料中文章所採用完整句子數分佈

基於此項觀察,因此將「文章所採用完整句子數」納入系統評分的 表面特徵中。

‹ 好義原個數特徵

首先對「好義原」的定義作說明,所謂的好義原係指在訓練資料中,

收集某些特定義原,而這些義原在文章高分群裡出現頻率甚高於在文章 低分群的出現頻率。而本系統從訓練資料中所收集的好義原數量共計 229 個。

觀察所有訓練文章中(見圖表9),作文文章所使用的完整句子數 上,高分群與低分群亦有相當的鑑別力。高分群的平均文章使用好義原 個數為31.81 個,而低分群的平均文章使用好義原個數為 11.12 個。

圖表 9 訓練資料中文章所採用好義原個數分佈

基於此項觀察,因此將「文章所採用完整句子數」納入系統評分的 表面特徵中。

相關文件