Pre-Processing–資料前置處理

第三章、系統設計

3.2 Pre-Processing–資料前置處理

「Pre-Processing」模組主要作資料前置處理的工作，包括中文斷詞、作文概 念化及系統所需表面特徵抽取(如文章字數、文章段落數、文章所使用成語數、

完整句子數及好義原個數)。此模組主要由「Conceptualization –概念化」及

「Feature Extraction –特徵抽取」兩個小模組所構成。其中，第一個小模組，

負責將輸入資料(即訓練資料及測試資料的作文)作中文斷詞處理，接著將作文資料概念化，使用的方法係根據知網(HowNet)，將所有斷好的詞語轉換為義原；

第二個小模組，主要負責抽取系統所需表面特徵。資料的處理流程見圖表4。

圖表 4 資料前處理流程圖

以下分別用兩個小節，詳述這兩個小模組的執行內容。

3.2.1 Conceptualization

–概念化

中文斷詞處理

本系統所採用的中文斷詞工具係根據「中央研究院資訊科學研究所詞庫小組中文斷詞系統 1.0 版」。[11]

作文概念化

在完成作文的斷詞工作之後，緊接著的工作係根據知網

(HowNet)，將所有作文中的詞語轉換為知網中所描述的義原。以下用 一個簡單的例子來說明此轉換過程，考慮文章中的一句話：

「大家的動作由緩慢轉變成快速」

在經過中文斷詞程序處理之後，成為：

「 (大家) (的) (動作) (由) (緩慢) (轉變成) (快速)」共七個詞語，

根據查詢知網資料庫後，各詞語的主義原如下所式：

(大家)這個詞語的主義原為{human|人}、

(的)的主義原為{FuncWord|功能詞}、

(動作)的主義原為{do|做}、

(由)的主義原為{FuncWord|功能詞}、

(緩慢)的主義原為{slow|慢}、

(轉變成)的主義原為{become|成為}、

(快速)的主義原為{fast|快}，

這句話共有七個中文詞語，而其中包含六個不同的「義原」。

3.2.2 Feature Extraction

–特徵抽取

負責萃取系統所需表面特徵，包括「文章字數」、「文章段落數」、「文章所使用成語數」、「完整句字數」及「好義原個數」，以下分別說明及描述此五項表面特徵的抽取過程。

首先定義高分作文群乃指該作文分數等級為五、六分，而低分作文群乃指該作文分數等級為一、二分。

文章字數特徵

通常在老師所評分的文章中，「高分作文」在文章所使用總字數上會比「低分作文」更多，這也與一般作文基本要求有關，不足規定字數的文章並不會獲得過高的評價。

觀察所有訓練文章中(見圖表5)，作文文章所使用總字數分佈，高 分群與低分群有相當的鑑別力。高分群的平均文章使用總字數為398 個 字，而低分群的平均文章使用總字數為245 個字。

圖表 5 訓練資料中文章字數分佈

基於此項觀察，因此將「文章所使用總字數」納入系統評分的表面特徵中。

文章段落數特徵

雖然在中國古代的各種書籍典冊上，文章通常不分段，但是一篇未分段的文章可想而知，閱讀起來勢必格外吃力。因此在現今的命題作文基本假設上，皆要求需對文章作基本分段，而一般作文常見的分段法則有「三段法」為結構引言、正文及總結與「四段法」為結構起、承、轉、

合。藉由文章的分段效果，可使文章層次看起來較清楚，也較容易使讀者掌握文意。

觀察所有訓練文章中(見圖表6)，作文文章所採用分段數分佈，高 分群與低分群亦有相當的鑑別力。高分群的平均文章採用分段數為 4.209 段，而低分群的平均文章採用分段數為 2.537 段。

圖表 6 訓練資料中文章段落數分佈

基於此項觀察，因此將「文章所採用分段數」納入系統評分的表面特徵中。

文章所使用成語數特徵

中國歷代文化悠久，其文學領域更是廣闊，浩如煙海，而最能代表中國文學精髓的，說來簡單，就是我們常說的「成語」。

中國成語有它的特點，而且大都有經有典可查，而大部份更是文學作品上的名言錦句，它非但有很強的概括力，而且更能反映在生活的遭遇上或作行為道德的見證。

就講述某件事實來說，可能用了幾十個字還說不明白道理，但只要適當地用一句成語，往往就非常出色，使人完全領會，在寥寥數字裡卻寓意著貼切而深刻的道理。因此成語的掌握，對於一篇作文來講，也有著極為正面的加分作用。

觀察所有訓練文章中(見圖表7)，作文文章所使用的成語比例上，

高分群與低分群亦有相當的鑑別力。高分群的平均文章使用成語數為 0.945 個，而低分群的平均文章使用成語數為 0.218 個。

圖表 7 訓練資料中文章所採用成語數分佈

基於此項觀察，因此將「文章所採用成語數」納入系統評分的表面特徵中。

完整句子數特徵

對閱讀者來講，適當的句子結尾更能方便讀者閱讀。試想當一段文章從頭到尾都沒有結束符號的話，真的很難讓人能一口氣閱讀完。

觀察所有訓練文章中(見圖表8)，作文文章所使用的完整句子數 上，高分群與低分群亦有相當的鑑別力。高分群的平均文章使用完整句子數為7.8 句，而低分群的平均文章使用完整句子數為 3.5 句。

圖表 8 訓練資料中文章所採用完整句子數分佈

基於此項觀察，因此將「文章所採用完整句子數」納入系統評分的表面特徵中。

好義原個數特徵

首先對「好義原」的定義作說明，所謂的好義原係指在訓練資料中，

收集某些特定義原，而這些義原在文章高分群裡出現頻率甚高於在文章低分群的出現頻率。而本系統從訓練資料中所收集的好義原數量共計 229 個。

觀察所有訓練文章中(見圖表9)，作文文章所使用的完整句子數 上，高分群與低分群亦有相當的鑑別力。高分群的平均文章使用好義原個數為31.81 個，而低分群的平均文章使用好義原個數為 11.12 個。

圖表 9 訓練資料中文章所採用好義原個數分佈

基於此項觀察，因此將「文章所採用完整句子數」納入系統評分的表面特徵中。

在文檔中基於支援向量機之中文自動作文評分系統 (頁 20-25)

第三章、 系統設計

3.2 Pre-Processing–資料前置處理

–概念化

–特徵抽取

第三章、系統設計