• 沒有找到結果。

第三章、 特徵擷取

3.1 直接特徵的擷取

本系統所使用的直接特徵共有兩種,其一為文章內概念數的使用數量,其二 為文章所使用的口語化程度,將分述如下:

3.1.1 概念數

在[7]中,作者利用學生撰寫作文過程中所運用的概念組織,來決定文章內 容的優劣,而用於描述一個「概念」的最小意義單位謂之「義原」。在本系統中,

利用該方法,在訓練文章中產生一組具有鑑別力的義原集合,又稱「概念子集 合」,其中,經過篩選出來的義原,意謂著高分文章中常見且鮮於低分文章中出 現之義原,這些義原又稱為「好義原」。接著將所有的測試文章經過中文斷詞後,

將內容「概念化」(Conceptualize),令所有斷好的詞轉換為義原,並根據各篇 文章所產生的義原集合,進行統計該集合中出現好義原的數量,以作為文章概念 數的特徵;但由於義原是根據詞彙所進行的轉換,不同的詞彙也有可能會對應到 同一個義原,如「教室」、「客廳」等中文詞其義原皆為{room|房間};這樣的統計 方式並無法確定該篇文章的好義原是由哪些詞彙所對應,因此某些文章中雖出現 好義原,但其對應的詞彙卻為不雅用詞:例如,某測試文章中有一句子為,『(有 時候)(在)(十)(分鐘)(的)(下課)(裡),(大家)(互摸)(胸部)』,其中「胸部」一

詞可對應至好義原{part|部件},但該詞在一般用語上並非適當用法。有鑑於此,

本系統對於統計文章好意原數量的方式加以修整;在訓練產生概念子集合時,同 時紀錄所有轉換為好義原的詞彙,因此,對於測試文章好義原的定義存在一必要 條件:該詞彙所對應的義原須存在於概念子集合中,且該詞彙必須存在於此義原 的詞彙列表中,如下所示:

Good_Def = { DEF(x) | DEF(x)∈ConceptSubset,

x:term of essay∈termList of DEF(x) }

經此一調整後,我們由訓練文章中統計概念數量與寫作評閱之間的關係圖 表,如圖 1 所示。

0 5 10 15 20 25

一分 二分 三分 四分 五分 六分

平均概念數

圖表 1:平均概念數

3.1.2 口語化程度

作文與演講最大的差異在於「口語」的表現方式;在演講的過程中,為了能 讓所有聽眾清楚瞭解演講者所傳達的訊息,演講方式大多以「談話性」的演講技 巧作為與聽眾間溝通的方式。但相對於作文來說,寫作是一嚴謹的思考過程,文 章的內容必須條理分明並避免口語化的使用,以下表1中『今天天氣真是熱斃了』

(以下簡稱A句)與『今天天氣非常炎熱』(以下簡稱B句)兩句子為例,A句的 寫法較貼切於一般大眾的平時對話,因此較易引起聽眾的興趣,適於談話性質高 的演講場合中;相較之下,B句的寫法在修辭上較A句顯得嚴謹且完整,因此適於 結構完整的作文寫作中。表格1所示為演講與寫作方式不同的比較:

演講方式 寫作方式 今天天氣真是『熱斃了』。 今天天氣非常炎熱。

平時都在玩,考試卻考了第一 名,真是『電電吃三碗公』,看 不出來。

鮮少讀書的他,在這一次的考試 中得到了第一名,真是令人大感 意外。

他在班上的人緣『超好』。 他在班上的人際關係非常好。

他這人,『超搞笑』。 他是個非常幽默的男生。

表格 1:演講與寫作方式比較

由表1得知,在演講的過程中,為了引起聽眾的興趣及注意,演講方式是以較為 輕鬆、活潑、詼諧的口語方式為主,但這樣的作法較不適用於寫作技巧中。在本 系統中,為了分辨口語化的寫作技巧,本系統利用在斷詞上一簡單概念來加以區 別。我們認為在一個句子中,最小的單位詞字數至少為二字以上,以A、B兩句為 例,此二句型經過中文斷詞後所得結果為:

(a)今天 天氣 真是 熱 斃 了 (b)今天 天氣 非常 炎熱

依上述結果所示,我們發現在口語化的句型中,斷詞後的結果所含有的『單 字詞』比例較結構完整的敘述句來得高;根據觀察指出,這類單字詞的種類主要 可分為「流行語」、「錯別字」、「特定詞性」三類:

I. 流行語:隨著傳播媒體的發達與網路的普遍應用,在日常生活對話 中出現許多流行術語。例如:「粉好笑」、「伊媚兒」、「很俗」

等,這類新形態的語言呈現方式,除了打破正式作文的文法與句型 外,尚加入許多象徵性符號來描繪說話的語氣或表情,也因而使得 文章內容呈現高度口語化的現象。但這類非正式書寫文字的流行新 名詞並不存在於傳統字典中,因此經由斷詞系統處理後,這類詞彙 皆會被斷為單字詞。以上述為例,經由斷詞系統處理後,結果分別

為(粉)(好笑)、(伊)(媚)(兒)、(很)(俗);這樣的斷詞結果顯示出 單字詞與流行語之間的相互關係,因此在本系統中,透過單字詞的 補捉,以作為口語化特徵。

II. 錯別字:錯別字是學生寫作時常見的語文弊病,當文章中出現錯別 字時,即間接影響斷詞的結果。例如:「唾手可得」本為一正確成 語寫法,當寫作者將其誤寫為「垂手可得」時,斷詞的結果會因錯 別字的出現而展現出不同的結果,分別為(唾手可得)與

(垂)(手)(可)(得)。

III.特定詞性:根據斷詞結果顯示,連接詞、介係詞、位置詞及代名詞 等語義層面較低的詞類,普遍且大量出現於各類文章中,而此類詞 性經由斷詞處理後,大多屬於單字詞。例如:「我在教室裡」一句,

在經由斷詞處理後,斷詞結果為(我)(在)(教室)(裡),其中根據中 研院平衡語料庫詞類標記集所示,在此斷詞結果中,被斷為單字詞 的(我)、(在)、(裡)分別為語義層面較低的代名詞、介係詞、位置 詞;然而此類詞性皆為常見的寫作用法,在各類文章中隨處可見,

因此當本系統加入此類單字詞作為口語化特徵計算時,並不影響其 優異效果。

具此觀念,我們定義一口語化程度公式如下,作為本系統所使用的學習特徵 之一:

口語化程度 = 單字詞個數 ÷ 文章字數

依上述公式可知,在斷詞文章中,若出現單字詞的比例愈高,則顯示口語化 程度愈深,換言之,寫作手法即愈差。依此推論,我們由訓練文章中統計口語化 程度與寫作評閱之間的關係圖表,如下圖2所示。

0.3 0.35 0.4

一分 二分 三分 四分 五分 六分

平均口語化程度

圖表 2:平均口語化程度

相關文件