• 沒有找到結果。

文章特徵

在文檔中 華語作文分級系統 (頁 39-43)

第三章 系統設計

第三節 文章特徵

本研究的系統中,使用了前面幾個小節的步驟─「資料前處理」獲得的斷 詞及詞性標記等資訊,再將其文本使用「文法剖析器」做句法剖析後所得之資 料─運用本節所要介紹的文章特徵的方法,算出文章特徵之數值。

本研究採用的文章特徵,來源主要有兩個:一是藉著文法剖析器所開發出 之句法特徵;一是參考先前在其他AES系統或在文本特徵擷取時所廣泛使用的 特徵,在此以傳統特徵簡稱這類的指標,例如中文AES系統所使用的指標。關 於外語、華語教學等部分之重點整理,在文獻探討部分已有列出。本研究因欲 將華語作文作分級,所以嘗詴開發適合華語寫作分級的句法特徵,並與原有常 見的特徵做探討分析,之後整合、選用其中一些特徵,作為預測文章分級的項 目,並觀察這些指標在華語作文的分級中是否具有效用。

以下根據指標的來源,分成兩個類別對指標做介紹。

壹、 句法類特徵

過去未曾有將句法類特徵應用在中文文本內的例子,在這個類別 中,本研究使用了六個句法相關的特徵,介紹如下。

一、句法結構變異度:兩句相鄰句子的結構樹中,頂點的節點數 量。一般認為,在句法結構樹裡,頂點越多表示句法結構越 為複雜。

二、名詞片語比率:公式為單句話裡的 名詞片語數

詞數 。Coh-Metrix2.0中定義此特徵為一句話中名詞片語的數量除以總字 數。在CRIE中,定義此特徵為一句話中名詞片語數量除以詞 數。

三、名詞片語修飾語:每個名詞片語的修飾語的數量。 在Coh-Metrix中認為名詞片語修飾語語應可作為文章難易的指標之一。

四、主語長度:計算主要動詞前出現的詞數。研究指出,無論文 章篇幅長短,文章便是一個以主語及謂語結合起來的句子而 已。分析文章主語及謂語,能掘發文章的特點(仇小屏,2005)。

在此認為,主語長度是主語的其中一個重要的表現項目。

五、複雜結構句數:複雜結構句子的數量(國立臺灣師範大學數位 學習實驗室, 2012)。漢語中複雜句型的定義,是一個從屬子 句藉由一種聯繫,接在主要子句上的結構(林宗宏,2005)。盧 慧娟及呂羅雪(2001)指出,複雜句在敘事體及說明體的篇章結 構的句子跟段落中,與其表達理解的程度有相關性存在。

六、單句數比例:單句的數量在整篇文章中的比例。語言學習的 過程是由單句漸進至複句,雖然在高寫作能力學生的寫作範 本上,單句數並不會因語言程度的提升而消失,但在整篇文 章的比例上,會顯現一定數量的減少。研究亦指出,簡化的 單字、句子與是否學習過特定形式句型及學習時間有顯著相 關(盧慧娟及呂羅雪,2001),因此認為單句數與語言學習者的 語言能力程度亦有相關,可做為指標之一。

貳、 傳統特徵

一、句 數 : 文 章 的 總 句 數 。 McNamara, Louwerse, McCarthy 及 Grasser(2010)指出,句數可表示文章的概念量。李垚暾(2011) 亦使用句數作為文章主題數之判別方法。而在L2的範疇裡,

ACTFL在2012年所出版的Proficiency guildline2012 - writing中

明確指出,敘述能否達到一個段落的長度,是其中的一個評 分的項目。而句子的數目與這個條件有絕對的關係,因此我 們認為這個特徵項目在L2也可以使用。

二、段落數:文章的段落數。中文寫作中,文章段落代表其整體 架構。李垚暾(2011)利用此特徵,判別文章架構是否對應其應 有段落。華語作文對於文章的段落架構要求也與中文作文相 同,因而認為此特徵項目可以移至華語作文中使用。

三、詞數:經過斷詞後的總詞數。在資料前處理程序裡,所應用 之斷詞系統亦具此功能,可下指令直接求得斷詞後之詞數。

McNamara, Louwerse, McCarthy 及Grasser(2010)指出,詞數可 表示文章的概念量。在華語作文中,是否能用華語表達出題 目要求以及作者想要表達的訊息,其訊息量是一個重要的指 標,而在上文中亦提及,詞數可表示文章的概念量,因此我 們也期望在詞數這個特徵上,能夠有顯著幫助的

四、字數:整篇文章的總字數。在資料前處理之程序裡,所應用 之斷詞系統便已具有計算字數的功能,可直接計算整篇文章 的字數。

五、三字詞數:三字詞的總詞數。文章經過前處理的斷詞系統斷 詞以後,字數為三個字的詞稱為三字詞例如「北極熊」、

「補習班」等。與三字詞數類似概念的還有單字詞及二字詞。

在中文中,單字詞及二字詞的數量佔了非常多的比例,認為 這兩個特徵的意義已經與字數、詞數太過類似,因此不採納。

音 節 數 : 文 章 經 過 斷 詞 後 , 詞 的 帄 均 音 節 數 。 McNamara, Louwerse, McCarthy 及Grasser(2010)提出的Coh-Metrix指出,

音節較長的詞彙,屬於較難應用的詞。由於中文及英文不同,

中文的音節我們以詞彙的長度來計算,例如單字詞「我」、

「是」為一個音節,二字詞「因為」為兩個音節,三字詞

「北極熊」便是三個音節。

六、動詞數:文章中動詞出現的數量。在英文的文章中,一句話 裡僅有一個動詞,代表句子主要的動作,例如事件的發生、

進行,並且有時態上的表現。在中文中雖難以在動詞上看出 時態的變化,但是仍是文意表現的方向之一。

以上其中幾個特徵,已被證實在中文的作文評分系統及中文文本分級系統 中是有效用的(李垚暾,2011;胡夢珂,2011),而推斷這幾個特徵也具有評判 的價值。因此擷取每篇寫作的這些特徵值,做為預測模型的輸入。

在文檔中 華語作文分級系統 (頁 39-43)

相關文件