研究目的與結果

第四章研究方法

第三節研究目的與結果

本研究利用各種實驗方法來嘗詴得到系統的各種值，本節說明各次實驗研究之實驗目的，並計算上一節所說明之五種值來評估系統的準確程度。

實驗一

壹、實驗目的

實驗一之目的為檢視第三章第三節所述之傳統特徵，若放在第二語言之寫作文本上，是否能具有其判斷效能。實驗一使用之傳統特徵為句數、字數、動詞數、三字詞數、詞數以及段落數，共六個。在機器學習之模型使用貝氏模型，

Ｐ( | ) ^Ｐ^{( |}_Ｐ_{( )}⁾^Ｐ⁽⁾ ，其中Ｐ( ) 做更動，使用其篇數值取自然對數後，

再取其事前機率。也就是將原來的篇數數值取自然對數，再將其轉換成機率值代入公式以進行計算。

將總數為402之作文輸入系統，其分布數據如表 4 - 2人工評分統計表。表4-2已列於上文，為求方便查閱，在此再列一次。

表 4 - 2 人工評分統計表

分數篇數

3 分 7

4 分 129

5 分 194

6 分 56

7 分 16

總篇數 402

貳、實驗結果

Exact Accuracy Rate (%) Adjacent Accuracy Rate(%)

Fold 1 51.00% 96.00%

表 4 - 4實驗一傳統特徵之人工評分與系統預測對照表

Exact Accuracy Rate (%) Adjacent Accuracy Rate(%)

帄均 27.79% 78.67%

整體 52.37% 93.77%

張道行(2007)使用多面向的傳統特徵，實作出中文寫作自動評閱系統可在準確率上達到48%、相鄰準確率87.3%、帄均準確率44.6%及帄均相鄰準確率 81.8%的效能。本研究在華語的領域中，系統在準確率及相鄰準確度上可達到較優的預測，在帄均相鄰準確顯示稍差的預測，而在帄均準確率上則明顯下降了。

實驗二

壹、實驗目的

本實驗之實驗目的為觀察本系統使用的各句法特徵的趨勢圖及分布圖，其趨勢走向是否能顯示出當作評判的標準之一。使用的句法特徵為主語長度、句法結構變異度、名詞片語比率、名詞片語修飾語數、複雜結構句數及單句數比率。

貳、實驗結果

在此列出所使用的句法特徵的分布圖以及趨勢圖說明，趨勢圖是用資料在各分數的帄均值所繪出的走勢圖；分布圖代表所有的資料在各個分數上，其散布的狀況。

下圖4 - 4可看出主語長度此特徵的走勢，從3分到6分，其特徵值有變低的趨勢，但在7分的時候帄均值卻往上提升了。從分布圖看來，這個特徵的分布是變低的，而七分的分布雖然也是呈現略低的狀態，但是可能因為資料量較少，

而且分布較集中，反而沒有低數值的資料去拉低帄均值。從圖表中，推測這個特徵應會有不錯的判別效果。

圖 4 - 4 主語長度趨勢圖及分布圖

圖4 - 5名詞片語修飾語趨勢圖及分布圖。趨勢圖從3分到7分呈現了下降、

上升又下降的走勢。使用分布圖觀察其特徵值的分布時，發現在這個特徵之下，

4分的資料分布涵蓋了5分的資料範圍、5分又涵蓋了6分的範圍、6分涵蓋了7分的資料範圍。整合兩圖帶來的資訊，再配合貝氏機器學習的模型，我們推斷這個特徵對於分類的準確性可能沒有太大的幫助。

圖 4 - 5 名詞片語修飾語趨勢圖及分布圖

圖4 - 6名詞片語比率趨勢圖及分布圖。從名詞片語比率趨勢圖可發現從3分到5分之特徵值呈現上升的趨勢，但到了6分下降，7分又上升，且在4分到7分起伏的幅度並不明顯。在分布圖上，可以發現也有和名詞片語修飾語有類似的分布，也就是4分的資料，其特徵值分布的最廣，5分、6分、7分依序遞減。這在使用貝氏機器學習的文本分類上並不是一個有效特徵的特性。

圖 4 - 6 名詞片語比率趨勢圖及分布圖

圖4 - 7句法結構變異度趨勢圖及分布圖。從句法結構變異度的趨勢圖可看出，從3分到6分其特徵值呈現向上的走勢，而在7分時，則是下降的。觀察它的分布圖時，發現除了在4分的地方有一篇文章有特別高的數值以外，4分、5 分及6分的特徵值分布，幾乎是完全重疊的。這種的分布趨勢在取門檻值的時候會出現判定模糊的情況，例如4分的門檻設定，本來預期會以4分的資料為大宗，但在此情況，可以說在4分、5分及6分的分布是交叉參雜的，幾乎無法判作為判定的標準，也因此推斷這個特徵在分類文本上，效用不大，甚至可能會造成更多的判定雜訊。

圖 4 - 7 句法結構變異度趨勢圖及分布圖

圖4 - 8複雜結構句數趨勢圖及分布圖。從趨勢圖可以出，在此特徵上，其值呈現上升的走勢。而在分布圖上，各分數的資料數值也具有重疊的情況，但仍能看出數值上升的分布。綜合趨勢圖及分布圖，推斷此特徵是符合貝氏機器學習模型的特性。

圖 4 - 8 複雜結構句數趨勢圖及分布圖

圖4 - 9單句數比率趨勢圖及分布圖。在趨勢圖上，可看出從3分到4分是呈現上升的走勢，而4分到7分是呈現下降的。在分布圖上，可以發現4分的資料

分布範圍最廣，涵蓋了所有分數的資料分布狀態，但其分布從4分到7分仍然是下降的。

圖 4 - 9 單句數比率趨勢圖及分布圖

從以上六個指標的趨勢圖及分布圖來看，可以初步推論其中名詞片語修飾語名詞片語比例以及句法結構變異度對分類的影響可能不佳，而主語長度、複雜結構句數以及單句數比率則可能有較優良的成效。

實驗三

壹、實驗流程

實驗三之目的為，在實驗二的初步評判之後，進一步觀察各種特徵在分級系統的評判效能。我們使用以下流程來幫助觀察：

一、僅使用六個句法特徵而不使用傳統特徵。使用之特徵為主語長度、句法結構變異度、名詞片語比率、名詞片語修飾語數、複雜結構句數及單句數比率。

二、將傳統特徵以及句法類特徵同時作用時，對分類的影響。所使用的傳統特徵為文章句數、字數、動詞數、三字詞數、詞數以及段落數，共

六個。句法類相關特徵為主語長度、句法結構變異度、名詞片語比率、

名詞片語修飾語數、複雜結構句數及單句數比率，共六個。

三、我們觀察在句法類特徵裡是否具有效果較佳之特徵。因此這個步驟將嘗詴挑出其中效果較佳的特徵加上傳統特徵當作變量，目的為觀察將傳統特徵以及三個效果較佳的句法類特徵同時作用時，對分類的影響。

四、進一步觀察句法類特徵單獨使用之效能，以及與傳統特徵搭配使用對分類的影響。其目的為比較並觀察句法類特徵分別輸入當作變數以及與傳統特徵同時輸入當作變數，其準確率的變化。

貳、實驗結果

下表 4 - 7實驗三-步驟一各Fold準確率統計表，觀察得知7個Fold的準確率最高為57%、最低為41%，而相鄰準確率在87%至94%，其帄均為50%及90.57%，

標準差為4.84%及2.77%，與實驗一相比，在準確率及相鄰準確率上的數值都發散了，代表句法特徵的預測性，對測詴資料的分堆狀況更為敏感，可能是因為測詴資料裡的文本在句法這幾項的特徵值上，表現出不同的數值。

表 4 - 7 實驗三-步驟一各 Fold 準確率統計表

Exact Accuracy Rate (%) Adjacent Accuracy Rate(%)

Fold 1 50.00% 94.00%

Fold 2 53.00% 94.00%

Fold 3 41.00% 92.00%

Fold 4 46.00% 87.00%

Fold 5 57.00% 91.00%

Fold 6 53.00% 87.00%

Fold 7 50.00% 89.00%

帄均 50.00% 90.57%

標準差 4.84% 2.77%

下表 4 - 8實驗三-步驟一人工評分與系統預測對照表，人工評閱3分的文章，

表 4 - 10實驗三-步驟二各Fold準確率統計表，觀察得知7個Fold的準確率最高為60%、最低為48%，而相鄰準確率最高為96%，最低為89%，其帄均為 53.57%及92.43%，標準差為3.62%及2.44%。

表 4 - 10 實驗三-步驟二各 Fold 準確率統計表

Exact Accuracy Rate (%) Adjacent Accuracy Rate(%)

Fold 1 53.00% 96.00%

表 4 - 12實驗三-步驟二系統預測各分數之準確率計算表，計算出各分數之

Exact Accuracy Rate (%) Adjacent Accuracy Rate(%)

Fold 1 50.00% 96.00%

下表 4 - 14實驗三-步驟三人工評分與系統預測對照表，其中人工評閱3分的文章，系統有3篇預測成4分，4篇預測成5分；人工評閱4分的文章，系統有74 篇預測成4分，55篇預測成5分；人工評閱5分的文章，系統有51篇預測成5分，

142篇預測成5分，1篇預測成7分；人工評閱6分的文章，系統有8篇預測成4分，

44篇預測成5分，2篇預測成6分，2篇預測成7分；而人工評閱7分的文章，系統有15篇預測成5分，1篇預測成3分。

表 4 - 14 實驗三-步驟三人工評分與系統預測對照表 系統預測評分

3 分 4 分 5 分 6 分 7 分總篇數

人工評分

3 分 0 4 3 0 0 7

4 分 0 74 55 0 0 129

5 分 0 51 142 0 1 194

6 分 0 8 44 2 2 56

7 分 0 0 15 1 0 16

總篇數 0 137 259 3 3 402

下表 4 - 15實驗三-步驟三系統預測各分數之準確率計算表，計算出各分數之準確率、相鄰準確率及嚴重偏離值。從下表4-15可以發現句法法特徵在3分及 7分的準確率上呈現0%，與實驗四相同。在相鄰準確率上最低者為7分，僅有 6.25%，在嚴重偏離率上則是0%。

表 4 - 15 實驗三-步驟三系統預測各分數之準確率計算表

發現，系統將所有的文章皆評定為4分或5分。將此結果與實驗二的觀察結果相對應，發現其中特徵值的散布範圍皆在4分及5分為主，而且其中又有三個變數在使用此模型時，已推測其為難以進行預估的特徵，因此推論這可能是系統難以僅用句法法特徵評定作文分級的原因。

實驗一、實驗三步驟一及實驗三步驟二分別以傳統特徵、句法類特徵及兩種特徵並用作為輸入之變數，對文章進行預測，可發現在準確率上使用傳統特徵較使用句法類特徵的高，而整合兩種特徵之作法又比另外兩種優秀。在相鄰準確率上，亦是傳統特徵較句法類特徵之數值高，但整合兩種特徵之數值卻較傳統特徵低。

從實驗三步驟三的結果可發現，根據實驗二所初步判斷有效的句法類特徵，

可以提升系統的整體準確率0.25%，而其他數值也都有些微的提升，為此想探究進一步探究各句法類特徵用來做分類的效能。

本實驗的第四個步驟，將各個句法類特徵之準確率、相鄰準確率及嚴重偏離率列表如下表 4 - 17實驗三-步驟四系統預測各句法特徵之準確率計算表，其中主語長度之準確率為37.16%，相鄰準確率為80.55%，嚴重偏離率為3.49%。

名詞片語修飾語之準確率為36.66%，相鄰準確率為81.55%，嚴重偏離率為 5.37%。名詞片語比率之準確率為36.16%，相鄰準確率為85.56%，嚴重偏離率

在文檔中華語作文分級系統 (頁 64-88)

第四章 研究方法

第三節 研究目的與結果

實驗一

實驗二

實驗三

第四章研究方法

第三節研究目的與結果