結果與討論

第三章研究二、四種取向建構之適讀性模式的開發與比較

第二節結果與討論

研究二透過巢套交叉驗證選擇出四組模式最佳的超參數，並比較四組模式在三種不同類型文本（國語、社會、全部課文）的正確率。

壹、參數選擇結果

研究二共比較四種不同模式，共有20 組不同的模式參數。每組模式參數都在三種不同類型的語料中，經過5 次不同的交叉驗證得到 5 個訓練正確率、以及5 個測試正確率。所有交叉驗證的結果整理如表 2.4。以下將分別討論各種不同模式在不同參數下的驗證正確率結果。

在線性迴歸模式中，在不同的文本類型中，均呈現正規化係數愈低，測試正確率愈高的趨勢。在全部課文的語料類型中，當正規化係數為0.05 時，測試正確率為.44；係數為 0.10 時，正確率為 0.42，當係數為 0.20 時，正確率為 0.36。在國語課文的語料類型中，當正規化係數為 0.05 時，測試正確率為.43；

係數為0.10 時，正確率為 0.38，當係數為 0.20 時，正確率為 0.31。社會課文的語料類型中，當正規化係數為0.05 時，測試正確率為.47；係數為 0.10 時，正確率為0.43，當係數為 0.20 時，正確率為 0.39。本研究最後選擇在所有文本中具有最高測試正確率的正規化係數（0.05）作為線性迴歸的超參數。。

在支持向量機模式中，三種模式的超參數亦有接近的正確率表現。支持向量機所比較的參數為懲罰係數為0.01、0.1、和 1.0 時之模式正確率表現。在全部課文的語料類型中，當懲罰係數為0.01 時，測試正確率為.50；係數為 0.1 時，正確率為.38；係數為 1.0 時，正確率為.48。在國語課文中，在各懲罰係數

下之正確率皆為.38。在社會課文中，當懲罰係數為 0.01 時，測試正確率為.61；係數為 0.1 時，正確率為.61；係數為 1.0 時，正確率為.59。本研究最後選擇之懲罰係數0.1 作為最佳的模式超參數。

在主題模式中，共有10 組不同的超參數組合，分別是 2 種不同的主題模式訓練語料來源；以及不同語料訓練來源中，分別有5 種不同的主題數。從交叉驗證結果中可發現，不管是在哪一種文本類型（國語、社會、全部），以課文當作主題模式之訓練來源的測試正確率，均低於以平衡語料庫作為訓練語料來源之正確率。在平衡語料庫的主題模式中，主題數愈多的預測表現會愈好，故最後本研究選擇以平衡語料庫建立主題數為400 的主題模式作為最佳模式。

上述結果透露出主題模式的來源語料與適讀性預測的有趣關係。主題模式的訓練語料某種程度上代表其主題分配所在的語義空間，就直觀上而言，此預測作業既然是預測課文的適讀性，以課文本身當作主題模式的來源應有助於預測作業，但交互驗證的結果並不符合這項預期。然而，主題模式的估計過程需從詞彙的出現頻率估計主題的詞彙分配，故詞彙本身在語料庫的數量也和主題空間的穩定性息息相關。以語料庫大小而言，平衡語料庫是百萬字規模的語料庫，但全部課文僅約30 萬字。兩者的語料規模可能對主題模式應用在適讀性預測作業的結果有很大的影響。

深度學習模式有4 項超參數，亦即詞彙嵌入層需要多少嵌入維度。在四組超參數（維度為20、50、100、200）中，維度為 100 時的測試正確率表現高於其他參數。維度100 之參數在全部課文的測試正確率為 0.57、在國語課文中為 0.41、在社會課文中正確率為 0.75。故最後深度學習模式以維度 100 作為最佳之嵌入層維度。

貳、模式正確率

經過內層交叉驗證的參數選擇階段後（交叉驗證結果請見表3.2），本研究共選出4 組最佳超參數分別代表上述四個模式：分別是線性迴歸的正規化係數使用0.05；支持向量機的懲罰係數為 0.1；主題模式使用平衡語料庫為訓練語料，主題數設定為400；深度學習之嵌入層維度為 100。

此4 組模式進入外層的交叉驗證模式評估階段。在這階段中，各模式使用內層交叉驗證的全部資料作為訓練資料，並預測從未「看過」的測試資料。各模式在測試資料的正確率整理如表

3.3。

此四模式都分別計算它們在不同文本類型（國語、社會、全部課文）的訓練和測試正確率。在全部課文的文本類型中，正確率最高的是深度學習（M = 0.62）、其次是支持向量機（M = .56），主題模式的正確率則較低（M = 0.37）。

線性迴歸的正確率亦較低（M = 0.38），該模式選擇了 32 個變項，包括字頻

（第1、50 百分位數）、字頻排序（字頻排序在 1-800、3000 以上的字數比例）、字筆畫數（第2、3 四分位數）、子句長的中數、內容詞重複指標（局部與脈絡）、名詞局部重複指標、句長（第3 四分位數）、詞長（第 2 四分位數）、詞頻排序比例（在5 萬到 10 萬間）、句法樹最大深度、罕見片語語式頻率（第 3 四分位數）、名詞修飾詞數、詞彙語意數（第2、3 四分位數）、形容詞比例、被字句比例、連接詞（因果、目的、轉折、遞進）比例、動詞（所有動詞、能願動詞、使令）比例、名詞比例、代名詞比例、詞類詞例比、動詞片語比例、和動詞比例。

在國語課文的文本類型中，正確率最高的是線性迴歸（M = 0.55），其次是深度學習（M = 0.48），次之是支持向量機（M = 0.41）和主題模式（M = 0.32）。線性迴歸模式在國語課文中選擇出 27 個變項，分別是字頻排序（排序在800 以下、和排序在 3000 以上）、字筆畫數（第 1 四分位數）、子句長（第 1

四分位數）、內容重複指標（局部與脈絡）、名詞重複指標（局部）、句長（第 1、3 四分位數）、詞頻（第 75 百分位數）、詞長（第 2 四分位數）、詞頻排序比例（排序在10 萬以上）、最大句法樹深度、名詞修飾詞數、詞彙語意數（第 2、3 四分位數）、連接詞（全部、因果、解證、目的、假設、轉折、選擇）比例、內容詞功能詞比、名詞片語比例、詞類詞例比和動詞片語比例。

在社會課文的文本類型中，正確率最高的是深度學習（M = 0.77）、其次是同屬低輸入透明度的主題模式（M = 0.67）。高輸入透明度的支持向量機的正確率次之（M = 0.54）、線性迴歸的正確率則較低（M = 0.48）。線性迴歸模式在社會課文中選擇了28 個變項，包括字頻排序（字頻排序在 1-800）、內容詞重複指標（局部、脈絡）、名詞局部重複指標、語意重複指標（局部）、句長（第3 四分位數）、詞長（第2 四分位數）、詞頻排序比例（在 5 萬到 10 萬間）、句法樹最大深度、罕見片語語式頻率（第3 四分位數）、名詞修飾詞數、詞彙語意數

（第2、3 四分位數）、主要動詞前詞數、形容詞比例、被字句比例、連接詞

（因果、目的、轉折、遞進、選擇）比例、內容詞比例、動詞（能願動詞）比例、名詞比例、代名詞比例、詞類詞例比、動詞片語比例、和動詞比例。

從上述結果中，深度學習的結果相較於其他模式而言，在各種文本類型中的表現較為穩定。而線性迴歸模式在國語課文有最高的正確率，但在全部課文的預測正確率卻較差。同屬高輸入透明度的支持向量機模式在三種不同文本類型也較穩定，但在國語課文的正確率最低。而主題模式在國語課文和全部課文的表現都較差，但在社會課文卻有僅次於深度學習模式的正確率。

模式歸類的正確率提供很容易判讀的訊息，但模式預測錯誤的結果也暗示關於模式的預測特性。尤其適讀性年級的預測雖然是文本歸類問題，但不同適讀年級並不是完全獨立的類別變項。不同適讀年級的預測應該具有一定程度的順序關係。在正確率指標的計算上，模式將一篇5 年級的文章預測成 6 年級，

和將該文章預測成1 年級，在正確率指標上都同樣是「錯誤」的，但兩者在適

讀性應用上卻有截然不同的意義。圖3.1 即試圖以各模式在不同文本類型的混淆矩陣（confusion matrix）呈現各模式的預測適讀性和真實文本年級之間的相關。

圖3.1 混淆矩陣的橫軸是真實的文本年級，縱軸是各模式（在不同文本類型下）所預測的適讀年級。如果預測結果是完全正確的，則混淆矩陣的對角線應該是黑色的方塊，例如圖3.1 右下角的混淆矩陣代表深度學習模式預測社會課本的結果，是最接近完全正確的結果。從混淆矩陣的結果可以發現，雖然線性迴歸模式在社會課文的預測表現不高，但從混淆矩陣的結果而言，模式最多錯誤的地方是無法分辨低年級的文本，而對三到六年級的文本的預測，則可能會上下相差1 個年級。此錯誤樣態符合社會課文是傳遞領域知識的學科，除了低年級生活和中高年級社會科行文風格確有不同外，在社會科不同年級文本的主要差異較傾向顯現於不同領域的主題（如地理、歷史、經濟、政治）等。此特性亦顯現在主題模式較能掌握社會科適讀年級的結果。從混淆矩陣也可看出主題模式對社會科的預測正確率較高，僅在二年級的生活科文本犯了較多錯誤，這和低年級文本屬於生活領域，在文本主題上較不明確有關。

從混淆矩陣的結果中，線性迴歸模式在國語課本中的確有較佳的表現。該模式大部份的錯誤是把許多一年級文章預測成二年級，以及混淆許多高年級的文本，暗示高年級國語課文的行文難度已較為接近。過去研究（曾昱翔等人，

2014）亦發現高年級國語課文的用字型態已逐漸接近。另外，從混淆矩陣亦可發現，雖然深度學習在國語課文上的預測正確率較差，但其預測錯誤大部份僅與實際文本年級相差一到二年級。由於深度學習模式的輸入特徵是詞向量表徵，詞彙嵌入層較能掌握的是詞彙共現關係（與詞彙語義較有關係）。不同年級國語課文的難度更傾向發生在用字用詞、句法結構等屬性上。此研究用的深度學習模式未納入對語句結構較敏感的網路架構，故深度學習模式應難以掌握到

在文檔中診斷式的適讀性評估系統：以小學文本探討四種模式的比較研究 (頁 100-111)

第三章 研究二、四種取向建構之適讀性模式 的開發與比較

第二節 結果與討論

3.3。

第三章研究二、四種取向建構之適讀性模式的開發與比較

第二節結果與討論