綜合討論 - 診斷式的適讀性評估系統：以小學文本探討四種模式的比較研究

此論文的目的為建立一套適讀性的診斷式系統。在五個研究中，研究者首先（一）建立自動抽取文本屬性的自動程序，並以更具體的罕見語式頻率和最大句法樹深度屬性操作過去文獻重視的句法複雜度屬性。（二）開發線性迴歸、

支持向量機、主題模式和深度學習四種預測模式。其中，主題模式是以文本主題預測文本適讀性，該預測方式是過去適讀性文獻中較少見的預測取向。（三）

比較四種模式的預測表現，並發現整體而言深度學習模式的表現最佳，但四種預測模式彼此間的相關和與文本所在年級的相關皆達顯著水準，顯示4 種模式在實用上已具備應用價值。（四）詢問教學現場教師對於四種適讀性預測模式的意見，結果顯示教師較願意採用與文本主題、或與文本屬性（如句法複雜、字詞難度）較相關的主題模式或線性迴歸模式。（五）參考研究三的結果與教師意見設計文本適讀性診斷式系統。該系統除了提供深度學習模式的預測結果，並提供各類文本屬性及相關主題文章，協助教師理解文章難度來源，並可幫助編輯文章難度。（六）再次請教師評估診斷系統。評估結果發現該系統確有助於理解文章難度和編輯文章難度。

研究一與研究二的結果顯示，可發現文本屬性在適讀性的預測上仍然扮演非常重要的角色。首先，在控制文章長度後，迴歸模式可僅用簡單的表層類別屬性（字詞頻、句子長度等）即解釋65％的文本年級變異量。若在迴歸模式加上其他與閱讀心理學相關的文本一致性屬性，及本研究所抽取的句法複雜度屬性後，模型解釋力已接近80％。在正確率上，迴歸模式在國語課文中的表現是四個模式中最佳。這些結果代表國文課本的編撰者在編選文本時，非常重視文本的屬性。當然，因為這樣，採用迴歸分析建構的適讀性模式對於國文文本的適讀性預測也是最有效的。

文本屬性的定義與操作是來自於過去近百年來的適讀性研究所累積下來的知識基礎（Dale & Chall, 1949；Flesch, 1948；Graesser et al., 2004；Kintsch &

Dijk, 1978；Kintsch & Mangalath, 2011）。甚至，如何描述文本中句子的句法特性，更需援引過去語言學的研究成果（Chomsky, 1956；Covington, 2001）。尤其隨著各項自然語言處理技術的進步，以往無法自動化抽取的文本屬性（如句法結構等）已逐漸容易取得。本論文即藉助近年來發展的自然語言處理工具抽取語句中的句法樹結構，並計算出語式頻率和句法樹深度等屬性。這些屬性更具體的操作過去認知心理學或語言學的理論構念。Domingos（2012）即指出，雖然各種機器學習模式能用較多的參數達成預測作業，但若研究者能仔細的透過領域知識（domain knowledge）設計出有用的特徵（features），各種分類作業都可大幅簡化。從此研究的結果中，顯現過去數十年的適讀性研究結果所提供的各類文本屬性能讓研究者預測文本適讀性。

然而，此研究結果卻也暗示以文本屬性預測適讀性的不足之處。例如，本研究發現針對「所有文本」或社會文本，以文本屬性預測社會課文的模式（線性迴歸、支持向量機）在預測文本的適讀性上，皆不如直接以詞彙作為輸入的模式（主題模式、深度學習）。此現象反應文本類型的不同，預測模式需著重不同的面向：國語課文是語言教學導向的文本，故其文本難度會較反應在文本屬性上；社會課文則是傳遞知識的文本，其知識結構較為明確，故其文本適讀年級可能與其內容或主題較相關。本研究採用主題模式分析社會文本所包含的主題，並以這些主題分類文本的所在年級。研究結果顯示，此方式對社會課文的分類可達到67%的正確率。然而，對國文文本的分類，主題模式的表現不佳。

與與其他模式相比，深度學習雖是教師較不願意採用其結果的預測模式，

但它對社會課文和全部課文的適讀性預測卻是表現是最佳的。而且，深度學習的神經網絡模式具有多樣的架構選擇，讓此類模式有很大的改善彈性。本研究的深度學習是一個相對簡單的模式架構，僅有嵌入層、平均化層、之後即產生

適讀年級預測。本研究的模式選擇或許受限於資料量，故未能開發出更完整的模式架構。但近年來的深度學習研究，卻揭示各種深度學習模式的可能。而有些模式架構或許能改善深度學習的透明度，以提升使用者實際採用其預測結果的意願。

有些深度學習模式研究試圖讓模式自動學習到文本語言中的結構屬性。亦即，雖然深度學習模式的輸入資料是文本詞彙，並不包含文句的結構訊息，但只要給予模式適當的架構彈性，模式可自動從詞彙中學習到文句的結構。這些研究使用到循環網絡架構（recurrent neural network），該架構使得模式有足夠的彈性捕捉人類語言的句法特性（Elman, 1990；Hochreiter & Schmidhuber,

1997）。近年來，有些研究更直接分析循環網絡中的表徵，試圖尋找模式學習到哪些和語句結構有關的訊息。例如，Karpathy、Johnson 及 Li（2016）利用長－

短期記憶模組（Long-short term memory, LSTM）建立循環神經網絡模式，並讓該模式學習如何預測小說或程式碼中的字彙（character）。當模式訓練完成後，

它們分析模組中的每一個單位（cell）的表徵內容，並發現某些 LSTM 中的單位負責表徵語句中的句長、引號、句子位置等，與語句結構有關的訊息。這些研究不僅顯現深度學習模式從詞彙輸入中掌握句法結構的能力，亦顯示至少在特定的作業和架構下，深度學習的表徵並非完全不可穿透的。

另外一些深度學習的研究則試圖描述模式的預測與哪些輸入資料有關。這些研究可讓深度學習模式提供文本的診斷訊息，亦即文本中的哪個字、詞、句子可能是會影響到文本適讀性預測的。此類型的研究來自於神經機器翻譯

（neural machine translation）（Bahdanau, Cho & Bengio, 2015；Luong, Pham, &

Manning, 2015; Vasawani et al., 2017）。在機器翻譯模式中，模式需學習原始句和翻譯句之間的關係，但兩句間不必然有相同的詞彙個數，甚至詞彙間也不必然是一對一的對應關係。為了解決這個問題，研究者試圖賦予模式「注意力機制」（attention mechanism），讓模式可學習在產生某個翻譯句中的詞彙時，該

「注意」哪個來源句中的詞彙。在模式中，此注意力是一個可被量化的向量，

該向量不僅讓模式得以選擇輸入資料與預測判斷間的權重，研究者亦能透過向量中的權重瞭解每個模式的預測輸出是來自於哪些來源詞彙（Ghader & Monz, 2017）。深度學習的注意力機制或許是能幫助研究者連結輸入資料與適讀性預測之間的未來可能。

本研究建立的診斷系統整合文本屬性和模式預測訊息，並提供文本的診斷訊息，讓使用者能瞭解，可能是哪些文本屬性造成文本的難度。這個系統也可以協助使用者編輯文本，改變文本的難度。從研究三的訪談研究中可知，教師期待適讀性系統能考慮到文本所用字詞的難度、文句的複雜度以及文本所用的主題。這些訊息並非任和一種適讀性預測模式所能提供的。根據研究二的分析，四種適讀性模式雖然預測文本適讀性的正確率不一，但在對各種類型的文本適讀性的預測皆達到顯著相關，所以不同模式對文本分析後，得到的訊息應可以互相整合的。故本研究設計的適讀性診斷系統除了能提供深度學習模式對文本適讀性的預測結果外，還能未受試者提供對瞭解文章難度最有幫助的線性迴歸模式與主題模式對文本分析的結果。同時，系統中也針對文本的字、詞、

句子層次，提供各項文本屬性的診斷訊息。這可以讓使用者可具體瞭解到一篇文本的文本屬性影響了文本的難度。最後，為讓使用者瞭解目標文文的主題內容，診斷系統也以主題模式的訊息找出與之相似主題的文章。從研究五的結果評估中，教師們認為此系統確可幫助他們瞭解以及編輯文章難度。

本論文以輸入透明度和參數透明度評估四種不同適讀性模式：線性迴歸、

支持向量機、主題模式和深度學習。其中高輸入透明度模式需要使用文本屬性建構適讀性模型，所以在研究一中，研究者建立能夠自動在文本中抽取文本屬性的機制；無論這個文本屬性是傳統適讀性研究使用的表層屬性，或是認知取向模式使用的文章一致性屬性，還是本研究計算之句法複雜度屬性，均能從文本中計算取得。

本論文建立、分析、比較四種適讀性模式的表現，同時以訪談研究詢問小學現場教師最願意採用的適讀性模式。最後，本研究根據研究一至研究三的結果，建立一套診斷式的適讀性系統，該系統可幫助使用者瞭解文章難度和內容主題、以及協助使用者編輯文章難度，而針對小學教師的問卷調查，他們接受這套系統的意願頗高。

在文檔中診斷式的適讀性評估系統：以小學文本探討四種模式的比較研究 (頁 129-135)