緒論 - 應用可讀性預測於中小學國語文教科書及優良課外讀物分類之研究

1.1 研究背景

閱讀能力是文明的指標之一，正所謂「站在巨人的肩膀上」，透過閱讀能累積前人智慧以開啟自身的視野。透過學習閱讀，可提升自學能力，迅速掌握新訊息成為新的知識，更甚者能利用己知來分析、綜合及批判所讀到的文章，表達出個人的見解。

「教育是國家的根本，而閱讀是教育的根本」，從小培養閱讀的習慣，就是提升競爭力的最好方式。因此，如何協助家長、教師或讀者本身，選擇符合不同教育程度的對象能夠閱讀的文章，是值得探討的議題。

可讀性（Readability）是指閱讀材料能夠被讀者理解的程度[1]。可讀性高的文章較容易被讀者理解。文章的可讀性與很多因素有關，如：文長、字詞難度、

句法結構、內容是否符合讀者的先備知識等，表淺的語言特徵並無法完全反映這些複雜的成分。

英文文本的可讀性研究行之有年，或以詞彙頻率列表，評量文章難度；或將詞表作為參照，建置可讀性公式；或發展線上多文本特徵分析器[2]，計算影響文章難易度的各類型指標，並提供數值化的結果。

中文的可讀性研究則屈指可數，或選用表淺的語言特徵建置可讀性公式[3, 4]，或將可讀性指標等當成預測變項，以教科書的年級值當成效標，透過逐步迴

歸（Stepwise Regression）建置公式；或結合特徵選取方法與支援向量機建立預

1.2 研究目的

由於中英文字在語言特徵上的差異極大，過去西方研究者在可讀性研究所採用的特徵，是否適合中文可讀性評估有待商榷[1]。有鑑於可讀性研究的重要性，

以及可能發展的多元應用，本論文將整合既有技術，並結合不同特徵，進行文本可讀性評估。

圖 1 可讀性特徵類型

過往的中文可讀性研究著重於詞表建立及表淺之語言特徵。圖 1 為先前西方研究者所提出之各類型可讀性特徵，本論文以此分類為參照，並以先前研究為基礎，深入探討不同種類的特徵。

本論文提出句法分析與詞性標記特徵、詞表示法與詞性表示法特徵、語意資訊特徵與寫作程度特徵，分析不同類型的特徵所代表之意義，比對其個別與可讀

性高低的關聯性，並將特徵彼此結合以提升可讀性預測之正確性。

可讀性研究除考量多元指標的選取外，其數學模型亦為一重要面向。傳統可讀性公式，多為廣義線性模型（Generalized Linear Model, GLM），納入不同特徵為自變項，估算文章難度，或提供公式估算文本適合閱讀的年級。然而為了要求公式精簡，許多可讀性指標常忽略不計，如此將無法真實反映可讀性高低程度。

近期研究則將可讀性預測視為機械學習（Machine Learning）的問題，藉由先設立有標準答案之訓練資料集，再從文本中抽取各類可讀性特徵，最後透過機械學習之模型來預測正確性，流程如圖 2 所示。

圖 2 典型可讀性測詴評估流程

本論文分別透過逐步迴歸與支持向量機（Support Vector Machine, SVM）等兩種方式建立可讀性模型，比較兩者個別用於測詴國中小教科書及優良課外讀物之效能優劣，亦將兩者加以結合，提升預測之正確率，以期找出可讀性分類之重要因素。

1.3 論文大綱

本論文第二章為說明可讀性的基本概念、回顧可讀性的歷史與公式、分析可讀性的模型、探討可讀性的發展趨勢、介紹可讀性的應用層面。第三章除解釋先前研究的特徵外，亦分別論述本論文所使用的各類特徵。第四章為實驗資料與實驗結果的呈現。第五章為全文總結與未來研究展望。

在文檔中應用可讀性預測於中小學國語文教科書及優良課外讀物分類之研究 (頁 11-16)