• 沒有找到結果。

1.1 研究背景

閱讀能力是文明的指標之一,正所謂「站在巨人的肩膀上」,透過閱讀能累 積前人智慧以開啟自身的視野。透過學習閱讀,可提升自學能力,迅速掌握新訊 息成為新的知識,更甚者能利用己知來分析、綜合及批判所讀到的文章,表達出 個人的見解。

「教育是國家的根本,而閱讀是教育的根本」,從小培養閱讀的習慣,就是 提升競爭力的最好方式。因此,如何協助家長、教師或讀者本身,選擇符合不同 教育程度的對象能夠閱讀的文章,是值得探討的議題。

可讀性(Readability)是指閱讀材料能夠被讀者理解的程度[1]。可讀性高的 文章較容易被讀者理解。文章的可讀性與很多因素有關,如:文長、字詞難度、

句法結構、內容是否符合讀者的先備知識等,表淺的語言特徵並無法完全反映這 些複雜的成分。

英文文本的可讀性研究行之有年,或以詞彙頻率列表,評量文章難度;或將 詞表作為參照,建置可讀性公式;或發展線上多文本特徵分析器[2],計算影響 文章難易度的各類型指標,並提供數值化的結果。

中文的可讀性研究則屈指可數,或選用表淺的語言特徵建置可讀性公式[3, 4],或將可讀性指標等當成預測變項,以教科書的年級值當成效標,透過逐步迴

歸(Stepwise Regression)建置公式;或結合特徵選取方法與支援向量機建立預

1.2 研究目的

由於中英文字在語言特徵上的差異極大,過去西方研究者在可讀性研究所採 用的特徵,是否適合中文可讀性評估有待商榷[1]。有鑑於可讀性研究的重要性,

以及可能發展的多元應用,本論文將整合既有技術,並結合不同特徵,進行文本 可讀性評估。

圖 1 可讀性特徵類型

過往的中文可讀性研究著重於詞表建立及表淺之語言特徵。圖 1 為先前西方 研究者所提出之各類型可讀性特徵,本論文以此分類為參照,並以先前研究為基 礎,深入探討不同種類的特徵。

本論文提出句法分析與詞性標記特徵、詞表示法與詞性表示法特徵、語意資 訊特徵與寫作程度特徵,分析不同類型的特徵所代表之意義,比對其個別與可讀

性高低的關聯性,並將特徵彼此結合以提升可讀性預測之正確性。

可讀性研究除考量多元指標的選取外,其數學模型亦為一重要面向。傳統可 讀性公式,多為廣義線性模型(Generalized Linear Model, GLM),納入不同特徵 為自變項,估算文章難度,或提供公式估算文本適合閱讀的年級。然而為了要求 公式精簡,許多可讀性指標常忽略不計,如此將無法真實反映可讀性高低程度。

近期研究則將可讀性預測視為機械學習(Machine Learning)的問題,藉由 先設立有標準答案之訓練資料集,再從文本中抽取各類可讀性特徵,最後透過機 械學習之模型來預測正確性,流程如圖 2 所示。

圖 2 典型可讀性測詴評估流程

本論文分別透過逐步迴歸與支持向量機(Support Vector Machine, SVM)等 兩種方式建立可讀性模型,比較兩者個別用於測詴國中小教科書及優良課外讀物 之效能優劣,亦將兩者加以結合,提升預測之正確率,以期找出可讀性分類之重 要因素。

1.3 論文大綱

本論文第二章為說明可讀性的基本概念、回顧可讀性的歷史與公式、分析可 讀性的模型、探討可讀性的發展趨勢、介紹可讀性的應用層面。第三章除解釋先 前研究的特徵外,亦分別論述本論文所使用的各類特徵。第四章為實驗資料與實 驗結果的呈現。第五章為全文總結與未來研究展望。

相關文件