緒論 - 中文文本可讀性特徵選取與模型建立 - 以華語為第二語言教材為例

第一章緒論

第一節研究背景與動機

近年來全球興起學習華語的熱潮，華語文教學也逐漸受到廣泛地重視與討論，

學習華語的人不再侷限於海內外華人，在歐、美、亞洲許多非華裔國家也漸漸將華語文納入學校課程之中。在全球學習華語文的人數年年以倍數增加的情況下

（教育部統計，2010），也帶動了來台學習華語的人數，大專院校紛紛設立語言中心，來因應華語學習資源的大量需求，也因此更凸顯了華語文教學的重要性。

不論是母語學習，或者是第二語言學習，閱讀在語言學習中都扮演著重要的角色。但如何能在閱讀過程中選擇適當難易度的文本閱讀是學習者常面臨到的問題。倘若教師在教學上所使用的教材過於淺顯，會導致學習者覺得乏味而缺乏學習動機；反之，若教材過於艱澀不易理解，則容易增加學習者的挫折感（宋佩貞，

2009；江少敏，2009）。綜合以上所述我們可以知道，要提高華語文教學的效率，

教師必須選擇符合學生程度的華語文教材，而教材分級可以解決這個問題。教材的分級可以給予不同等級的語言學習者不同的重點教學，也讓華語文教師可以透過分級標準來選擇適當的教材教學，增加學習者對文本的理解程度，以達到良好的學習成效（蔡雅薰，2009）。但目前國內外出版之華語文教材種類繁多，卻苦無一套完整的分級制度，讓學生及教師在選擇教科書的時候無所適從，也可能會有銜接困難的問題，因此如何建立臺灣華語文教材的分級制度格外重要。

教材的分級首先要了解課文文本的難易程度，才能將教材分類到適當的級別，

可讀性評估（Readability Assessment）是其中一種較常被使用的方法，可將學習者理解文本的程度量化（Feng, Jansche, Huenerfauth, & Elhadad, 2010）。可讀性的相關研究應用在教育、醫學、科學等領域中，在教育領域中更是廣泛的應用來協助分析教材的可讀性，做為教師選擇教材時的參考依據。國內外更有許多研究提出應用可讀性評估來做為分級教科書的標準，例如宋佩貞（2009）就利用了國外常用的可讀性公式來檢測臺灣國民小學英語教科書之難易度，並試圖建置一套符

合臺灣審訂標準的可讀性公式。

而評估可讀性的方法可分為人工與自動化兩種方式，人工方式是透過專家進行教材落點，如國立臺灣師範大學國語教學中心與國家華語測驗推動工作委員會

（2008）曾舉辦「歐洲共同語文參考架構與華語教材的對應」工作坊，透過熟悉 CEFR 能力指標的教師檢視臺灣常用華語教材所屬之 CEFR 等級。然而文本數量龐大，透過專家分級文本必須花費更多的時間與人力。隨著自然語言處理技術的發展，文本分級已逐漸走向自動化，開始出現一些線上語料庫可分析文章詞頻，

或是分析文章字數及句長等基本統計（Benjamin, 2012），臺灣目前也發展了線上自動分析文章可讀性指標系統，如宋曜廷、陳茹玲、李宜憲、查日龢、曾厚強、

林維駿、張道行、張國恩（2012）就發展了文本可讀性自動化分析系統（Chinese Readability Index Explorer, CRIE），提供了自動斷詞與可讀性指標自動計算等功能，讓使用者可以透過此系統自動產生文本分析結果。

上述大部分可讀性自動分析系統都是以特徵為本（Feature-based）方式設計。

特徵為本的方式主要是從眾多文本特徵中找出影響文章可讀性的特徵做為指標，

再建立數學模型來求得指標與文本難度之間的關係。雖然過去的研究中已提出許多影響文章可讀性的指標，但大部分都是採用以第一語言學習者為對象之指標。

但是由於學習起點的不同，學習者在學習第二語言的過程中可能會因為環境、母語等因素影響到第二語言的習得（簡淑芬，2008），而導致與第一語言的學習難點有所差異。因此我們認為在建立以華語為第二語言的可讀性公式時，不能僅使用第一語言的指標，而必須將第二語言習得的因素也考慮進去。

但影響文章可讀性的指標眾多，如何決定該採用哪些指標才能達到最佳預測結果，也是需考慮的問題之一。此時特徵選取（Feature Selection）可以解決這類問題。特徵選取方法可挑選出重要性較高的特徵或是過濾影響力較低的特徵，來降低分類維度，避免過度配適（Over-Fitting）的問題。特徵選取的方法有許多，

卡方統計量（χ2 statistics, CHI）為一種常用的特徵選取方法，Yang 與 Pedersen

（1997）的研究中比較了文件頻率（Document Frequency, DF）、資訊增益量

（Information Gain, IG）、交互資訊量（Mutual Information, MI）、卡方統計（χ2 statistics, CHI）及詞彙強度（Term Strength, TS）等五種特徵選取方法分類文章效果，結果顯示卡方統計、文件頻率及資訊增益量的分類效果較佳；吳儼庭（2005）

的研究中，使用了卡方統計與資訊增益這兩種特徵選取方法，評估各個變數對於尿路感染與院內感染的重要性，結果也顯示僅挑選重要的變數，可以增加預測效度。故本研究採用 Chi-square 卡方統計量方法，選取對 CEFR 等級影響力較大的指標來建立可讀性數學模型。

在決定採用那些影響文章可讀性的指標並透過可讀性自動分析系統分析指標數值後，接著透過這些指標數值建立預測模型。而在建立模型方法部分，多數的研究都是發展一般線性模型（Generalized Linear Model, GLM），一般常見的可讀性公式如：Flesch Kincaid、Dale-Chall 等，都是透過線性方式建立公式來估算文本適讀年級值的方法。在建立線性模型時，主要是先透過分析文章特質，將可能影響文章可讀性的指標納入，以迴歸分析的方式，將文本難度量化成文本適合閱讀年級值。例如 Crossley, Greenfield, & McNamara（2008）的研究中，就透過了逐步迴歸方法，分別納入詞頻、語法相似度及實詞重疊率等三個與閱讀理解有關的指標，來預測文本克漏字分數，所產生的公式稱做 Coh-Metrix L2 reading index。

近年來，許多研究顯示，相較於非線性預測模型的分類效果，線性模型的分類效果較不理想（Petersen & Ostendorf, 2009 ; Feng et al., 2010），也因此可讀性研究趨勢已經逐漸由線性朝向非線性發展。而在非線性建立模型方法中，許多研究採用支援向量機（Support Vector Machine, SVM）來分類文章可讀性，其主要概念是利用了超平面（hyperplane）將資料分類，經過訓練與測試後，便可建立出預測模型進行文章的分類。支援向量機具有小樣本學習的特性，不須使用大量的資料樣本即可計算（林宗勳，2006）。支援向量機目前也已被廣泛應用在文本分類、影像辨識等領域。例如 Schwarm 與 Ostendorf（2005）的研究就使用了支援向量機來進行文本可讀分類，結果顯示支援向量機比 Flesch-Kincaid 等傳統可

讀性公式的分類結果來得更好；Tanaka-Ishii、Tezuka、Terada（2010）也使用 SVM 將文本分類，並與 Flesch–Kincaid、Dale–Chall 等傳統可讀性公式做比較，結果也顯示傳統可讀性公式的分類效果較差。

基於以上的背景，本研究使用國內外以華語為第二語言（Chinese as Second Language, CSL）學習者常用的華語教材為例，整合了國內外文獻中所提出影響文章可讀性的語言特徵，篩選出符合中文特性、且與第二語言習得有關的特徵，

經由 Chi-Square 特徵選取方法將各特徵對於等級影響力的重要程度做排序，並依序將特徵逐一納入建立支援向量機預測模型，同時也建立線性可讀性預測模型，

以比較不同特徵組合以及與線性模型分類效果之差異。希望本研究所建立之可讀性預測模型能讓學習者或教師在選擇教材時能夠有所依循，找出適合本身程度的教科書，來達到更有效的學習。

第二節研究目的

本研究之目的共五項：

一、找出符合中文特性並與華語為第二語言習得過程有關的可讀性指標二、透過 Chi-Square 特徵選取法排序各指標重要性

三、建立可預測以華語為第二語言教材的可讀性分級模型四、比較不同特徵組合造成結果上的差異

五、比較傳統線性方法和支援向量機在以華語為第二語言文本可讀性預測結果的差異

在文檔中中文文本可讀性特徵選取與模型建立 - 以華語為第二語言教材為例 (頁 10-15)

緒論

第一章 緒論

第一章緒論