• 沒有找到結果。

兒童文本句子相似度指標及可讀性公式建置與應用

N/A
N/A
Protected

Academic year: 2021

Share "兒童文本句子相似度指標及可讀性公式建置與應用"

Copied!
133
0
0

加載中.... (立即查看全文)

全文

(1)國立臺中教育大學教育測驗統計研究所碩士論文. 指導教授:郭伯臣. 博士. 廖晨惠. 博士. 兒童文本句子相似度指標 及可讀性公式建置與應用. 研究生:倪雅真. 中. 華. 民. 國. 一. ○. 三. 撰. 年. 六. 月.

(2) 誌 謝 迎接每日的晨曦,感謝天恩師德,恩賜靈感文思,遣諸多貴人相助,使研究 得以順利完成,心中無限感恩。 感謝指導教授郭伯臣老師與廖晨惠老師,平時諸多觀念引導,給予學生明確 的方向,每個引導是往前邁進一大步的開始。感謝楊裕茂老師,耐心的審視閱讀 測驗及指導,讓閱讀測驗更加完整。感謝口試委員曾建銘老師,對論文細心的審 視並給予寶貴的回饋,讓論文臻於完善,對研究的求真、求善、求美,是我們學 習的典範。感謝蔡志強教授提供指標相關的訊息,對於研究上具有關鍵性的啟 發。感謝鎧誌學長,在程式及諸多問題,提供支援及解答,研究得以順利往前進 行。感謝文蘭學姐、建宏學長、勇媜學姊、筱倩學姊、亞韋學姊及曉青協助閱讀 測驗的出題,閱讀測驗才能如期完成。也感謝合作同學琇涵的協助。 對於中央研究院提供斷詞系統及剖析系統,技術人員謝佑明先生,耐心的回 覆每一個問題,在此致上誠摯的謝意。 感謝班上同窗好友桂綾,在初入測驗與統計研究所懵懂無知,給予真誠的鼓 勵,處事勇敢與認真的態度,令人敬佩。也感謝所有的同學,課業方面互相扶持 及協助,這樣的情誼難以忘懷。 感謝學校同事智仁老師,在研究過程中,不管是程式撰寫的啟蒙、閱讀測驗 的編製及種種面臨到的問題,都提供很好的建議且能迎刃而解,無心無為令人感 動。也感謝怡君、慧君、月碧、威良、同事們和羽球社球友的鼓勵及各項的協助。 最後感謝我的父母,姐姐雅容、哥哥健航及慶昇、比晴、梓毓,研究過程中 給予良好的意見,及精神上的支持,不斷的為我加油打氣,讓我有信心衝破所有 的難關。這一切的一切,都是感恩。 倪雅真 謹致 103.06.28.

(3) 摘要 本研究目的為建置句子相似度指標之自動化分析系統,並探討兒童語料庫在 指標上所呈現的趨勢,進一步檢視指標分數對文本年級適讀性和中高年級閱讀理 解測驗通過率之預測力。最後彙整先前團隊研究發展的所有指標,進行迴歸分 析,找到一個最佳預測效果的可讀性公式。研究結果如下: 一、. 本研究分別以全文及相鄰句建置詞彙與詞性最小編輯距離指標及句子結. 構相似度指標。 二、. 六項指標以多元迴歸分析預測文本適讀年級的解釋量可達 22.9%,再進. 行逐步迴歸分析,其中全文詞彙與詞性的最小編輯距離及全文結構相似度三 個指標的預測年級解釋量即可達 22.7%。 三、. 全文詞彙最小編輯距離指標可預測四、六年級及全部學生理解測驗直接. 推論的通過率,其解釋量分別為 23%、17.4%、21.5%;全文詞性最小編輯距 離指標可預測四、六年級及全部學生閱讀理解測驗詮釋整合的通過率,其解 釋量分別為 13%、16.8%、15%。 四、. 從 60 個指標中選入 48 個指標進行多元迴歸分析,預測文本適讀年級解. 釋量可達 80.5%。以逐步迴歸進行分析,最具預測力的指標是詞彙習得年齡, 解釋量達 74.6%,其中 12 個指標達顯著效果,其解釋量可達 79.8%。 五、. 從 48 指標中排除詞彙習得年齡指標進行多元迴歸分析,47 個指標對文. 本年級的整體解釋量達 62.5%。再進行逐步迴歸分析,其中達顯著的指標為 20 個,其解釋量達 61%。最具預測力的指標是 MTLD,預測效果為 26.4%。. 關鍵詞:最小編輯距離、句子結構相似度,可讀性. I.

(4) Abstract The purpose of this study is to establish an auto-analyzing system of sentence similarity indices, to explore the trends of “Children corpus” through the 6 indices and furthermore to survey the contribution of the six indices on predicting the text-suitable grade level and the pass rate of the intermediate and high graders on the comprehension test. At last, by combining all the indices which had been established, the study eventually found a readability formula which could be the best predictor. The results were summarized as follows:. 1. This study established the indices for Local and Global Minimal Edit Distances of words and part-of-speech(lexical categories), and the sentence syntax similarity between all adjacent sentences and across paragraphs. 2. The contribution of 6 indexes that can predict text-related grade level was up to 22.9% by multiple regression analysis. In terms of stepwise regression analysis, the R 2 value made by the 3 indicators (Global Minimal Edit Distances for words、Global Minimal Edit Distances for part-of-speech、Global sentence syntax similarity) was up to 22.7%. 3. Global Minimal Edit Distances of words can predict the pass rate of the 4th,6th graders and all students on the comprehension test in terms of “make straightforward inferences”. The R2 value was up to 23%、17.4%、21.5%. Global Minimal Edit Distances for part-of-speech can predict the pass rate of the 4th, 6th graders and all students on the comprehension test in terms of “interpret and integrate information”. The R2 value was up to 13%、16.8%、15%。 4. The study did a multiple regression analysis with the chosen 48 indices out of 60 in order to predict the text-suitable grade level. The R2 value was up to 80.5%. While through a stepwise regression analysis, the index of Age of acquisition was the best predictor for the text-suitable grade and it produced an R2 value of 74.6%. There were 12 indices got the most notable effect. The R2 value made by the 12 indices was up to II.

(5) 79.8%. 5. If the study did a multiple regression analysis excluding the variable of Age of acquisition from the 48 chosen indices. The other 47 indices could predict the text-suitable grade level with the R2 value as 62.5%. While through a stepwise regression analysis, the R2 value made by the most notable 20 indices was up to 61%. The MTLD was the best index and predictor as well. Mere the index itself could produce an R2 value as 26.4%.. Keywords: Minimal Edit Distances(MED), Sentence syntax similarity, Readability. III.

(6) 目. 錄. 摘要 ...................................................................................................................... ..I Abstract ................................................................................................................ II 目錄 ..................................................................................................................... IV 表目錄 ................................................................................................................. VI 圖目錄 .............................................................................................................. VIII 第一章 緒. 論 ...................................................................................................... 1. 第一節 研究動機 .............................................................................................. 1 第二節 研究目的 ................................................................................... …… 3 第三節 名詞解釋 .............................................................................................. 4 第二章 文獻探討 .................................................................................................. 5 第一節 線上文本分析系統 COH-METRIX .................................................... 5 第二節 中文句子的特性及語義、語法結構 ................................................ 13 第三節 閱讀理解 ............................................................................................ 21 第四節 可讀性 ................................................................................................ 28 第三章 研究方法 ................................................................................................ 51 第一節 研究流程 ............................................................................................ 51 第二節 發展句子相似度指標 ........................................................................ 53 第三節 線上文本自動化分析系統 ................................................................ 57 第四節 研究工具 ............................................................................................ 60 第五節 研究對象與限制 ................................................................................ 67 第六節 資料處理與分析 ................................................................................ 69. IV.

(7) 第四章 研究結果與討論 .................................................................................... 71 第一節 兒童語料庫文本指標趨勢分析 ........................................................ 71 第二節 指標分數預測文本適讀年級 ............................................................ 77 第三節 指標分數預測閱讀理解層次通過率之表現. ................................... 81 第四節 建置可讀性預測公式. ....................................................................... 87 第五章 研究結論與建議 .................................................................................. 105 第一節 結論................................................................................................... 105 第二節 建議................................................................................................... 106 參考文獻 ............................................................................................................ 109 中文參考文獻 ................................................................................................ 109 英文參考文獻 ................................................................................................ 114. V.

(8) 表目錄 表 2-1 Coh-metrix3.0 類別與指標………………………………………………....10 表 2-2 字串編輯距離計算範例……………………………………………………11 表 2-3 句子最小編輯距離的計算………………………………………………….12 表 2-4 句子結構的分類……………………………………………………………14 表 2-5 各學者的語法定義………………………………………………………….16 表 2-6 結構方式與結構關係……………………………………………………….17 表 2-7 句子、詞組和合成詞的構造方式…………………………………………18 表 2-8 英文可讀性公式…………………………………………………………….30 表 2-9 中文可讀性公式整理……………………………………………….……....34 表 2-10 實詞、虛詞分類表………………………………………………………...40 表 2-11 詞彙年齡計分方式…………………………………………………….…..46 表 2-12 60 指標名稱及定義………….………………...…………………………..48 表 3-1 中文句子最小編輯距離的計算…………………………………………….53 表 3-2 中文詞性的最小編輯距離………………………………………………….54 表 3-3 修改斷詞標記規則…………………………………………………………60 表 3-4 預試題本各層次的題數及信度……………………………………………63 表 3-5 正式施測題本各層次的題數及信度………………………………………64 表 3-6 預試樣本人數………………………………………………………………67 表 3-7 正式施測樣本人數…………………………………………………………68 表 4-1 兒童語料庫相鄰句詞彙最小編輯距離指標數值………………………….71 表 4-2 兒童語料庫全文詞彙最小編輯距離指標數值………………………...…..72 表 4-3 兒童語料庫相鄰句詞性最小編輯距離指標數值……………………….....73 表 4-4 兒童語料庫全文詞性最小編輯距離指標數值……………………….……74. VI.

(9) 表 4-5 兒童語料庫相鄰句結構相似度的指標數值………………………………..75 表 4-6 兒童語料庫全文結構相似度的指標數值…………………………………..76 表 4-7 六指標分數與文本年級之間相關係數表………………………………….77 表 4-8 六指標變項預測文本年級模式多元迴歸分析摘要表……………………..78 表 4-9 六指標文本分數數值………………………………………………………..79 表 4-10 指標變項預測文本年級模式逐步迴歸分析摘要表…………………........79 表 4-11 句子結構相似度變項預測國語科年級模式多元迴歸分析摘要表……...80 表 4-12 句子結構相似度變項預測自然科年級模式多元迴歸分析摘要表……....81 表 4-13 指標分數預測四年級學生直接推論通過率之逐步迴歸分析摘要表........82 表 4-14 指標分數與六年級學生直接推論通過率之逐步迴歸分析摘要表…........83 表 4-15 指標分數與全部學生直接推論通過率之逐步迴歸分析摘要表……........83 表 4-16 指標分數與四年級學生詮釋整合通過率之逐步迴歸分析摘要表…........84 表 4-17 指標分數與六年級學生詮釋整合通過率之逐步迴歸分析摘要表…........84 表 4-18 指標分數與全部學生詮釋整合通過率之逐步迴歸分析摘要表……........85 表 4-19. 48 指標變項預測文本年級模式多元迴歸分析摘要表…………….…...89. 表 4-20. 12 指標變項預測文本年級模式逐步分析摘要表………………...…….94. 表 4-21. 47 指標變項預測文本年級模式多元迴歸分析摘要表………………....96. 表 4-22. 20 指標變項預測文本年級模式逐步迴歸分析摘要表……….………..101. VII.

(10) 圖目錄 圖 2-1 兩句的句子結構圖………………………………………………………….11 圖 2-2 主謂結構圖………………………………………………………………….18 圖 2-3 成分結構的樹形圖…………………………………………………………19 圖 2-4 詞組結構的樹形圖…………………………………………………………20 圖 3-1 研究流程…………………………………………………………………….52 圖 3-2 句子 1 的中研院剖析結構樹……………………………………………….55 圖 3-3 句子 2 的中研院剖析結構樹……………………………………………….55 圖 3-4 系統登入介面……………………………………………………………….57 圖 3-5 系統指標分析介面………………………………………………………….58 圖 3-6 文本分析結果介面………………………………………………………….59 圖 4-1 兒童語料庫相鄰句詞彙最小編輯距離指標趨勢圖……………………….72 圖 4-2 兒童語料庫全文詞彙最小編輯距離指標趨勢圖………………………….72 圖 4-3 兒童語料庫相鄰句詞性最小編輯距離指標趨勢圖……………………….73 圖 4-4 兒童語料庫全文詞性最小編輯距離指標趨勢圖………………………….74 圖 4-5 兒童語料庫相鄰句結構相似度的指標趨勢圖…………………………….75 圖 4-6 兒童語料庫全文句子結構相似度的指標趨勢圖………………………….76. VIII.

(11) 第一章 緒. 論. 本研究根據中文的特性,建置句子相似度指標,發展中文文本線上分析系統, 探討句子相似度指標在兒童語料庫各年級的趨勢分析,並運用建置指標發展預測 文本年級公式,同時以中高年級閱讀理解測驗,檢視指標分數對閱讀理解測驗通 過率之預測力。最後彙整先前研究團隊所發展的指標,進行迴歸分析,找到一個 最佳預測效果的可讀性公式,以協助兒童挑選適讀的文本。第一節說明研究背景 及動機,第二節敘述研究目的,第三節為本研究重要名詞解釋。. 第一節 研究動機 根據 PISA 的定義,閱讀能力愈強的人,愈有能力蒐集、理解、判斷資訊, 以達成個人目標、增進知識、開發潛能、並運用資訊,有效參與社會的複雜運作。 芬蘭教育廣為世人矚目,自西元兩千年開始,經濟合作與發展組織(OECD)每 三年舉辦十五歲學生能力評估測驗「國際學生評量計劃」(PISA),芬蘭青少年連 續兩屆在閱讀與科學兩項評比稱霸,解決問題和數學位居第二。啟動每位孩子那 顆學習種子,讓學習能力不同者,都能獲得不同的關注,是芬蘭教育深信不疑的 信念(陳之華, 2008)。為孩子開啟喜愛閱讀之門,是我們努力的目標,給予孩子難 易度適當的文本,有助於提高他們閱讀的興趣。故發展一個辨別文本難易的線上 分析系統,可作為選擇文本難易度的參考依據。 透過可讀性評估(readability assessment)的方式,可以量化讀者理解的文本難 度,提供適當的閱讀教材供不同能力的讀者閱讀(Kyle, 2011)。在國外的研究中, 英文文本的可讀性研究很早就出現了,1980 年代發展出 200 多個可讀性公式,這 些公式主要以平均句長、平均字長、平均段落數等文本特徵作為難度指標,此外 有些公式會搭配常用字表或是難字表以對文本的可讀性做評估(胡夢珂,2010)。. 1.

(12) 然而中文領域這方面的研究尚不多,但中文能力在現今世界卻是一個重要的趨勢 及潮流,所以一個適合中文可讀性的分析方法是很重要的。 Coh-Metrix 是由美國曼菲斯大學研究團隊所發展出來的智慧型線上文本分析 系統,主要在偵測文本的凝聚力(cohesion)及連貫性(coherence),凝聚力主要用來 表示文字上面的意思;連貫性主要表示句子之間的連貫性、一致性及條理性。 Coh-Metrix 自動化分析系統可協助老師及家長幫學生選擇適當的閱讀文本,若學 生閱讀遇到瓶頸,就可以挑選較簡單易讀的文本,增強其對閱讀的信心,反之, 也可以讓閱讀理解較強的學生試著挑戰難度較高的文本,累積閱讀實力(Graesser, McNamara, & Kulikowich, 2011)。 有鑑於此,本研究將參考 Coh-metrix3.0 版而發展一個辨別中文文本難易度的 線上分析系統。在諸多文本分析中,大多以詞彙作為分析的主軸,尚未探討句子 在文本特徵中的差異,本研究則是以文本的句子間的差異性進行研究,因為句子 是可以完整表達語法、語意的基本單位 (胡百華,1984)。句子的結構不是詞語的 隨意組合,而是依照一定的「語法規則」(謝國平,2002),在語言學習中,學童 若是學會了各種句型,也就學會了隱含在句型中的語法規則。 閱讀時應用的訊息處理歷程中,句子及篇章意義的處理是屬於高層次的處 理,即涉及很多語言及問題解決的技能,例如:語法能力,語意能力(如:句子間 的關係聯結、代名詞、篇章凝聚力及抽象語言的應用等)、句子表面意義、推論等 等(Catts & Kamhi, 1986)。本研究以語意及語法能力為主要的分析,在閱讀方面的 研究,雖然語意與閱讀障礙有相當程度之相關,研究者仍會探討其他因素對閱讀 理解能力之影響,例如:上下文脈絡線索的應用能力,結果顯示在諸多變項中語 意能力與閱讀能力具有高度相關 (林寶貴、錡寶香,2005)。 在閱讀理解的過程中,讀者雖然不會刻意去分析句子中的語法結構或詞彙排. 2.

(13) 列順序,但是閱讀理論常常假設語法分析(syntactic parsing)是其中最重要的一部 分,所以語法能力與閱讀理解必然有某種程度的相關(Perfetti,1990)。 若是比較讀者在閱讀按照語法切割的文章,與不按照語法切割的文章時所需 的時間,結果發現前者閱讀速度快於後者,顯示中文的文法結構會影響閱讀的進 行(胡志偉等,1991),閱讀中文時文法分析的處理歷程有其心理的真實性(引自胡 志偉、顏乃欣,1991-1992),發現此項研究與國外的研究相符合(Perfetti,1990)。 不論字或詞的計算,語文能力與句子長度之間存在著正相關,同時也與句子 結構之複雜性有關(國立臺灣師範大學特殊教育學系,1997),在較長的句子中學 生會使用各種修飾語來修飾主詞或受詞,或使用連接詞把句子連貫成較長的句 子,所以句子的複雜度是判斷文本難度的一項重要指標。 故本研究建置中文詞彙與詞性的最小編輯距離及句子結構的相似度指標,分 析現行國小教科書在指標上所呈現的趨勢,以句子相似度指標分數預測文本適讀 年級,以作為文本分析的參考依據,進而探討指標分數對閱讀理解通過率的預測 力。 本研究進一步彙整先前參考 Coh-metrix3.0 已建置的中文指標,進行多元及逐 步迴歸分析,希冀可以建置最佳預測效果的的可讀性公式。. 第二節 研究目的 根據上述研究動機,研究目的為: 一、建置兒童文本分析系統之句子相似度指標。 二、檢視兒童語料庫句子結構相似度的分佈情形。 三、探討句子相似度指標與閱讀理解的迴歸分析。 四、建置可讀性預測公式。. 3.

(14) 第三節 名詞解釋 針對本研究常見的名詞,詳細說明如下:. 壹、 句子結構相似度 此為兩句結構代碼的比對,文本經中研院剖析系統,剖析後得到句子的結構 代碼,再進行比對相似度,兩句的結構完全相同者為 1,完全不同為 0。. 貳、 最小編輯距離(Minimal Edit Distances, MED) 此分別有詞彙與詞性的最小編輯距離,指兩句之間由一句轉成另一句所需 的最少編輯操作次數。編輯操作包括三種:(1) 取代,將一個詞語取代成另一 個詞語(substitution);(2) 插入一個詞語(insert);(3) 刪除一個詞語(delete)。 每一次插入、刪除、取代的操作值都是 1,兩句完全相同則編輯距離為 0,完 全不同編輯距離是 1。. 參、 相鄰句與全文(Local and Global) 相鄰句是指一篇文章中,連續兩句的比對,其比對方式為:第 1 句和第 2 句, 第 2 句和第 3 句…以此類推至文本結束。全文是指一篇文章中,某一句與其他所 有句子的比對,其比對方式為:第 1 句和第 2 句,第 1 句和第 3 句…第 1 和第 j 句,第 2 句和第 3 句,第 2 和第 4 句…以此類推至文本結束。. 肆、 閱讀理解 從認知觀點來說,閱讀理解所強調的是閱讀的互動性本質和理解的建構性本 質,所有讀者使用其既存知識和來自文本的許多線索,以及讀本所出現的情 境脈絡,所建構出一種意義模式(Dole, Duffy, Roehler, & Person, 1991). 伍、可讀性公式 可讀性公式是指以客觀、量化的方式,對閱讀教材提供適讀年級的標記,是 預測文本難易度的工具。 4.

(15) 第二章 文獻探討 本章共分四節,第一節介紹線上文本分析系統 Coh-metrix,第二節探討中文 句子的特性及語法結構,第三節敘述閱讀理解的定義、歷程及模式,第四節說明 可讀性。. 第一節 線上文本分析系統 Coh-metrix 壹、Coh-metrix 的介紹 在過去百年中,用在偵測英文文本難易度的可讀性公式,已經開發出數百種 的檢測方式,但傳統可讀性公式的文本分析對於閱讀理解無法達到最佳的效果, 原因有三點,第一、只著重在表面字長及句長的特徵,認為這些是影響閱讀理解 的主要因素,而忽視閱讀者對於全文意義理解的重要性。第二、未考慮文本的凝 聚力及文體的體裁,文體分為記敘文、說明文、論說文、描述性文章等四種,其 中記敘文比說明文容易閱讀和理解(Graesser & McNamara, 2011)。第三、當教學 者需要診斷學生閱讀方面不足之處並進行補救教學,傳統的可讀性公式提供的訊 息太少,無法偵測出文章的複雜度及特定的文本特徵值,因此無法提供教學者完 整的訊息參考(Connor, Morrison, Fishman, Schatschneider, & Underwood, 2007; Rapp, van den Broek, McMaster, Kendeou, & Espin, 2007)。 傳統的可讀性公式如下:. Flesch Reading Ease=206.835–(1.015 x 平均句長)–(84.6 x 平均詞彙音節數) (公式 1). Flesch-Kincaid Grade Level=(0.39 x 平均句長)+(11.8 x 平均詞彙音節數)–15.59 (公式 2). 5.

(16) 有鑑於此,Coh-Metrix 應運而生,Coh-Metrix 是由美國曼菲斯大學所發展出 來的線上文本分析系統,目前已經發展至 3.0 版,包含十一種類別,108 個指標, 主要在偵測代表文字深層意義的文本凝聚力(cohesion)及文本間的一致性、條理性 及連貫性(coherence)。提供英文文本多層次的語言分析,涵蓋詞彙特徵值、句子 特徵值以及文本間的關係等,其目的是要超越傳統的文本可讀性分析,透過這些 指標的分析,可更加了解文本多元面向及分項指標所偵測出的內涵。. 貳、Coh-metrix 的發展及重要性 一、凝聚力的重要性 凝聚力來自於文本中存在與否的線索,其目的是將文本中不同的部分結合在 一起,因為有順序的產生,因此與語法相似。然而,語法連結句子中詞彙與詞組 屬於基礎的層面,主要傳達詞彙的作用及關係;凝聚力的線索在操作上是屬於較 高階的,其主要在連結語意的層面,而且,凝聚力有助於閱讀者了解文本的概念 及想法。文本有多種形式的凝聚力且在諸多研究中都顯示其重要性(McNamara, Graesser, McCarthy, & Cai, 2012),參照凝聚力是指文本中句子間及段落中詞彙及 語意參照的重複性。以下例的範例作說明(Haviland and Clark, 1974)。 範例 1.George got some beer out of the car. The beer was warm. 範例 2.George got some picnic out of the car. The beer was warm. 範例 1 兩句中有參照重複性”beer”,範例 2 兩句完全沒有參照重複性,因此 範例 1 的句子較範例 2 閱讀速讀快,假設文本被閱讀的速度越快,閱讀者在閱讀 理解處理的過程較容易,有諸多研究發表參照重複性對於閱讀速度的時間及詞 彙、句子的回顧有影響。參照凝聚力的影響來自於觸發,詞彙的觸發是表示一個 概念可以不自覺的產生於工作記憶中,若觸發到特定的程度有利於快速的處理, 觸發來自於詞彙的重複性及語意的相關,且和思想及啟動的連結相關。 Coh-metrix 根據最小編輯距離的概念提供偵測詞彙及詞性差異性的指標,以. 6.

(17) 評估句子結構的一致性,指標分析中強調文本深層意義的凝聚力。Coh-metrix 的 詞彙和詞性最小編輯距離指標與參照語意達中度負相關(r=-.3~ -.7),以 TASA(Touchstone Applied Science Associates)語料庫 38,807 篇文本分析為例,詞彙 最小編輯距離與參照凝聚力的易讀性分數,其相關達-.75,而且,詞彙最小編輯 距離與參照語意凝聚力的相關(r=-.4~-.7)高於詞性最小編輯距離的相關 (r=-.2~-.6),同時,詞性最小編輯距離與句子結構的複雜度彼此也有相關(r=-.3~-.6) (McNamara, 2012)。由上述可知,詞彙最小編輯距離與參照凝聚力指標皆有偵測 文本凝聚力的功能,中文參照凝聚力面向包含實詞、名詞及動詞的重複性指標, 僅偵測實詞、名詞、動詞的凝聚力,並未偵測到詞彙的凝聚力,若只偵測詞性的 重複性,會產生兩句間有相同的詞性,但卻是不同詞彙,其意義也有所不同,其 偵測的精確度較不高,本研究提出詞彙及詞性的最小編輯距離,不但可偵測所有 種類詞性的差異也可偵測詞彙的凝聚力。 二、主成份分析(Principal Components Analysis, PCA)及易讀性評估 (Text Easability Assessor , TEA)。 Graesser, McNamara, Kulikowich(2011)從 Coh-metrix 108 個指標中選出 53 個 指標以 TASA 語料庫進行主成分分析(Principal Components Analysis, PCA),找出 文本複雜度的相關因素。TASA 語料庫所收錄的文本有 37,520 篇,文本等級從幼 稚園到十二年級,文章類別包含語文、自然、社會等不同的領域,經過主成分分 析後,分析出八個成份包含描述性、句子結構簡易度、詞彙具體性、參照凝聚力、 深度凝聚力,動詞的凝聚力,關聯詞及時態的變化,這八個成份占總變異量的 67.3%,此結果顯然與多層級理論架構相符。接著,再從八個成份中分析出五個 成份包含描述性、句子結構簡易度、詞彙具體性、參照凝聚力、深度凝聚力占總 變異量的 54%,由於這五個成份與文本的難易度較為相關,且占總變異量的一半 以上,因此 Coh-metrix 將這五個指標合併為偵測文本難易度的易讀性評估(Text Easability Assessor , TEA)。 7.

(18) Graesser, A. C., McNamara, D. S., & Kulikowich, J. (2011)研究報告中提出主成 份分數與年級預測的相關性,從閱讀能力的層面來看,年級程度評估與描述性指 標的相關性達 -.69,年級程度評估與句子結構簡易度的相關性達 -.47,顯示文本 在低年級有較簡單的結構,且涵蓋較少的知識性內容如科學及社會研究等等,相 反的,高年級的文本則有較複雜的結構(Degrees of Reading Power, DRP;Koslin, Zeno, & Koslin, 1987)。 三、 Coh-metrix 第二外語的可讀性分數(Second Language Readability Score) Coh-metrix 第二外語是依據心理語言學與認知模式所建立的單維度公式,傳 統公式是表面直觀式的難易度,主要在預測以英文為第二外語者所使用文本的可 讀性(Crossley, Greenfield, & McNamara, 2008;Crossley, Allen, D., & McNamara, 2011)。其預測的指標包含實詞的重複性(凝聚力與語意的建構)、句子結構的相似 度(語法剖析)和詞頻(解碼)三個指標,可預測文本句子和詞語的等級,也包含句子 間的凝聚力。其公式如下: L2第二外語可讀性公式= –45.032+ 52.230 x 實詞重複性 + 61.306 x 句子結構相似度 + 22.205 x 詞頻. (公式3). L2 第二外語公式是根據 Greenfield(1999)發展的 Miyazaki EFL 可讀性指標而 來,這個指標所使用的文本是 Bormuth(1971)語料庫中 32 種學術閱讀文本子集。 Greenfield 收集兩百位日本大學生的文章段落的克漏字表現,發現與 Flesch 易讀 性、Flesch-Kincaid 年級程度(Kincaid, Fishburne, Rogers, & Chissom, 1975)和 Miyazaki EFL 可讀性公式指標的相關性達 0.85,和 Bormuth(1971)公式的相關達 0.86。然而 Coh-metrix L2 第二外語的可讀性公式與日本學生克漏字測驗表現的相 關性卻高達 0.93,因此 L2 第二外語公式預測第二外語閱讀者在克漏字測驗表現 達到顯著的改善,不但在詞語和句子難度的偵測上超越傳統其他的公式,而且能 偵測文本內容的凝聚力。 8.

(19) Crossley, Allen, & McNamara(2011)也在研究發現第二外語公式(L2)對於已簡 化 L2 新聞稿文本分級有最佳的預測力,偵測全部文本分級的精確度達 59%,初 級及高級的文本有更好的預測力其精確度達 70%,中級文本次之其精確度達 39%。相反的,傳統 Flesch 指標預測效果則較差,平均精確範圍在 44%到 48%之 間。由此可知,L2 第二外語公式在文本分級的預測力較傳統的可讀性公式好。 綜合上述,我們證實易讀性評估(Text Easability Assessor , TEA)與第二外語公 式(L2)對於文本的預測力都比傳統的公式好,主要原因是其偵測的內容不僅在於 文章表面的字長和句長,更包含文章內容的凝聚力,同時也發現這兩個公式均包 含句子結構相似度及相關凝聚力的實詞的重複性指標,本研究所發展的詞性最小 編級距離的計算原理與重複性指標有相似的概念原理,均是計算兩句的詞性的距 離,詞彙最小編輯距離則進一步計算出兩句詞彙的距離及凝聚力,且詞彙最小編 輯距離與參照語意凝聚力有相關性(r=-.4~-.7),由此推論,句子結構相似度及最小 編輯距離對於偵測文本的難易度具有相當好的效果,本研究建置句子結構相似度 及最小編輯距離指標,發展線上中文文本分析系統,以偵測文本特徵,希冀可以 做為文本難易度的有效參考指標。. 叁、Coh-metrix 的指標分析 目前參考 Coh-metrix3.0 版已建置的中文繁體指標,包含描述性指標、參照凝 聚力、潛在語意分析(Latent semantic analysis)、詞彙多樣性、詞彙訊息、情境模 式及關聯詞等 7 個類別,54 個指標,前述的研究多以詞彙為主,而在中文部分則 尚未探討句子在文本特徵中的差異,本研究以文本的句子間的差異性進行研究, 參考 Coh-metrix3.0 版中句子的複雜度類別,選取適用於中文的詞彙、詞性的最小 編輯距離和句子結構相似度的指標,分析兒童文本以了解各年級句子之間的距離 及句子結構相似度的趨勢。表 2-1 是 Coh-metrix3.0 版的指標內容及中文發展現況。. 9.

(20) 表 2-1 Coh-metrix3.0 類別與指標 指標類別. Coh-metrix. 中文. 一、描述性(Descriptive). 11. 二、文本易讀性分數(Text Easability Principle Component Score). 16. 三、參照凝聚力(Referential Cohesion) 四、潛在語意分析(LSA). 12 8. 6 3. 五、詞彙多樣性(Lexical Diversity). 4. 3. 六、關聯詞(Connectives). 9. 10. 七、情境模型(Situation Model). 8. 1. 八、句子複雜度(Syntactic Complexity). 7. 6. 九、句型密度(Syntatic Pattern Density). 8. 十、詞彙訊息(Word Information). 22. 十一、可讀性指標(Readability). 3. 總計 11 個類別 108 個指標. 11. 20. 108. 60. 資料來源:整理自 McNamara, Graesser, McCarthy & Cai, (2012) 以下分別介紹 Coh-metrix3.0 句子結構相似度及最小編輯距離指標的定義及 計算方式。 一、句子結構相似度 Coh-matrix 指標類別中,句子結構相似度是研究文本句子的複雜度,包含相 鄰句及全文的計算,文本中句子的結構越相似一致,句子的複雜性越低,讀者越 容易閱讀。下圖所示為兩個句子的結構,黃色的節點表示兩句相同的節點,也就 是兩句相同的結構點,句子結構相似度的值在 0 和 1 之間,數值為 0 時,表示兩 句結構完全不相同,數值為 1 時表示兩句結構完全相同(Crossley, Greenfield, & McNamara, 2008)。句子的計算公式如下:. syntaxsim . 兩句相同的節點 兩句全部的節點 - 兩句相同的節點. 根據下圖的範例可以得知兩個句子的計算結果: syntax sim=6/﹝(8+10)-6﹞=6/12=0.5 10. (公式 4).

(21) 圖 2-1 兩句的句子結構圖。資料來源:McNamara et al. (2012) 二、句子的最小編輯距離(Minimal Edit Distances,MED) Coh-metrix 結合 Levenshtei 距離(1966)和字串比對理論(Dennis,2006)提出評 估文本相鄰句詞彙相似度的計算工具。句子的最小編輯距離(Minimal Edit Distances,MED)的功能與拼字檢查相似,指兩個字串之間由一個轉成另一個所 需的最少編輯操作次數。編輯操作包括三種:(1) 取代,將一個字取代成另一個 字元(substitution) ;(2) 插入一個字元(insert) ;(3) 刪除一個字元(delete)。每一 次插入、刪除、取代的操作值都是 1,兩個字串完全相同則編輯距離為 0。下表 為將 SITTING 一字轉成 SISTER 之範例,由表 2-2 可以得知共有三個取代和一個 刪除,所以最小編輯距離為 4。 表 2-2 字串編輯距離計算範例 原始字串 S I ︱ ︱ 目標字串 S I 編輯操作. T ︱ S 取代. T ︱ T. 11. I ︱ E 取代. N ︱ R 取代. G. 刪除.

(22) Coh-mterix 將 MED 運用在兩個句子的比對上,包含詞彙及詞性的比對,兩 個句子的詞彙及詞性距離越大,表示兩句的差異性越大,文章難度提高。兩句之 詞彙最小編輯距離的範例如下(McNamara et al., 2012)。 範例: S1: The dog chased the cat S2: The cat chased the dog (1) dog→cat (2) cat→dog. 共有兩個取代,因此MED=2. 表 2-3 為兩句的演算過程,最後求得兩句的距離為 2。 表 2-3 句子最小編輯距離的計算 cat 5 3 3 3 2 2 the 4 2 3 2 1 2 chased 3 2 2 1 2 3 dog 2 1 1 2 3 3 The 1 0 1 2 2 3 0 1 2 3 4 5 The cat chased the dog 資料來源:參考自 Wikipedia, the free encyclopedia (2013, November) http://en.wikipedia.org/wiki/Levenshtein_distance 以上兩個指標分別計算出兩句的編輯距離後,再進一步計算文本相鄰句及全 文相似度的平均值,以求出文本的特徵值。. 12.

(23) 第二節 中文句子特性及語法的結構 壹、 句子的特性 一、句子的意義及特徵 句子是語言的基本使用單位,是人類的思維活動及認識活動的成果,透過句 子的記載,使人類社會中思想交流成為可能,句子是由詞或詞組及一定的語調、 語氣構成的,詞和詞組只能表示一個簡單或複雜的概念,句子才是可以表達完整 意思的基本單位(胡裕樹,1992)。 詞和詞組不是使用單位,而是備用單位,並且是屬於靜態單位,句子則是屬 於動態單位,運用在日常生活及社交活動中 (程祥徽、田小琳,1992)。雖然詞和 詞組不是句子,但是卻都可以成為句子。例如:辭典裡的「好」與『媽媽說:「吃 飯了!」 ,小孩回答「好」 。』 ,這兩個「好」是不同的,前者是詞而後者是句子。 可知其不同主要在性質使用上。從小方向來說,詞是更小的單位,一個詞所能表 達的意思太少,不能讓聽的人滿足或完全了解。從大方向來說,許多句子構成的 一番話,寫出來就形成更大單位的段或篇章。實際對話過程中,一來一往的句子 就形成段落,能讓彼此了解對話內容(呂叔湘,2008),綜合上面所述,句子的特 點在於它是人們用來交流思想的基本運用單位。 句子是字詞的結合,在語法上是居於語言結構的中間位置,上承段落、篇章, 下啟語詞、詞素。文章由句子所組成,句子間的關係稱為「句間關係」,詞和詞組 間的關係則稱「句內關係」。句內結構代表文章中的詞和詞組的組合關係,而詞和 詞組所代表的即是一個事件或概念,詞序的相關位置即是說明事件的關係、概念 的關係或事件與概念間的關係。所以,句子的結構形式即呈現事件的關係,句內 詞和詞組的不同組合方式,即闡釋不同類型的意義(魏金財,1998)。句內詞和詞 組的組合方式在語法上是句子的結構規律。在文本中,句子首要了解的是主詞和 主要動詞,知道「誰」(主詞)「做」(動詞)了什麼事(補語)。其次,要充分了解句. 13.

(24) 子的方法是結合上下文來閱讀以體會它的實際情境(羅邱昭, 1999),因此句子間詞 彙和詞性的差異性及結構的相似度是判別文章難易度的重要指標。 二、句子的分類 句子可分為單句和複句。單句又分為主謂句和非主謂句。複句是由兩個或兩 個以上單句構成,單句為複句的組成成分,不具獨立性的單句稱為分句。下表 2-4 為句子結構分類,語法分析主要是進行語言內部結構的分析。 表 2-4 句子結構的分類. 句 子. 單 句. 動詞謂語句. 1. 2. 3. 4. 5. 6. 7.. 形容詞謂語句. 1.. 主謂句 (包含主 語和謂 語兩部 名詞謂語句 分). 主謂謂語句. 2. 1. 2. 3. 4. 1. 2. 3.. 非主謂 句. 動詞非主謂句 形容非主謂句. 1. 2. 1.. 大會‖ 開始了。(謂語是動詞) 主席‖作工作報告。(謂語是動賓詞組) 同學們‖舉手表決。(謂語是連動詞組) 大家‖選他當代表。(謂語是兼語詞組) 會議進行得十分順利。(謂語是後補詞組) 任務‖能夠完成。(謂語中有助動詞作狀語) 貓熊‖是熊。(動詞“是”及其賓語組成的謂 語) 父母的恩情‖比海深。(謂語是以形容詞為 中心的偏證詞組) 燈光‖亮得使人們的眼睛都睜不開來。(謂 語是後補詞組) 明天‖晴天。(謂語是名詞) 這個人‖好本領。(謂語是以名詞為中心的 偏正詞組) 這些書‖是我的。(謂語是“的”字結構) 每人‖一本書。(謂語是數量名詞) 這個故事‖我沒聽到過。(把主謂句中某一 動詞的賓語提到句首) 他‖身體健康。(小主語是主謂詞組中動詞 的受事) 這個問題,我們有不同的看法。(全句修飾 語中減去介詞“關於”、“對於”) 出太陽了。(說明自然現象) 不許踩草坪。(表示一般的要求) 好極了 14.

(25) 名詞非主謂句 嘆詞非主謂句 並列關係. 連貫關係 聯合複 句. 遞進關係. 選擇關係. 因果關係 複 句. 轉折關係. 偏正複 句. 條件關係(分 為三種). 2. 真熱! 1.陳先生!(稱呼) 2.好熱的天氣(感受) 啊,紫藤花!你真令人憐愛呢! “也”、“又”、“還”、“另外”、“既……又(也)……” 等。 例句:他回答這得這麼流利,又記得那麼正 確。 “就”、“又”、“便”、“然後”、“接著”等。 例句:他寫完功課,就下課出去玩了。 不但… … 而且……、不僅……更…… 有… … 也有、除了……還有…… 例句:風不但沒停,反而越來越大了。 不是……就是……、或者……或者……、 是… … 還是… …、與其……不如…… 例句:與其揚湯止沸,不如釜底抽薪。 因為……所以……、由於 因為……只好……、因此 例句:因為今天要做的事情很多,所以天剛 亮他就出門了。 雖然… … 卻… …、好像……其實…… 或許……但是……、沒料到……竟然…… 例句:雖然媽媽覺得這件衣服很適合,妹妹 卻不認同。 1. 假設條件:如果… … 那麼… …、假 如… …就… … 例句:假如你同意,我們就去野餐。 2. 特定條件:只有… …才… …、只要… … 就… … 例句:只要我們努力學習,就一定能夠進 步。 3. “無條件”的條件:不管… …都… … 、無 論… … 也… … 例句:不管別人怎麼罵他,他都沒有任何 反應。. 15.

(26) 讓步關係. 即是… …也… …、縱然… …也… … 例句:即使我們得到很好的成績,也沒有值 得驕傲自大的理由. 資料來源:整理自胡裕樹(1992). 貳、語法的定義及結構 一、語法的定義 語法研究最根本的目的是揭示人們如何通過型態、語序等形式手段來表達和 理解語句的意義。語法的定義,各學者看法不同,下表 2-5 整理學者們的相關定 義作為研究參考(傅雨賢,1994): 表 2-5 各學者的語法定義 作者或研 究者 黎錦熙. 《新著國語文法》. 國語都有大家常用而且公認的習慣和規 律,把這些習慣和規律,從我們語言中歸 納出來,經過整理、排列並加以說明,這 就叫做‘國語文法’,我們簡稱‘語法’. 王力. 《中國現代語法》. 語法就是族語的結構方式. 呂叔湘. 《中國文法要略》. 文法就是語句組織的條理. 呂叔湘. 《語法學習》. 語法指用詞造句的規則. 丁樹聲等. 《現代漢語語法講話》 語法就是造句用詞的方式. 高明凱. 《語法理論》. 書 名. 定. 義. 語法也就是語言中的音義結構物各成分之 間起著組織作用的結構方式或結構關係。 所謂“音義結構物”就是指詞或詞組,它是 語言中的造句單位。. 資料來源:整理自傅雨賢(1994). 16.

(27) 二、語法結構的特點 語法就是語言中詞語之間相互組合的結構方式和結構關係。即詞語依不同方 式而構成句子或詞組。語法中的結構方式和結構關係如表 2-6。 表 2-6 結構方式與結構關係 結構方式 名詞+動詞 動詞+名詞 形容詞+名詞 動詞+形容詞. 結構關係 主謂關係 動賓關係 偏正關係 動補關係. 資料來源:整理自胡裕樹(1992)。呂叔湘等(1999)。 結構方式和結構關係是有規則性和普遍性,因此語法可以說是用詞造句的規則 (呂叔湘,2008)。 漢語在造句子時,動詞總是處在中心地位,名詞沒有格的變化,動詞沒有人 稱、數的變化,動詞充當謂語時不必跟著主語而變化。因此,漢語句子的構造原 則與詞組的構成原則基本上是一致的(傅雨賢,1994)。我們就有可能在詞組的基 礎上來描述句法,亦即可以把各類詞組例如:主謂、動賓、動補、偏正、聯合等 作為抽象的型來研究它們內部結構及分布狀況。如果把各類詞組的結構都詳細的 描述清楚,則就能清楚描述句子的結構,所以句子只是獨立的詞組而已(呂叔湘等 著,1999)。 依此而言,詞組的構成方式與句子的構造和合成詞的構造方式一致,整理如 表 2-7(傅雨賢,1994)。. 17.

(28) 表 2-7 句子、詞組和合成詞的構造方式 主謂 動賓 動補 偏正 聯合. 句子. 詞組. 他們去游泳 我去看朋友 陽光照紅了橋身 這是一個裝物品的箱子 臺中和彰化地區下雨了. 目光短淺 學習文化 解釋清楚 國家人民 調查研究. 合成詞 彩旗飄揚 掌握技術 瀏覽一下 非常正確 參觀學習. 地震 開心 擴大 火車 光明. 肉麻 吹牛 提高 白雪 美麗. 資料來源:整理自傅雨賢(1994)。 主謂結構是由一個謂詞和若干論元組成,是句子最基本的語意架構(呂叔湘等, 1999)。如:小安吃了一個蘋果的主謂結構,如圖 2-2 所示: 蘋果. 小安 吃. 圖 2-2 主謂結構圖(資料來源:呂叔湘等,1999) 圖 2-2 中“吃”是謂詞,是主支配成分,“小安”和“蘋果”是“吃”所支配的論元,是謂 詞所支配的從屬成分。謂詞是句子的語意結構核心,所以主謂結構分析把重點放 在對謂詞的支配能力的描寫上。根據謂詞所能支配的論元數目,可以把謂詞分為 一元謂詞、二元謂詞、三元謂詞等。一元謂詞只能支配一個論元,例如(人)走、(鳥) 飛;二元謂詞可支配兩個論元,例如:(她)買(書);三元謂詞可支配三個論元,例 如:(他)送(我)(一本書) (呂叔湘等,1999)。 三、語法結構的分類 句法形式即語法結構的形式。語法結構分為成分結構和詞組結構兩個類別。 以下分別敘述之: (一)成分結構 成分結構是把詞的各種組合按句法的功能定為主語、謂語、賓語、補語、狀 語、定語等六大成份,如圖 2-3 所示(傅雨賢,1994)。分析句子的目的是為了分. 18.

(29) 析句子結構,使學生透過句子結構分析,掌握句子意義。如果句子中的修飾語較 複雜,學生若能先找出句子的主幹(如:主語、動詞、賓語),可很快掌握句子的 格局,逐步弄清楚補語、狀語、定語等成分與句子主幹的關係,從而理解全句(劉 月華、潘文娛、故韡,1996)。因此文本的句子結構差異越多,學生需要花越多時 間來分析理解整句的意思,由此可知,句子結構的相似度是一個偵測文本難易度 的重要指標。. 句子 主語 定語. 謂語 中心詞. 狀詞. 謂語 賓語結構 動詞. 賓語 定語. 學校的. 補語. 中心詞. 老師 剛才 送了 一份 資料 來 圖 2-3 成分結構的樹形圖(資料來源:傅雨賢,1994). (二)詞組結構 詞組結構是把詞的各種組合根據中心語詞性而命名,詞組結構的好處是 可以指明句子各部分之間結構關係,如主謂關係,動賓關係等。如圖 2-4 詞 組結構樹形圖:(傅雨賢,1994). 19.

(30) 句子 名詞詞組 的字詞組. 動詞詞組 名詞. 副詞. 動詞詞組 動詞詞組. 名詞. 趨向動詞. 助詞 動詞詞組 動詞 助詞. 名詞詞組 數量詞組. 數詞. 學校. 名詞. 量詞. 的 老師 剛才 送 了 一 份 資料 圖 2-4 詞組結構的樹形圖(資料來源:傅雨賢,1994). 來. 詞組在漢語句法分析中占有重要地位,如果對詞組的種種組合有了認識,句 子結構分析就很容易掌握。因為漢語語法的一個重要特點是,詞組和句子的構造 原則是一致的。在印歐語系裡,句子跟詞組的構造不同,界線分明。漢語詞組被 包含在句子裡時是詞組,獨立時就是句子。漢語語法範疇主要依靠大小語言單位 相結合的次序和層次來表達,而詞組就是介於詞與句子這個層次系統的中間站(程 祥徽、田小琳,1992)。張志公先生主編的《現代漢語》指出, 「學習漢語的組合, 應把詞組作為一個重點,掌握詞組的構成、各種詞組的組合關係和組合中應注意 的問題,這樣就掌握了漢語語法的基礎。」 結合前面對各類詞組所作的具體分析,可以很清楚的看出,詞組和句子的構 造一致,不同的詞組加上特定的語調、語氣就可以成為句子,因此掌握詞組的結 構就等於掌握了句子的句法結構。本研究採用的詞組結構分析可了解句子的複雜 度,進而了解文章的難易度。. 20.

(31) 第三節 閱讀理解 壹、閱讀理解定義 閱讀理解是一種複雜的心智運作過程,有思考、語言的活動在內,與讀者本 身已具有的舊知識(prior knowledge)、基模密切相關。理解的產生需要運用某 些相關的技能,以達到不同程度的理解狀態(藍慧君,1991)。Pearson&Johnson (1978)也指出閱讀理解是立即的單一過程,也是一套抽象的過程,由讀者依其 先前知識,建構所閱讀的內容。我們知道閱讀理解主要取決於閱讀者的經驗、語 言知識、語法結構的認知、以及文章內容的重複(Richek, Caldwell, Jennings, & Lerner, 1996),就像一位閱讀者對於這篇文章中的每個字都看得懂,但是可能不 了解文章內容,也無從解釋,可以得知閱讀者的困難在於沒有具備適當的背景知 識而無法與文本產生互動交流。 Kintsch(1998)從文章訊息與讀者先備知識互動的觀點,提出了建構整合模 式(construction-integration model),此模式包括建構和整合兩個階段。在「建構」 階段,讀者會不斷活化新的命題,腦中原有的語意、語法,和文章有關的知識概 念,都會因讀者閱讀文章內容而觸發新的命題,進而建立「內文基礎」模式;在 「整合」階段,讀者會不斷地進行參照性推論(referential inference),在內文基 礎與先前知識的互動中,建立情境模型(situation model)。這兩個階段會不斷循 環、交錯進行,直到形成穩定的理解表徵為止. (張麗麗,2010)。. 貳、 閱讀理解歷程 閱讀是一種認知過程,也是資訊內化的過程,對兒童而言,透過閱讀去識字、 理解,是學習的開始,PIRLS(Progress in International Reading Literacy Study)及學 者專家以閱讀理解歷程來說明在閱讀中應學到的知能。以下分別說明其特點及相 關性。. 21.

(32) 一、. PIRLS. 由國際教育成就評鑑協會(IEA)主導的「促進國際閱讀素養研究」 。PIRLS 每五年一次針對國小四年級學生的閱讀進行國際性評量,希望藉由評比結果,作 為各國改善閱讀教學及促進閱讀能力的參考。設定的閱讀能力中,包含有四項閱 讀理解層次(柯華葳、詹益綾、張建妤、游婷雅,2008)。 (一)「直接提取」(focus on and retrieve explicitly stated information): 找出文中明確寫出的訊息,例如: 1. 與特定目標有關的訊息 2. 特定的想法、論點 3. 字詞或句子的定義 4. 故事的場景,例如時間、地點 5. 找出文章中明確陳述的主題句或主要觀點 (二)「直接推論」(make straightforward inferences) :需要連結段落 內或段落間的訊息,推斷出訊息間的關係(文中沒有明確描述的關 係),其中包括: 1.推論出某事件所導致的另一事件 2.在一串的論點或一段文字之後,歸納出重點 3.找出代名詞與主詞的關係 4.描述人物間的關係 (三)「詮釋整合」(interpret and integrate ideas and information) :讀者需要 運用自己的知識去理解與建構文章中的細節及更完整的意思包括: 1. 歸納全文訊息或主題 2. 詮釋文中人物可能的特質、行為與做法 3. 比較及對照文章訊息 4. 推測故事中的語氣或氣氛 22.

(33) 5. 詮釋文中訊息在真實世界中的應用 (四) 「檢驗評估」(examine and evaluate content, language, and textual elements):讀者需批判性考量文章中的訊息,包括: 1.評估文章所描述事件確實發生的可能性 2.描述作者如何安排讓人出乎意料的結局 3.評斷文章的完整性或闡明、澄清文中的訊息 4.找出作者論述的立場 成熟讀者在閱讀過程中,會自動的進行「提取訊息」和「推論分析」 ,而在「詮 釋整合」以及「比較評估」上則需要讀者提取既有的背景知識,建構自己對文章 深層的理解,包括跳脫文章進行批判(柯華葳等,2008)。 二、Gagn'e(1998)認為閱讀歷程分成四個階段 (一) 解碼:運用「配對」和「譯碼」兩種方式,破解書面文字符號使其 具有意義。 (二) 字義理解:透過字義取得和語法分析來追溯推論每個字義。 (三) 推論理解:經由「整合」、 「摘要」和「詳細論述」 ,連貫文章概念並 建立一個鉅觀的結構,再以既有知識來增進相關訊息。 (四) 理解監控:讀者在開始閱讀時即會設定目標、選擇適當策略進行閱 讀,並在閱讀過程中不斷檢視自己的目標是否有達成,遇到阻礙時則 針對無法理解的部分進行修正補強。 三、Pearson & Johnson(1978)提出的閱讀理解三層次論也和 Gagné 的理論有若干 相似之處,分別是: (一) 表層文義的理解:問題直接在文章中明示,經由「解碼、字面理解」的 歷程即可達到對文章基本事實的理解。 (二) 深層文義的理解:指問題的答案必須間接經由文章提示的線索推論才能 獲得,即是「推論理解」 。 23.

(34) (三) 涉入個人經驗的理解:閱讀時必須加入個人經驗方能達到完全的理解、 運用,類似 Gagné 推論理解中「理解監控」的部分。 四、Burns 等人的閱讀理解歷程 Burns, Roe&Ross(1999)將理解分為字面與高層次兩類。前者是最基本的類 型,而後者包括詮釋性的理解、批判性的理解和創造性的理解。 (一) 字面理解:字面的理解是指辨識文章的訊息。而這些基本的訊息,包括: 主要的概念、因果關係和結論。 (二) 高層次的理解:高層次理解在字面理解之上,指的是詮釋與分析綜合訊 息的高層次思考歷程。 1. 詮釋性的理解:指在行列之間的引申出言外之意的閱讀或詮釋,而非 直接的敘述。 2. 批判性的理解:評述書面資料。即藉著已知道的規範,比較在材料中 所發現的概念,並準確、適當和及時的描述結局。 3. 創造性的理解:必須超出作者在材料中所呈現的。且要求讀者思考所 讀,並使用讀者的想像,使閱讀的結果成為新的概念。 (三) 評價篇章內容及語言形式:讀者在閱讀的過程中自動的監控自己所運用 的閱讀技能與策略,以確認是否理解文章內容。. 叁、閱讀理解的模式 閱讀理解是一種非常複雜、動態的心智活動,也是閱讀認知歷程中重要的成 分。長久以來,認知心理學家研究一直以閱讀理解為探討的重點,因而產生了多 種閱讀理解模式,包含重於解碼歷程的「由下而上模式」、注重於理解歷程的「由 上而下模式」、以上述兩項歷程同時交互發生的「交互作用模式」,還有以認知 觀點,提出的「建構統整模式」,以下分別敘述之。. 24.

(35) 一、 由下而上模式 由下而上模式重視符號與語音連結的練習,認為閱讀是以字、音為基礎,再 依序增加閱讀量,直至能閱讀完整篇文章,便等同於對文本的理解。本模式的閱 讀解碼過程是從看到文本的文字開始,至瞭解文字意義結束(蔡銘津,2009)。 Hayes(1991)指出,在此模式的運作下,閱讀者首先由字詞的視覺刺激獲得訊息, 接著是句法(syntactic)與語意(semantic)的處理,最後到文章意義的理解與內化為 止。此一直線過程強調對詞彙或文句本身的低層次認知結構處理,忽略了讀者先 備知識(prior knowledge)、整合命題(integrating propositions)、推論(inference)等高 層次處理歷程的機制(董宜俐,2003)。 二、 由上而下模式 Goodman(1967)提出「閱讀是一種心理語言學的猜測遊戲」,將閱讀視為 一種讀者主動選擇的歷程。讀者積極運用自己的知識背景與經驗,選擇性地使用 文章線索,過程中不斷地猜測文意,形成暫時性假設,並不斷地驗證與修正假設 以建構文意。也就是讀者以較高層次知識處理過程來引導較低層次的訊息。詳述 說明,此模式認為閱讀理解是一連串的選擇過程,過程中閱讀者會根據先備知識 及經驗,不斷地依據自己對閱讀主題的認知結構與文章內容產生互動,產生假 設、預測,形成暫時性的決定,再經過不斷的證實、假設、預測、證實的反覆過 程,達到了解全文的意義。因此,由上而下的模式,認為在閱讀理解的過程中, 只要閱讀者具備了先備知識,就能理解。這種模式稱為「概念驅動模式」 ,由於 過度依賴讀者的既有知識與主題經驗,因此在文意建構上,難免會與作者所欲傳 達的訊息有所出入,因此也不能視為完整的閱讀理解歷程。因此代之而起的是交 互作用模式。 三、 交互作用模式 由於單一的「由下而上」或「由上而下」模式都只能解釋閱讀理解歷程的部 分現象,於是 Rumelhart(1977)乃提出交互作用模式,交互模式強調閱讀是讀者內 25.

(36) 在的先備知識與文章訊息互動的歷程,認為讀者在閱讀時,低層次(字詞辨識) 的處理與高層次(預測文意)的處理是同時發生且相互協助的(Rumelhart,1985)。 在互動模式中,讀者一方面主動結合先備知識以形成猜測與假設,運用由上而下 的歷程協助解碼;另一方面,也運用解碼或由下而上的歷程去修正或放棄自己原 先的假設。因此,交互作用模式同時重視由下而上模式對視覺刺激的知覺歷程和 由上而下模式的納入認知結構歷程(黃福興,2003) 。我們可以說閱讀理解是不 拘於何種方向來源,而是各種訊息的來源都可以相互補充的。在閱讀理解過程 中,每個人用不同的方式來處理閱讀材料內的訊息(鄭晉昌,1992)。 四、 建構統整模式 Bartlett(1932)提出閱讀是一種「努力追求意義的過程」(林清山,1998),很多 研究者皆認為閱讀理解為閱讀時文本內容與閱讀者的心智活動和記憶之間互動 產生的結果。閱讀內容由讀者所建構產生的,包含三項歷程(一)以命題形式 (propositional form)建構文本的基本意義(text base),(二)提取相關知識解釋文本內 容,(三)經解釋所獲得之意義與儲存在記憶系統中的相關訊息做比較。 Kintsch(1988)提出建構整合模式(Construction-Integration Model),根據建構命 題、形成命題網路、活化知識和產生推論等四種原則,經由多次的建構、整合, 產生完整的心理表徵,由此推論,閱讀是一種快速循環的動態歷程,讀者會建構、 整合文本中的訊息,將之轉化成心理表徵(楊蕙如,2011)。心理表徵可分成三種 不同層次,分別敘述如下: (一) 微觀結構(microstructure):是個別命題的概念或命題與命題間的關係, 將所看到的文字再拆解成更小的知識單位稱為命題,亦即文章中次要 的概念或細節。指讀者由句子中抽取意義,產生命題(propositions), 對文本形成之理解。 (二) 鉅觀結構(macrostructure):是文本的重要概念或主旨。指讀者閱讀完 文本後,整合文本的所有微觀結構,對文本內容或主題所產生的整體 26.

(37) 性理解。 (三) 情境模式(situation models):是讀者的先備知識與讀後的內文基礎交互 作用,對文章內容旨意所建構出的理解。由於讀者的先備知識與 經驗不同,因此閱讀所建構的情境模型也有所差異(張麗麗,2010)。 本研究所採用的中高年級文本理解測驗是以 Gagne’e 主張之閱讀歷程和 Kintsch 提出的閱讀模式為理論基礎,並依據 PIRLS 閱讀理解的四個層次所編制 完成的。. 27.

(38) 第四節、可讀性 壹、 可讀性定義 可讀性是指閱讀材料能夠被讀者流暢閱讀、理解並能發現其有趣之範圍(Dale & Chall,1949);可讀性較高的文本具備某些特徵,例如:文本有較容易閱讀的 詞彙,句子結構簡單包含較少的代名詞及複合詞,內容符合讀者的先備知識,文 章呈現方式能適當的重述先前段落,提供相關知識,降低無關的干擾訊息(Klare, 1963)。在教育領域上,Lau & King(2006)提到可讀性評估(readability assessment) 是評估一份文本素材之困難度的方法,它廣泛地使用在教育領域,協助教師為學 生準備適當的素材。本研究所探討的可讀性在於運用適合中文的可讀性指標,並 以線性模式來進行可讀性分析。. 貳、可讀性公式的發展 教材研究學者嘗試找出哪些是影響文本可讀性的重要因素及指標,設計各種 測量方式,把教材的難易度以量化來表示。如果教材難易度能以簡易的公式測量 得知,或以簡單的指數表示,教學的工作就是「配對的工作」(Fry, 1977a),也就 是為學生選擇難易適中的教材,供其學習,以達效果。除了須瞭解學生的學習程 度外,更需明白教材的難易度,以及如何得知教材適讀性,以做為選擇教材的依 據。以下分別介紹英文、中文的可讀性公式及選用的指標: ㄧ、英文可讀性公式 由表 2-8 可發現研究測量教材難易度的公式大部分是影響文章理解的三個變 數:詞彙難度的多寡、音節數與句子的平均長度(Chall,1995; Harrison, 1980 )。可 讀性公式在測量語言成分可歸納為兩大特徵: (ㄧ)詞彙或語意:詞彙是文章的意義單位,語意的理解能力包括:1.詞彙意義的 瞭解,2.詞彙意義之間結合形成短語或句子的聯結原則。閱讀是一種意義建構的 歷程,因此語意能力必然會與閱讀理解有關係(林寶貴、錡寶香,2005)。研究上 28.

(39) 發現當閱讀內容中有較多不熟悉的詞彙時,其回顧的內容較不完整,可是當教學 者教讀者這些不熟悉的詞彙意義時,其回顧的內容會比較完整(Beck, Perfetti & Mckeown,1982)。有些研究把一個人的詞彙能力視同理解力,具有廣博的詞彙語 庫,讀者自然容易理解文章的內涵(Thorndike, 1972)。二者的相關在 0.9 之上(Stahl, 2003)。詞彙語意測量的內容包括音節多寡、詞長及詞彙的使用頻率。以英文單字 的難易表呈現詞彙的難易度主要在音節多寡、使用頻率與衍生詞彙(Chall, 1958; Stahl, 2003)。 (二)句子或語法:句子是影響閱讀理解的第二個主要因素,句子的長短、結構與 形態都是重要因素。閱讀時,長句多自然比長句少的文章難懂;充滿附屬子句的 文章較內容都是簡單句的文章難理解。同理,結構複雜、較少使用的句型也較不 易讀(賴伯勇,2005)。 傳統的可讀性公式 Flesch-Kincaid Grade Level 使用的指標是音節數與平均句 長,其優點是音節數、平均句長與詞彙難度、句子結構有重要的關聯性,且音節 數及平均句長指標容易計算偵測,然而語言學計算的進步發展,過去很多指標例 如:詞頻與結構複雜度無法計算出來的,現在都可以很容易的解決。 Stenner, Smith, Horabin, & Smith(1987)注意到評估文本難易度的兩個重要的 成分是詞頻和句子的複雜度,Stenner 與研究團隊發展 lexile 偵測,偵測的指標包 含詞頻和平均句長,此可讀性公式結合閱讀理解與統計迴歸分析。 Degrees of Reading Power(Koslin, et al., 1987)公式修改自 Bormuth 克漏字可讀 性公式,此公式運用三個指標分別是三千字表的使用次數、平均句長及平均字母 數,目前這個公式被 College Board 所採用,發現是預測難度很有效的公式。 建構閱讀模式學者認為讀者在閱讀過程中會主動建構文章意義(Graesser, Singer, & Trabasso, 1994)。若僅以語意與語法字表面特徵來偵測文本難度,無法 測量出文本深層的結構屬性,例如:凝聚力、推論、複雜度等(Bruce, Rubin, & Starr, 1981) 。近年來研究者試著根據認知理論來分析文本的難度,不僅是探討表面特 29.

(40) 徵的指標,甚者積極探討與文本相關的凝聚性指標,及指標間的關係(Benjamin, 2012) 。Coh-Metrix 發展自動化處理文本的新方法,透過計算語言技術,分析詞、 句子、段落及篇章等較大範圍文本多層級之凝聚性與文章難度的關係(Graesser, McNamara, Louwerse, & Cai, 2004;宋曜廷等人,2013)。 凝聚性除了是文章組成的客觀特性,也是建構心理模型的重要成分,讀者需 要透過語意詮釋與心理模式的建構,才能夠產生整篇意義的深層理解,進而建構 較完整連貫心理表徵,達成較好的理解,因此凝聚性具有其重要性(Lehnert & Ringle, 1982;宋曜廷等人,2013) 。 Coh-metrix 近幾年所發展的第二外語公式(L2),運用三個指標包含:詞頻、 實詞重複性、句子結構相似度,在文本的分級和預測讀者克漏字測驗表現達顯著 的效果;Coh-metrix 也嘗試將偵測音節數和平均句長的傳統公式,進一步加入詞 頻及相關的凝聚性指標,進行迴歸分析,在預測文本年級上發現比傳統公式達到 更高的解釋量,由此可知,結合傳統的公式及多元化的指標包含句子結構及凝聚 力相關指標,可以讓文本年級的預測力達到更好的效果。 表 2-8 英文可讀性公式 公式名稱 (研發者). 選用指標. 1.ㄧ音節詞數 Coleman 2.句數 (Edmund B. Coleman, 1965) 3.代名詞數 4.介係詞數 多音節詞數 SMOG (McLaugylin, 1969). 可讀性公式 克漏字測驗通過率= 1.04 ×一音節詞數+ 1.06× 句數+ .56 ×代名詞數 –.36 ×介係詞數 – 26.01 此公式計算每百詞的出現率 1、從文章開頭取出連續的十句,計算包含三 音節及三音節以上的字數。 2、以同樣方式從文章中段及末尾各取出連續 的十句,計算所含三音節及三音節以上的字 數。 3、把上述結果三個數字加起來,再用換算表 得出一個數字,即是學生的年級。. 30.

(41) the Fry Graph (Fry 1969). 1. 平均句長 2. 音節數. Flesch Reading Ease(Flesch, 1974). 1. 平均句長 2. 平均音節數. Flesch-Kincaid Grade level ( Kincaid et al., 1975). 1. 平均句長 2. 平均音節數. Fog Index(1983). 1.平均句長 2.難字詞比率(三 音節以上之詞彙) 1.平均字母數 2.在 Dale-Chall 字表的詞彙比率 3.平均句長. Degrees of Rading Power (Koslin et al., 1987). The New DaleChall(Edgar Dale & Jeanne S. Chall, 1995). 1. 平均句長 2. 難詞百分比. 從一篇文章中任取兩個樣本,每個樣本為連續 的一百個字,然後計算這百字有多少句子及音 節數,每個樣本的平均數得出一組數字,再將 兩組數字平均。最後把這平均數值放在富萊 (Fry)適讀性座標圖上,就可查出適讀年級。 閱讀難易度=206.835 – 1.015× 平均句長– 84.6 ×平均音節數 分數即文章的難易度,介於(0-100)之間。對小 學至大學四年級學生整體而言,分數愈大表示 愈容易,100 最容易,0 難度最高。 年級=.39 ×平均句長+ 11.8×平均音節數–15.59 這個公式來自於 Flesch Reading Ease 並進一步 將分數轉換成年級,因此求出的數字即代表文 章的適讀年級。若求得分數是 6 表示文本大約 適合六年級學生程度。 學習年齡=(平均句長+難字詞比率×100) × 0.4. 克漏字分數= .886593 - .083640 ×(平均字母數) + .161911 ×(在 Dale-Chall 字表的詞彙比率)3 – 0.021401× (平均句長) + .000577× (平均句 長)2- .000005 ×(平均句長)3 DRP = (1 –克漏字分數 ) x 100 DRP 難易度範圍介於 0-100, 0 表示容易,100 表示困難 原始分數=0.0496×平均句長+0.1579×難詞百分 比 調整分數=0.0496×平均句長+0.1579×難詞百分 比+3.6365(難詞百分比大於 5%需加常數) 從分數與年級對照表中找出適讀年級 此公式修改自 Dall-Chall(1948),更新 Dale3000 詞彙表,並改良原始公式。難詞的定義為沒有 出現在 Dale3000 詞彙表中。 31.

參考文獻

相關文件

This study aimed to explore the effectiveness of the classroom management of the homeroom teacher by analyzing the process of the formation of the classroom management and

Developing a signal logic to protect pedestrian who is crossing an intersection is the first purpose of this study.. In addition, to improve the reliability and reduce delay of

Developing a signal logic to protect pedestrian who is crossing an intersection is the first purpose of this study.. In addition, to improve the reliability and reduce delay of

The purpose of this study is to analyze the status of the emerging fraudulent crime and to conduct a survey research through empirical questionnaires, based on

Hence this study uses a systematic method to develop safety evaluation indices and their weights to evaluate the walking environment of way to school for

The purpose of this study was to explore the effects of learning organization culture on teachers’ study and teaching potency in Public Elementary Schools.. The research tool of

It also has great influence on their leisure lives, or even health.The purpose of this study is to explore the extent to which leisure constraint and leisure activity demand to

The main purpose of this study is to explore the status quo of the food quality and service quality for the quantity foodservice of the high-tech industry in Taiwan;