兒童文本詞頻詞彙指標分析系統建置與應用

全文

(1)國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩士論文. 指導教授：郭伯臣博士廖晨惠博士. 兒童文本詞頻詞彙指標分析系統建置與應用. 研究生：蔡筱倩撰. 中. 華. 民. 國. 一. ○. 二. 年. 六月.

(2) 謝辭『一路走來點滴在心頭…』測統所二年的研究旅程即將畫上句點，心中百感交集，自是不可言喻。一路走來，受到許許多多的幫助，由衷感謝一路伴我成長的師長與夥伴。感謝的是指導教授郭伯臣和廖晨惠老師，總在我最徬徨無助時，及時給予指點，讓我茅塞頓開。感謝的是楊裕貿老師，提供Coh-Metrix團隊在中文語法與編製測驗的寶貴意見。感謝的是Coh-Metrix團隊的御用小老師－小白學長，總是不厭其煩的教導我們。感謝的是王瓊珠教授在百忙之中擔任口委，對論文提出寶貴的意見，令我獲益匪淺，也使這份論文更趨完善。最後，當然要感謝的是我們Coh-Metrix團隊一同堅持到底的文蘭、勇媜、亞韋、建宏及林祐陞小朋友，在最後的兩個月中，大家共處無數個黃昏夜晚，藉由彼此的激勵、打氣，讓我在研究的路上不孤獨，能認識這群同學，是我研究生之旅另一個重要的收穫。謹此致謝。蔡筱倩一百零二年六月.

(3) 中文摘要本研究參考 Coh-Metrix，建置詞頻與詞彙分析指標，並分析詞頻、詞彙指標在年級間的趨勢、對年級的預測效果，及與閱讀理解之相關性。本研究對象為臺中市國小四、六年級學童，有效樣本共 796 位。本研究主要發現如下：一、分析兒童語料庫文本的結果，所有詞詞頻出現的次數及平均詞彙數隨著年級愈高也愈高；實詞詞頻與每句詞頻最小值則是隨著年級愈高，其出現的頻率數值愈低。二、所有詞詞頻、實詞詞頻、詞頻最小值及平均詞彙數四個分析指標可以預測文本年級達 27.4%；逐步多元迴歸對年級預測所得之最佳模式，以每句平均詞彙數對年級的預測效果最佳。三、在直接提取、直接推論與詮釋整合的題型上，實詞詞頻對其文本的通過率影響程度較高；詮釋整合的題型上，則是所有詞詞頻對於文本通過率的影響較高；檢驗評估的題型上，實詞詞頻與平均詞彙數對於文本通過率的影響為負相關。四、就試題反應理論來看，低分組以直接提取對閱讀能力有最佳預測力，而高分組則是檢驗評估這個層次預測力較佳。. 關鍵字：文本分析、詞頻、詞彙數、電腦自動化. I.

(4) Abstract This study aims at building indexes of word frequency and word analysis, exploring the shifting trend of word frequency and word index among grades, measuring the contribution of the indexes mentioned above to predicting corresponding grades in children’s corpus, analyzing the relationships among the indexes and reading comprehension. The results are as followed: 1. According to the outcome of children’s corpus text analysis, both the appearance of all word frequency and the average number of words are getting higher with ascending grades; the content word frequency and the minimum of word frequency in a sentence are getting lower with ascending grades. 2. The contribution of indexes of all word frequency, content word frequency, the minimum of word frequency and the average number of words to predicting text grade is 27.4%; inducting from the outcome of multiple stepwise regression analysis, the average number of words in a sentence is the best predictor to corresponding grades in children’s corpus. 3. The content word frequency is more related to the passing rate of the text on the direct retrieval, direct reasoning and integrative annotation questions. All word frequency is more related to the passing rate of the text on the integrative annotation questions. As for the examining evaluation questions, the content word frequency and the average number of words is negative correlation to the passing rate of the text. 4. With the perspective of the IRT theory, direct retrieval is the best predictor to reading performance for the low-achieving group while examining evaluation is the best predictor to reading performance for the high-achieving group. Keywords：text analysis, word ,word frequency , computer automation. II.

(5) 目錄中文摘要 ................................................................................................................................... I Abstract .................................................................................................................................... II 目錄 .........................................................................................................................................III 表目錄 ...................................................................................................................................... V 圖目錄 .................................................................................................................................... VI 第一章緒論 ............................................................................................................................1 第一節研究背景與動機 ....................................................................................................1 第二節研究目的.................................................................................................................3 第三節名詞解釋...................................................................................................................3 第二章文獻探討 ....................................................................................................................5 第一節線上文本分析系統 Coh-Metrix ..........................................................................5 第二節詞頻 .........................................................................................................................9 第三節詞彙 .......................................................................................................................13 第四節閱讀理解...............................................................................................................15 第三章研究方法 ..................................................................................................................21 第一節研究流程...............................................................................................................21 第二節兒童文本分析系統 ..............................................................................................22 第三節研究工具...............................................................................................................28 第四節研究對象...............................................................................................................34 第五節資料處理與分析 ..................................................................................................34 第四章研究結果與討論......................................................................................................36. III.

(6) 第一節. 兒童語料庫趨勢分析 ........................................................................................36. 第二節指標分數預測文本適讀年級 .............................................................................43 第三節文本通過率與研究指標分析 .............................................................................46 第四節閱讀理解層次與研究指標之分析 .....................................................................47 第五節學生高低能力分組與閱讀理解層次 .................................................................52 第五章結論及建議 ..............................................................................................................57 第一節結論 .......................................................................................................................57 第二節建議 .......................................................................................................................58 參考文獻 .................................................................................................................................59 中文參考文獻 .....................................................................................................................59 英文參考文獻 .....................................................................................................................61. IV.

(7) 表目錄表 2-2-1. 詞類分法 .............................................................................................................10. 表 2-2-2. 各類詞類標記與虛詞/實詞之對應關係及實例.............................................. 11. 表 2-3-1. 學齡前幼兒表達詞彙量的增長情形 ...............................................................14. 表 2-4-1. 閱讀理解發展階段 .............................................................................................17. 表 3-2-1. 修改中研院精簡詞性後斷詞標記規則列表 ...................................................24. 表 3-2-2. 修改中研院精簡詞性後斷詞標記範例說明 ...................................................24. 表 4-1-1. 所有詞詞頻趨勢分析表 ....................................................................................37. 表 4-1-2. 實詞詞頻趨勢分析表 ........................................................................................38. 表 4-1-3. 每句詞頻最小值趨勢分析表 ............................................................................40. 表 4-1-4. 平均詞彙數趨勢分析表 ....................................................................................41. 表 4-2-1. 分析指標與年級相關 ........................................................................................43. 表 4-2-2. 一般迴歸分析摘要表 ........................................................................................44. 表 4-2-3. 逐步迴歸分析摘要表 ........................................................................................45. 表 4-3-1. 指標與不同年級受試者文本通過率相關係數摘要表 ..................................47. 表 4-4-1. 指標與直接提取層次題型之相關 ....................................................................48. 表 4-4-2. 指標與直接推論層次題型之相關 ....................................................................49. 表 4-4-3. 指標與詮釋整合層次題型之相關 ....................................................................50. 表 4-4-4. 指標與檢驗評估層次題型之相關 ....................................................................51. 表 4-4-5. 閱讀理解層次與指標相關程度彙整表 ...........................................................52. 表 4-5-1 高低分組在閱讀理解層次的預測效果彙整表 .................................................56. V.

(8) 圖目錄圖 2-1-1. Coh-Metrix 3.0 介面............................................................................................ 8. 圖 3-1-1 研究流程 ...............................................................................................................22 圖 3-2-1. 詞頻詞彙指標建置流程 ....................................................................................23. 圖 3-2-2. 兒童文本分析系統介面 ....................................................................................27. 圖 3-2-3. 文本自動化分析結果介面 ................................................................................28. 圖 4-1-1. 兒童語料庫所有詞詞頻趨勢 ............................................................................37. 圖 4-1-2. TASA 語料庫所有詞詞頻趨勢 .........................................................................38. 圖 4-1-3. 兒童語料庫實詞詞頻趨勢 ................................................................................39. 圖 4-1-4. TASA 語料庫實詞詞頻趨勢 .............................................................................39. 圖 4-1-5. 兒童語料庫每句詞頻最小值趨勢 ....................................................................40. 圖 4-1-6. TASA 語料庫每句詞頻最小值趨勢 ................................................................41. 圖 4-1-7. 兒童語料庫平均詞彙數趨勢 ............................................................................42. 圖 4-1-8. TASA 語料庫平均詞彙數趨勢 .........................................................................42. VI.

(9) 第一章緒論現今是一個知識爆炸的時代，語言扮演著重要的角色，而獲取語文能力的其中一個途徑就是透過閱讀，透過閱讀可以累積大量的知識，但是如何幫讀者挑選適合自己程度與能力的閱讀文本，是值得探討與研究的議題，故本章第一節說明研究背景與動機；第二節說明研究目的；第三節為本研究重要名詞釋義。. 第一節研究背景與動機閱讀，是一切知識的基礎，也是語言的來源。透過閱讀，可獲得基本的字彙、詞藻、短句等語文能力，同時藉由對文章連貫性的理解，學生在思考力的增進及各學科間的學習也有正面的助益。所以說，如何挑選合適的文本閱讀，就變得益發重要。就閱讀的動機看來，文章的難度會影響讀者閱讀的意願，讀得懂、讀得通，讀者自然喜歡閱讀；反之，如果文章讀來不知其所以然，就不會產生想要繼續閱讀的意願，此也說明文章的難度如果低於讀者本身的閱讀能力，讀者在閱讀上的動機便不強，但若是文章的難度高過其閱讀能力，讀者可能也不會有興趣將文章閱讀完畢，惟有難度適中的文章才會讓學生產生閱讀的動機（Chall & Conard, 1991），故如何幫學生挑選一篇適合其閱讀能力且難度又恰到好處的文章，讓其充分享受閱讀的樂趣，進而幫助學生提升閱讀理解的能力，一個使用性方便的兒童文本分析系統是很重要的輔助工具。國外研究中，用來選擇文本的工具很多，早期傳統選擇文本的方式通常利用可讀性公式（Graesser,McNamara & Kulikowich , 2011），以 Klare（1974-1975）所提出的 Flesch Reading Ease 和 Flesch–Kincaid Grade Level 兩個公式最廣被使用，其選擇文本主要以句子平均長度或者音節數做為判斷文本難易度的依據。而國內研究中，賴伯勇（2005）針對英文教材的研究，指出影響教材閱讀困難度的的語文要素有二，分別為字彙與句子，其中字彙又包括音節多寡、使用頻率與衍生字，句子則. 1.

(10) 包括句子長短結構等。荊溪昱（1995）根據中學國文教材的適讀性進行研究，指出文句長度與用字難度是影響教材難易度的變項。但我們知道決定一篇文章的難易度除了文章字數、音節多寡、使用頻率、用字難度及平均句長等因素外，尚包括每句平均詞彙數、詞彙多樣性、文章架構、文章凝聚力、學生的先備知識等考量因素，且中英文結構語法的不同，僅依賴可讀性或適讀性公式片面決定中文文本難易度是有待商榷的。基於文本選擇的重要性，國立臺中教育大學教育測驗統計研究所特別組成一個研究團隊，參考國外的Coh-Metrix文本分析系統，就國小兒童文本進行分析，發展出各項分析指標，包括詞彙訊息、詞彙習得年齡、詞彙多樣性、文章連貫性等。因本團隊所發展之兒童文本分析系統涵蓋的範圍非常廣泛，非一己之力所能兼備，故本研究僅對詞彙訊息中詞頻與詞彙指標進行探討。其中「詞彙」是理解一篇文章最基本的要件，詞彙豐富的孩童自然容易理解書中的內容，而孫曉明（2006）在國內外第二語言詞彙習得研究綜述中，提到Stemberg的論點，認為詞頻是影響詞彙學習的重要因素，且詞彙出現的頻率愈高，學習者的記憶負擔愈小，自然能掌握更多詞彙，此說明讀者要理解文章內容，辨識文章中的詞彙是基礎功夫。如果認識的詞彙量不足，可能使閱讀理解力下降，如果詞彙出現的次數多，代表那個詞較常見較易理解；反之，如果出現頻率少表示詞彙較不常見，同時也較不易被理解。因此，詞頻與詞彙數不僅影響著讀者閱讀理解的能力，同時對於文本的難易度也有著決定性的影響。雖然目前台灣師範大學也開發出一套文本可讀性指標自動化分析系統（Chinese Readability Index Explorer, CRIE），其文章分析指標包括詞彙類、句法類、語意類、文章凝聚性等，但依據宋曜廷等人（2013）所做的中文文本可讀性探討中得知，其語料庫樣本取自98年度台灣H、K、N三大出版社所出版的1 ~ 6年級審定版國小國語科教科書，共選入386篇文章做分析，與本研究所採用兒童語料庫為廖晨惠（2010）. 2.

(11) 之國科會｢以LSA為基礎之電腦化閱讀認知測驗及AutoTutor建置｣計畫（編號：NSC 100-2420-H-142-001-MY3）中之語料庫共945篇文章來源不同，且分析指標與本研究所建置之詞頻與詞彙指標，除實詞詞頻略有雷同外，本研究還包括所有詞詞頻、詞頻最小值與每句平均詞彙數等分析指標，將可提供讀者更進一步且更詳細的文本分析參考依據。總而言之，人類透過閱讀得以累積未來在社會上終身所需的知識（陳昭珍、李央晴、曾品方，2010），目前全世界已邁入知識經濟的時代，教育部自 90 年度起，陸續推動一系列兒童閱讀相關運動，就是希望能藉由閱讀基礎紮根，提升整體社會和國家競爭力（教育部電子報，2010）。因此，如何培養學生長期閱讀的興趣，養成學生主動閱讀的習慣，希望透過本團隊所發展之兒童文本分析系統，提供更多元的分析指標，協助讀者做為線上選擇文本難易度的參考，找出適合自己程度的文本閱讀，俾能對學生閱讀理解力有所增進，進而對國內整體閱讀能力的提升有所助益。. 第二節研究目的根據所述研究動機，本研究的目的可分為以下幾點：一、建置兒童文本分析系統之詞頻、詞彙指標。二、檢視兒童文本詞頻、詞彙指標與年級之趨勢分析。三、探討詞頻、詞彙數指標與閱讀理解之關係。. 第三節名詞解釋針對本研究常見的名詞解釋，說明如下：. 壹、兒童語料庫本研究之兒童語料庫為廖晨惠（2010）之國科會｢以LSA為基礎之電腦化閱讀認知測驗及AutoTutor建置｣計畫（編號：NSC 100-2420-H-142-001-MY3）中所建置完成之語料庫。其語料庫係收錄現行的國民小學教科書及經授權之國語日報等文章945. 3.

(12) 篇，共計兩萬多個詞彙所組成。. 貳、 Coh-Metrix 線上文本分析系統 Coh-Metrix 是一個線上文本分析系統，可透過各項指標計算的數值結果，了解文本的凝聚力（cohesion）與心理表徵的連貫性（coherence ），所謂凝聚力是一種文本的特性，有明確功能、單詞、短語或句子，能引導讀者解釋文中實質性的想法。而連貫性則是在讀者心中的連貫關係，構建於讀者本身的先備知識和技能。 Coh-Metrix 提供給使用者一個多面向的文本分析工具，至目前為止分析指標大約有 106 種，其內部使用指標高達 600-1000 多種，並陸續發展中。. 參、詞頻詞頻指某一詞語使用次數的多寡，也可以說是從特定語料庫中統計詞語出現的頻率，本研究的詞頻乃採兒童語料庫中詞彙出現的次數計之。. 肆、實詞與虛詞實詞是指詞語中含有實際意義，能單獨充當句子成分，包括名詞、動詞、形容詞等。虛詞是不能單獨充當句子成分，不具實在的意義，包括介詞、連詞、助詞等。. 伍、詞彙數詞彙指的是語言中詞彙的總和，而詞彙數則為每篇文章中平均詞彙數量的平均值。. 陸、閱讀理解閱讀理解是讀者主動建構與文本訊息之間的互動歷程，本研究的閱讀理解包含四個層次，分別為直接提取、直接推論、詮釋整合及檢驗評估四個層次。. 4.

(13) 第二章文獻探討本研究依據 Coh-Metrix 線上文本分析系統發展詞頻、詞彙指標，並評估指標與閱讀理解間的關聯性，故文獻探討可分為四個部分。第一節為線上文本分析系統 Coh-Metrix，第二節為詞頻的部分，第三節為詞彙的部分，第四節為閱讀理解的介紹。. 第一節線上文本分析系統 Coh-Metrix 壹、 Coh-Metrix的定義及發展 Coh-Metrix 是從 2002 年開始發展的一個網路文本分析工具，因為當時沒有任何一種廣泛性的文本指標，可供用來測量文章的難易度，早期傳統評斷文本難易的工具，大部分都以可讀性公式做為依據，實務上較常見的有 Klare （1974-1975）所提出的 Flesch Reading Ease 和 Flesch–Kincaid Grade Level 兩個公式，及 Degrees of Reading Power 的 DRP 公式以和 Lexile scores 等可讀性公式，其中又以 Klare 的兩個可讀性公式最常為研究者所使用，茲介紹如下： Flesch Reading Ease. = 206.835－1.015×ASL－ 84.6×ASW. (2.1). Flesch–Kincaid Grade Level = .39×ASL＋11.8×ASW – 15.59. (2.2). 在可讀性公式裡的 ASL 指的是句子平均長度，ASW 為音節的平均數，Flesch Reading Ease 的公式會得到一個從 0 到 100 的數值，得分較高的，說明文本比較容易閱讀，平均文本通常呈現 6 至 70 分左右；而 Flesch–Kincaid Grade Level 則是求出的數值越高，代表該閱讀的文本難度越難（Graesser, McNamara, & Louwerse, 2004）。 McNamara, Louwerse, & Graesser（2002）鑑於當時美國教科書的分級並不適當，書商編排教科書時，過分依賴傳統可讀性公式，導致文章內容中充滿簡短而不連貫或者是凝聚性很低的句子，造成學生理解上的困難，基於上述原因，發展了線上多. 5.

(14) 文本特徵分析器（Coh-Metrix），希望不僅只依賴字長和句子的長度單一變項來衡量文本的難易，更希望透過詞彙的多樣性、句子的特徵、語意關聯等多層次的分析，描述文本整體的凝聚力，使讀者獲得更具指標與參考的文本選擇依據。. 貳、 Coh-Metrix的重要性 Coh-Metrix 是曼菲斯大學所發展出的一個線上文本分析系統，利用計算語言學、語料庫、信息的檢索等自然語言的分析方法，透過各項指標的計算，來了解文本凝聚力(cohesion)和文本心理表徵的連貫性(coherence)。透過凝聚力，可幫助讀者連結句子、段落及章節間的前後語意，文章不再只是零散的片段，如果句子的連貫性好，文章語意前後一致，文章自然容易閱讀；反之，低凝聚力的文章則語意聯繫連貫較差，推論較為複雜，閱讀起來相對較為困難（Graesser et al., 2011）。所以，凝聚力可說是閱讀理解的重要步驟，能幫助讀者理解，並促進讀者建構文本內容，做更連貫的心理表徵（McNamara et al., 2002）。目前 Coh-Metrix 線上分析系統發展得更趨成熟，內部所使用的分析指標高達 600-1000 個，除可協助教師或家長選擇適合學生程度的閱讀文本外，也可利用各項分析指標區分出文本內容連貫性的高低，學生閱讀如遇到瓶頸，老師可挑選較簡易的文本，讓其輕鬆的閱讀，增強其自信心；反之也可以讓閱讀理解較弱的學生試著挑戰較困難的文本，累積實力（Graesser et al., 2011）。學者 Crossley & McNamara （2009）發現透過 Coh-Metrix 指標中的相對連貫性和詞彙網路提供的訊息，可以區別出將英語視為第一語言和第二語言的作者，二者間寫作風格上的差異；不僅如此， Coh-Metrix 也可以提供研究人員和教師詳細的統計資訊，有效的教導第二語言的寫作，學生依據分析資料可以找出自己寫作方面的優點和缺點，進而修改寫作策略和風格（Yasemin & İhsan , 2012）。由上述所知，Coh-Metrix 自動化分析系統可提供五個分析面向，分別為文字（words）、句法（syntax）、明確的文本基礎（the explicit textbase）、情境模式（the. 6.

(15) situation model）及話語的風格和修辭結構（the discourse genre and rhetorical structure），藉由這些面向的分析結果，可以提供使用者一個選擇文本的重要參考依據，找出適合自己程度的文章做閱讀或做為教師在教學第一線的輔助工具。. 參、 Coh-Metrix 分析指標 Coh-Metrix 線上分析系統利用多項指標分析文本在國外推廣已久，目前最新的 Coh-Metrix 3.0 版本指標已建置完畢，使用介面如圖2-1-1，而 Coh-Metrix 3.0 版本除原既有指標外，又添加更多分析元素，指標主要可區分成十一大類，如表2-1-1所示，分別為描述性、文本適讀性構成分數、潛在語意分析、詞彙多樣性、關聯詞、情境模式、詞彙資訊及可讀性等多樣性指標，透過這些指標的分析，可以更加瞭解文本多元的面向及其更深層的意涵。本研究參考Coh-Metrix 2.0 版本及 3.0 版本的指標，就詞彙訊息（word information）的類別，發展文章特性中詞頻與詞彙兩部分之相關指標，其中詞頻指標的部分包括所有詞詞頻、實詞詞頻與每句詞頻最小值，詞彙的部分為每句平均詞彙數，期望透過最基礎的詞彙訊息的指標了解與文本的相關性。. 7.

(16) 圖2-1-1. Coh-Metrix 3.0 介面. 資料來源：http://cohmetrix.memphis.edu/cohmetrixpr/index.html. 表2-1-1 種類. Coh-Metrix 3.0 版本指標指標項目. 個數. 1. 描述性(Descriptive). 11 個. 2. 參照擬聚力(Referential Cohesion). 10 個. 3. 潛在語意分析(LSA). 8個. 4. 詞彙多樣性( Lexical Diversity). 4個. 5 6. 文本適讀性分級(Text Easeability Principle Component Score) 關聯詞(Connectives). 7. 情境模型(Situation Model). 8 9 10. 語法復雜度( Syntactic Complexity) 句型密度(Syntatic Pattern Density) 詞彙訊息(Word Information). 11. 可讀性指標(Readability). 16 個 9個 8個 7個 8個 22 個 3個. 資料來源：McNamara,Graesser,McCarthy, & Zhiqiang Cai(2013). 8.

(17) 第二節詞頻本研究建置的詞頻分析指標，將詞頻分為所有詞詞頻與實詞詞頻，故本節第一部份將針對詞頻的定義做說明，第二部分就詞頻在本研究的分類做一陳述，第三部分就詞頻的重要性，說明與閱讀理解之相關性。. 壹、詞頻的定義曾榮汾（1992）在「常用語詞頻率調查報告序」中將語詞頻率定義為在同一標準下，某一詞語使用次數的多寡比率；詞頻（word frequency）在「中央研究院平衡語料庫詞集及詞頻統計（Word List with Accumulated Word Frequency in Sinica Corpus 4.0）」（1997）中，將其定義為詞項在語料庫中出現的次數，亦即根據每一個詞項在中央研究院平衡語料庫五百萬個詞中出現次數的多寡；柯華葳（2004）也指出詞彙出現的頻率即稱為「詞頻」，且在計算語言學上佔有重要地位。Graesser et al., 2004）指出詞頻就是特定詞語在英語中出現的頻率，其中詞頻的計算為 Coh-Metrix 自動化分析系統內所使用的四個語料庫 CELEX（1995）、 Kucera–Francis norms（1991）、 Thorndike and Lorge（1944）及 Brown（1984）中詞語出現的次數。本研究的詞頻係指詞彙在「兒童語料庫」中出現的次數，兒童語料庫乃根據廖晨惠（2010）之國科會｢以LSA為基礎之電腦化閱讀認知測驗及AutoTutor建置｣計畫（編號：NSC 100-2420-H-142-001-MY3）中所建置的兩萬多個詞彙中出現次數的多寡。. 貳、詞頻的分類詞頻在Coh-Metrix 線上分析系統中，主要依詞彙的使用功能將其區分為內容詞（content word）與功能詞（function word）兩類，內容詞包含名詞、詞彙動詞、形容詞和副詞等，而功能詞則包含介詞，限定詞和代詞等類（Graesser et al., 2004）。中文的語法與英文的語法對詞彙的名稱略有不同，英文的內容詞即為中文語法. 9.

(18) 中的實詞，功能詞即中文語法裡所謂的虛詞。其實在華語中，語詞的分類，各派學者各有各自的見解，一直以來都是長期爭論的問題。一般說來，詞類按詞的語法性質和功能分類，可將其分為實詞和虛詞兩大類，實詞能傳達完整的語意，單獨作為短語或句子的成分，如「書、美麗、上下」等；虛詞則不能傳達完整的語意，没有實在的意義，不能單獨作為短語或句子的成分，但能協助實詞表達意義，使句子更具變化，傳達更豐富的意義、語氣及感情，如「呢、吧、啦、和」等。以下就胡裕樹（1994）、程祥徵與田小琳（1992）及湯廷池（1992）等學者對於詞類的分類整理如表2-2-1。而程祥徵與田小琳將「副詞」歸類為虛詞，胡裕樹及湯廷池則將「副詞」歸類為實詞的一種，且虛詞中不包含「語氣詞」。. 表2-2-1. 詞類分法. 種類. 實詞. 胡裕樹. 程祥徵與田小琳. 湯廷池. 名詞. 名詞. 名詞. 代名詞. 代名詞. 代名詞. 動詞. 動詞. 動詞. 形容詞. 形容詞. 形容詞. 副詞. 數詞. 副詞. 數詞. 量詞. 數詞. 量詞. 虛詞. 量詞. 介詞. 副詞. 介詞. 連接詞. 介詞. 連接詞. 助詞. 連接詞. 助詞. 語氣詞. 助詞. 語氣詞. 感嘆詞. 感嘆詞. 感嘆詞. 擬聲詞. 擬聲詞. 擬聲詞. 10.

(19) 柯華威、陳明蕾與廖家寧（2005）也曾整理詞彙的分類方式，其分類方法一為依詞表達的內容狀態而分，另一類則依詞彙是否表達完整的語意做區分，並參酌中研院平衡語料庫詞類標記集及程祥徵與田小琳（1992）所做的詞性分類，將詞彙分類整理出實詞與虛詞的對應關係及實例，如表2-2-2所列。表2-2-2. 各類詞類標記與虛詞/實詞之對應關係及實例. 現代漢語詞類標記. 虛詞／實詞. 舉例說明. 形容詞. 實詞. 各式各樣. 副詞. 實詞. 會、又、越. 時態標記. 虛詞. 過、了、著. 連接詞. 虛詞. 和、與、由於. 定詞. 虛詞. 這、就是. 量詞. 虛詞. 種、些、個. 名詞. 實詞. 身體、地區. 介詞. 虛詞. 在、被、依. 後置詞. 虛詞. 之間、後、外. 語助詞. 虛詞. 的、了、. 動詞. 實詞. 飛回、準備. 標點符號. 不列入. ，、；。. 資料來源：柯華威、陳明蕾、廖家寧（2005）。詞頻、詞彙類型與眼球運動型態：來自篇章閱讀的證據。. 程祥徵與田小琳（1992）認為從詞的數量看，實詞是開放性的，會隨著時代潮流的演進，人類思維趨於系統化、多樣化，會不斷的創造新的實詞詞彙，以因應時代所需；而虛詞則是封閉性的，數量占所有詞彙僅為少數，新的虛詞產生機會不大。楊惠珍(2012) 分析中年級國語文教科書詞彙，指出3658個詞彙中，實詞類和虛詞類的詞彙量，分別佔全部的詞彙比例為96.4%和3.6%。謝其秀(2012)統計翰林版國語教科書首冊至第四冊裡詞彙詞類，總計共有1287 個詞，以實詞居多，共計有1218個，虛詞則有69個，分別佔全部的詞彙比例為94.6%和5.4%。由此可知實詞的詞彙占所有詞彙的多數。. 11.

(20) 故本研究指標主要先針對所有詞與實詞方面做探究，採用胡裕樹（1994）對詞類的分法，並參考其中柯華威等人（2005）整理的中研院各類詞類標記與虛詞/實詞之對應關係表，將實詞分為名詞、代名詞、動詞、形容詞、副詞、數詞及量詞；虛詞則包含介詞、連接詞、助詞、語氣詞、感嘆詞和擬聲詞。將兒童文本分析系統詞頻指標分為所有詞詞頻、實詞詞頻與詞頻最小值做探討，藉以了解實詞詞頻與所有詞詞頻之不同，同時找出每句詞頻最小值，進一步探討詞頻指標與閱讀理解之相關。. 參、詞頻與閱讀理解之關係國外學者 Klare（1963）曾提出詞頻是最常用來當做字彙困難度的一個指標，詞頻可說是影響可讀性之重要因素，從 LaBerge & Samuels（1974）的自動化理論（Automaticity Theory）以及 Perfetti（1985）的字彙效率論（Verbal Efficiency Theory）中得知，當一個詞出現的頻率愈高，就表示這個詞彙較常出現，讀者也較為熟悉。也有許多文獻指出詞頻愈高，代表讀者對於文章的熟悉度加深，理解能力自然相對提升（Beck,McKeown, & Kucan, 2002）。在國內的研究，柯華葳（2004）指出詞頻在計算語言學上佔有重要地位，鄭錦全（2005）在詞彙語意語句子閱讀難易計量一文中，亦證實一篇文章中，句子詞語出現的頻率越高，則文章越容易閱讀。所以當一篇文章內所使用的詞彙都是讀者所熟悉或常用時，那對文章理解力自然愈佳，文章的難度相對降低；反之，一篇文章中如果所使用的詞彙都是讀者不常見或較為艱深的罕見詞彙，則代表文章難度較高，讀者對文章理解力相對下降，自然不易閱讀。綜上所述，可得知詞頻有助於我們對該詞彙難易度的了解，詞頻越高者代表該詞彙出現次數較多，在日常生活的使用越頻繁，兒童較常見且較容易理解；詞頻越低者代表該詞彙出現在日常生活中的次數較少，兒童比較不易了解該詞彙的意義。所以藉由詞頻的分析，不僅能判斷出詞彙的難易度，對於文本難易度的評估占有重要的地位，同時與閱讀理解也有著極密切的關聯性。. 12.

(21) 第三節詞彙本節第一部份就詞彙的定義做說明，第二部分陳述詞彙量的發展，第三部分則針對詞彙的重要性，說明與閱讀理解之相關。. 壹、詞彙的定義詞彙（Vocabulary）是所有的詞和成語的總和，生活上接觸到的任何詞和用語皆包含在詞彙的範圍內，是用來辨別、判斷兒童語言能力的一個重要指標，更可以說是兒童邁向對外界事物與象徵符號結合的第一步（German, 2000），教育部（2000）在『國小學童常用字詞調查報告書』中，將詞彙界定為語句中具有完整概念，且能獨立自由運用的基本單位，此項跟研究閱讀歷程的心理學家所提出的：詞彙是讀者閱讀時最基本的意義單位的概念不謀而合。魏金財（1997）也認為識字、識詞是閱讀的基礎，詞彙的認識與學習是閱讀理解書面語言的必要條件。. 貳、詞彙量的發展「詞彙」（vocabulary）可視作語言發展的里程標誌外，更是奠定語言能力之基石。詞彙數量的增加是學齡前幼兒語言發展的特徵，國外學者Owens（2005）研究指出兒童從三歲起，隨著頻繁的人際互動以及生活經驗的增加，其詞彙理解、詞彙表達能力會迅速擴展。Hulit & Howard（2006）的研究指出詞彙數量會隨著年齡增長而增加，大約6歲時的詞彙量可達上萬個左右。Otto ( 2006 )認為兒童隨著年紀增加，發展出的詞彙種類以及數量也隨之快速成長。有關兒童詞彙數量增加的情況，Reed （2005）就學齡前幼兒表達詞彙量的增長情形整理如表2-3-1。而南美英（2007）指出小學生的詞彙量在理解書中的內容發揮關鍵的作用，豐富的詞彙量可以使想像、批判、推理、判斷、解決問題等變得可能。從上述研究來看，詞彙量對語言發展的重要程度，及其會隨著兒童年級的增長或認知程度愈高，詞彙量有增加的趨勢。. 13.

(22) 表2-3-1. 學齡前幼兒表達詞彙量的增長情形約莫年齡 15 個月大 18 個月大 20 個月大 2 歲 3 歲 4 歲 5 歲 6 歲. 表達詞彙量的大約數字 10 50 150 120-300 1000 1600 2100-2200 2600-7000. 資料來源：Reed ,V. A.(Ed.). (2005). An introduction to Children with Language Disorder(3rd ed). Boston, MA:Pearson/ Allyn & Bacon. 反觀國內文獻中，探討詞彙數量的文獻並不多見，大部分是針對學齡前兒童語言發展所做的研究，其中蔡宜芳( 2009 )以台北市三至五歲142位兒童為分析對象，就其選取的語言樣本研究，發現隨著年齡的增長，兒童平均語句的詞數會有增加的趨勢，而佘永吉( 2006 )收集二至六歲共80位學齡前兒童的口語詞彙資料，結果也顯示兒童的總句數、總詞數及語句平均長度，均會隨著年齡的增加而有遞增的情形。. 參、詞彙與閱讀理解之關係詞彙在閱讀理解的過程中扮演一個重要的角色，讀者在閱讀文章時，必須以詞彙為基礎才能更進一步了解文章內涵，關於詞彙與閱讀理解之間的關係，國外文獻有一些相關研究，Thorndike（1973）指出詞彙量與閱讀理解有.66至.75的正相關，詞彙量的獲得來自於閱讀的經驗，詞彙知識在閱讀理解中扮演著重要的角色（引自 Aaron & Joshi, 1992）。Aaron & Joshi (1992）研究指出能力較好的讀者比能力較差的讀者有較多的詞彙量，詞彙量多閱讀理解愈佳，自然能廣泛閱讀增加更多的詞彙量，形成所謂的馬太效應（Matthew Effect）。Bernstein（1993）的研究也指出詞彙與一般的語言能力、學業成就有高度相關，詞彙量多的兒童不僅可以理解與表達更複雜的思想，也可以在讀寫上有較好的表現。Foorman,Anthony,Seals & Mouzaki（2002）. 14.

(23) 也發現5歲以上的兒童能藉由文章的閱讀累積本身的詞彙量，透過閱讀的過程增進推理能力，兒童詞彙量多寡不僅影響其對詞彙意義的判斷與推理，也同樣影響閱讀的表現。而國內文獻針對詞彙與閱讀理解的相關研究，其中周台傑（1993）針對國小一至六年級學生編製的「國民小學國語文成就測驗」中，結果發現三年級學生之詞彙與閱讀理解的相關為.7，所以詞彙與閱讀理解是有相關的。吳敏而、魏金財、趙鏡中（1998）的國民小學兒童常用字詞彙資料庫之建立與初步分析（Ⅲ），該研究針對國小二年級至國小六年級每個年級開始出現的詞彙數量及內容作探討，除四年級增加出現的詞彙數特別突出外，其他年級學生都呈等級成長增加的現象，平均每年約成長3950個。方金雅（2001）的研究以台灣地區北、中、南、東共計九校376 位國小二年級學生為研究對象，指出詞彙能力、認字能力都和閱讀理解能力有密切的關係，其中詞彙能力與閱讀理解力有.7的高度相關。吳淑娟（2001）也發現書面詞彙能力不僅與識字能力達顯著相關，且在書面詞彙意義表達、書面詞彙意義理解上也與閱讀理解能力達顯著相關。由上述文獻得知，詞彙是閱讀理解的媒介工具，人們透過它來理解文章，兒童的詞彙能力會伴隨認知能力成長，累積大量詞彙，在閱讀理解的過程中扮演著重要的角色，詞彙量的多寡與閱讀理解有著高相關，所以詞彙量的多寡在閱讀理解及文章的難易度上扮演著舉足輕重的角色。. 第四節閱讀理解鄭昭明 ( 1987 ) 在「認知心理學與教學研究」一書中指出，兒童早期接觸書本時，是以學習閱讀為主，隨著年齡的增長，以閱讀為工具進行學習，即所謂的「藉閱讀而學習」，所以閱讀可以說是一切學習的基礎。故本小節分從閱讀理解的意義、閱讀理解層次、閱讀理解的發展與閱讀理解模式四方面加以說明。. 15.

(24) 壹、閱讀理解的意義 Gagne & Yekovich（1993）認為閱讀理解係指閱讀文章時，能夠正確理解句子與文章意義的能力，閱讀可分為解碼、文義理解、推論理解與理解監控四個階段，而賴明貞（2004）採訊息處理的觀點，說明閱讀理解是讀者將文章訊息與既有認知「基模」（schema）產生互動，進而建構意義的一種能力。因此，閱讀理解可說是一個包括讀與寫、背景知識、經驗、思考和教學的認知過程。. 貳、閱讀理解的層次基本上，閱讀是極複雜的認知歷程，包含識字與理解兩大成分，閱讀的最終目標在理解，而理解的基礎在識字（柯華葳，1993）。Pearson 和 Johnson（1978）指出閱讀理解可包含三個不同層次的理解，分別為：表層文意的理解、深層文意的理解與涉入個人經驗的理解。Swaby（1989）則認為理解是一種技能的表現，又可分成字義的、推理的、評鑑的以及批判的四個層次的理解。Pressley（2000）的研究中將閱讀理解分為字彙理解與文章理解兩個層次。促進國際閱讀素養研究（Progress in International Reading Literacy Study，簡稱PIRLS）則將理解層次分為直接提取、直接推論、詮釋整合和檢驗評估四個層面。從上述文獻可知，閱讀理解除低層次的認字、字義歷程外，也需具有較深層的推理、評鑑歷程，與讀者的先備知識與經驗，才能對閱讀的文本有完整且充份的理解，本研究採用PIRLS閱讀理解層次編製中高年級閱讀理解測驗並進行相關研究。. 參、閱讀理解發展階段 Chall（1983）認為閱讀是技巧與能力的組合，會隨著發展而有所改變，不同年齡的閱讀行為不盡相同，故將兒童學習閱讀歷程分成零到五共六個階段，而Gunning. （1996）也將閱讀區分為五大發展階段，每階段的學習都循序漸進的有其關連性，透過階段的成長，一邊累積識字量、學習語用能力，一邊學習如何透過閱讀掌. 16.

(25) 握資訊，從「learn to read」轉換到「read to learn」的關鍵期。茲整理如表2-4-1。表2-4-1 閱讀理解發展階段學者階段閱讀發展階段特徵（年代） Chall 前閱讀階段，0-6 歲，屬萌芽期（1983）階段零可以認出街上、電視上的商標或符號也認識一些字無法藉認得的字做閱讀識字階段，6-7 歲階段一. 開始辨認字以已知的知識來讀字流暢階段，7-8 歲. 階段二. 認識不少字，解碼能力持續進步中透過閱讀來熟悉所認識的字及熟練識字的能力閱讀新知階段，9-14 歲. 階段三. 此階段開始，兒童可以透過閱讀獲取知識閱讀者的字彙發展急遽成長閱讀多元觀點的階段，14-18 歲可透過閱讀增加知識，也增加其對一件事物的不同看法具形成性批判反應. 階段四. 階段五 Gunning （1996）. 階段一階段二階段三. 階段四. 階段五. 建構與重組階段，18 歲以上可讀不同論點的文章，還可分析、綜合及批判前閱讀期，0-6 歲快速發展聽覺語言能力，為閱讀打下基礎閱讀初期或解碼期，6-7 歲，一至二年級開始明瞭文字與語音之間的聯結對應關係文字確認期，7-8 歲，二至三年級識字能力變得更為快速、自動化初階新知閱讀期，8-14 歲，四年級易中學透過閱讀活動而學習(read to learn)的階段，是學童閱讀發展過程中最具關鍵性的時期。多元觀點期，中學以上開始由閱讀的內容中理解事物的組織原則和系統資料來源：Chall (1983) & Gunning (1996). 17.

(26) 透過上述的閱讀理解發展歷程可知，大致閱讀理解發展階段會從聽覺語言、聲韻覺識、識字解碼、閱讀流暢、閱讀新知到多元觀點閱讀，學生通常在國小四年級開始，就可以透過閱讀而主動學習知識，並在認字方面已達自動化能力，故本研究對象特以四年級與六年級的學童做為主要研究對象，因其已具備基礎的閱讀理解能力。. 肆、閱讀理解模式閱讀理解模式大致歸納為三類：一為著重文字解碼歷程的由下而上模式（Bottom-up model）、二為理解歷程的由上而下模式（Top-down model）與三是交互作用模式（Interactive model），後來Kintsch（1988）又提出「建構統整模式（Construction-integration model）」理論（引自連啟舜，2002），此乃屬於一種循環模式。茲將此四種模式，分述如下：一、由下而上模式( Button-up Model ) 由下而上模式是是資料導向模式，是依據行為主義理論發展而來的，以P. B. Gongh 為其代表，強調文字與句子解碼的過程，亦即此閱讀歷程應從語言中最小最有意義的成份(如字詞的辨識)，再慢慢擴充到句子，而後才理解文章的意義，是一種循序漸進的理解（Gough ,1972），故又稱文章本位模式（text-based model），此模式遇到高層次（如預測、推理）的理解活動將無法處理，通常低年級兒童開始學習閱讀，基本上採取此一模式。二、由上而下模式（Top-down Model）由上而下模式是概念導向模式，又稱讀者本位模式，根據完形心理學理論發展而來的，以K. S. Goodman為代表，認為閱讀是個動態過程，讀者通常以較高層次的知識來處理較低層次的訊息。即強調閱讀是利用既有知識預測建構文章的意義，也就是說閱讀不是單純字詞問題，讀者的背景、先備知識及後設認知能力皆會影響對閱讀的理解（洪月女譯，1998）。在此模式中，強調文章的結構和意義都是由閱讀. 18.

(27) 者主動建構，且於閱讀中運用有效的策略來尋找文本的意義（李燕妮，2007）。三、交互模式( Interactive Model ) 交互模式是根據認知心理學及建構心理學的理論發展而來的，以D. E. Rumelhart 為其代表，認為閱讀是一個主動的歷程，經讀者、文章與閱讀情境三因素的交互影響而達成閱讀理解。意即這種互動模式並不把訊息的流動界定為單一方向，強調閱讀是一種交互歷程（柯華葳，1993），並非只是由下而上或由上而下的單向歷程，而是將較低層次的認知處理和較高層次的認知處理，同時進行且相互協助的歷程。此交互模式是一種讀者因文本自我調整的一種閱讀模式（韓順進，2006）。四、建構統整模式（construction-integration）建構統整模式亦即所謂的「循環模式」（ recycling model），強調閱讀理解是一種循環的而非直線的運作過程（柯華葳，1995）。此模式認為理解文章的過程是一種心理表徵不斷地被建構與統整的循環歷程，假定讀者是以命題（proposition）來進行文章分析，每看到文章中的一個字，就會對這個字產生解釋，而這個解釋又會對下一個字產生期望，而期望又和下一個字結合而產生命題，最後將整個段落的所有命題加以統整進而對文章的意義產生理解（Kintsch，1988）。因此，解字、形成命題、統整三者不斷循環，直到讀者完全理解文意為止，所以這是一種不斷建構與統整的過程。綜合上述四小節文獻探討，得知詞彙在閱讀理解的過程中扮演著重要的角色，詞彙量的多寡與閱讀理解有著高相關，南美英（2007）在「晨讀十分鐘」一書中提到，增加詞彙量是二十一世紀閱讀教育發展的重點項目。而張郁雯（1994）指出詞彙出現的頻率愈高，表示越常用，在詞彙分級上就歸於比較基礎的級數；反之，詞彙出現的頻率越低，則表示越少使用，屬於難度較高的詞彙，此也說明詞彙與詞頻兩者間的相關。如此看來，閱讀理解在兒童的閱讀過程中扮演著重要的角色，詞彙與詞頻在閱讀理解的過程中又是不容忽視的要素，因此，本研究探討詞頻、詞彙指. 19.

(28) 標與文本難易度間的關聯性，進而了解與閱讀理解之相關性是必要的。. 20.

(29) 第三章研究方法本研究目的是發展詞頻、詞彙的自動文本分析指標與兒童文本自動化分析系統建置，並分析國小文本詞頻、詞彙指標與年級之趨勢，檢視各指標與中高年級文本理解測驗之關係。故本章節依序為研究流程、兒童文本分析系統、研究工具、研究對象與資料處理與分析，茲分述如下：. 第一節研究流程本研究之研究流程如圖 3-1-1 所示，先蒐集線上文本分析系統 Coh-Metrix、詞頻、詞彙與閱讀理解之相關文獻並做探討，接著發展詞頻與詞彙之中文文本分析指標，而後對於詞頻、詞彙分析指標進行評估，最後進行資料樣本的蒐集，完成後進行資料分析，並撰寫研究報告及提出研究結果與建議。. 21.

(30) 相關文獻閱讀. 建置詞頻詞彙指標. 評估詞頻詞彙指標. 資料樣本蒐集. 資料分析與整理. 評估指標成效. 撰寫研究報告提出結果與建議. 圖3-1-1 研究流程. 第二節兒童文本分析系統本小節分為三部分，第一部分就研究指標的建置流程做說明，第二部分說明兒童文本分析指標的意義及計算方式，第三部分介紹兒童文本分析系統。. 壹、指標建置流程本研究詞頻、詞彙指標建置流程，如圖 3-2-1 所示。首先為文本的蒐集，所使用. 22.

(31) 的文本來源為廖晨惠（2010）之國科會｢以 LSA 為基礎之電腦化閱讀認知測驗及 AutoTutor 建置｣計畫（編號：NSC 100-2420-H-142-001-MY3）所建置的國小兒童語料庫，文章收錄自經授權之國小一至六年級教科書與兒童相關讀物共 945 篇。文本蒐集. 中研院第一階段斷詞. 第二階段斷詞. 詞頻詞彙數指標計算. 評估指標成效圖3-2-1. 詞頻詞彙指標建置流程. 本研究採中央研究院數位典藏國家型科技計畫建置之中文斷詞系統，完成初步斷詞，但檢視中研院初步斷詞後的語句，發現部分詞類標記與現代漢語不甚相符，例如「燦爛的星空」一句，中研院斷詞的結果為快樂－的－成長（動詞－介詞－名詞），但實際用法應為快樂的－成長（形容詞－名詞），故就中研院的斷詞規則篩選出需再做第二階段斷詞的句型，將其修改後的詞類標記與範例說明整理如表3-2-1、表3-2-2，做為第二階段斷詞之依據，以完成本研究兒童語料庫文本之斷詞。. 23.

(32) 表3-2-1 修改中研院精簡詞性後斷詞標記規則列表編號中文斷詞系統詞性標記修改後詞性標記 (Vt) (Vi) (N) (Vt) (ADJ) (N) 1 (Vi) (T) (Vt) (ADV) (Vt) 2 (Vt) (T) (Vt) (ADV) (Vt) 3 4 (Vt)(Vi)(N) (Vt)(ADJ)(N) 5 (Vi) (Vi) (Vt) (Vi) (ADV) (Vt) 6. (ADV) (Vi) (ADV) (Vi) (POST). 表3-2-2 編號 1 2 3 4 5 6. (ADV) (ADJ) (ADV) (ADJ) (POST). 修改中研院精簡詞性後斷詞標記範例說明中研院斷詞系統完成斷詞修改斷詞規則後斷詞設立(Vt) 新(Vi) 工廠(N) 設立(Vt) 新(ADJ) 工廠(N) 穿針引線(Vi) 的(T) 繡(Vt) 穿針引線的(ADV) 繡(Vt) 意想不到(Vt) 的(T) 發現(Vt) 意想不到的(ADV) 發現(Vt) 是(Vt)小小(Vi)發明(N) 是(Vt)小小(ADJ)發明(N) 動動腦(Vi) 仔細(Vi) 觀察(Vt) 動動腦(Vi) 仔細(ADV) 觀察(Vt) 很(ADV) 久(Vi) 很(ADV) 久(Vi) 很(ADV) 久(ADJ) 很(ADV) 久(ADJ) 以前(POST) 以前(POST). 貳、兒童文本分析指標本研究之兒童文本自動化分析指標乃參考 Coh-Metrix 指標，針對所欲探討的詞頻與詞彙文字訊息部分，建置「所有詞詞頻」、「實詞詞頻」、「每句詞頻最小值」及「平均詞彙數」四個分析指標，茲就研究指標敘述如下：一、詞頻部分本研究的詞頻是指詞彙在「兒童語料庫」中出現的次數，語料庫乃根據廖晨惠（2010）之國科會｢以 LSA 為基礎之電腦化閱讀認知測驗及 AutoTutor 建置｣計畫（編號：NSC 100-2420-H-142-001-MY3)中所建置的兩萬多個詞彙，詞頻指標的部分可分為「所有詞詞頻」、「實詞詞頻」及「每句詞頻最小值」三個指標。 (一) 所有詞詞頻：指一篇文章中所有的詞彙在『兒童語料庫』中出現的次數，並取其對數。. 24.

(33) 所有詞詞頻= log.  每個詞出現的頻率  詞彙數. (3.1). (二) 實詞詞頻：指所有詞彙刪除所有虛詞的種類後所得到的詞彙在『兒童語料庫』中出現的次數，本研究虛詞涵蓋介詞、連接詞、助詞、語氣詞、感嘆詞和擬聲詞，其最後所獲得的詞彙數取對數即為實詞詞頻。. 實詞詞頻= log.  實詞出現的頻率  實詞詞彙數. (3.2). (三) 每句詞頻最小值：每篇文章中，比較一句話中所有詞彙在兒童語料庫出現的頻率，將每一句話裡最小的詞頻找出，求其平均值，並取對數。. 每句最小詞頻每句詞頻最小值= log . 句數. (3.3). 在 Coh-Metrix 中詞頻的計算通常都採對數呈現，取詞頻的對數會與閱讀的時間呈線性關係(Graesser et al., 2004)，故本研究所有詞詞頻、實詞詞頻、每句詞頻最小值指標之計算方式亦採取對數的方式。. 二、平均詞彙數：指將句子中所有的詞彙相加，除以每篇文章中所有句子數，即為每句平均詞彙數。. 平均詞彙數=.  所有句子詞彙總數 句數. 25. (3.4).

(34) 參、兒童文本分析系統國立臺中教育大學教育測驗統計研究所發展的兒童文本分析系統，目前的分析指標包含詞頻與詞彙訊息部分、文章的連貫性、詞彙習得年齡、詞彙多樣性、連接詞等五類，操作者介面如圖 3-2-2 所示，針對使用者欲分析的文章，經中研院斷詞系統做第一階段斷詞處理，而後進行第二階段斷詞修改後，勾選欲分析的指標，即可開始文本內容自動化分析，其操作步驟說明如下：步驟一：輸入欲分析文章基本資料 1. 文章標題 2. 資料來源 3. 文章內容步驟二：選擇欲分析的衡量指標步驟三：開始文章分析. 26.

(35) 圖3-2-2. 兒童文本分析系統介面. 以國語科「幸福的味道」一文為例，經兒童文本分析系統處理後，結果呈現如圖 3-2-3 所示。針對「幸福的味道」一文所選取的詞頻詞彙指標做分析，可得到所有詞出現的頻率為 8.539、實詞出現的頻率 7.578、每句詞頻最小值為 4.228 及平均詞彙數為 7.409。. 27.

(36) 圖3-2-3 文本自動化分析結果介面. 第三節研究工具本節就研究所需的工具加以介紹，包含兒童語料庫、斷詞系統、電腦軟體工具以及中高年級文本理解測驗。. 壹、兒童語料庫本研究之兒童語料庫為廖晨惠（2010）之國科會｢以 LSA 為基礎之電腦化閱讀認知測驗及 AutoTutor 建置｣計畫（編號：NSC 100-2420-H-142-001-MY3）中所建置完成之語料庫。其語料庫來源為國民小學一至六年級教科書及經授權之國語日報等文章 945 篇，共計兩萬多個詞彙。. 28.

(37) 貳、斷詞系統本研究採用中央研究院數位典藏國家型科技計畫建置之中文斷詞系統，進行兒童語料庫內容斷詞，作為詞頻詞彙指標之建置參考依據。此中研院斷詞系統為涵蓋約 10 萬個詞彙的大型語料庫，並提供詞類、詞頻、詞類頻率等相關資料供參考。本研究即使用該線上系統提供的精簡詞類做為兒童語料庫詞類標記之依據，進行第一階段的斷詞，而後就需要修改的斷詞規則做第二次階段斷詞，完成兒童語料庫文本斷詞作業。. 參、電腦軟體工具本研究所使用的軟體工具做茲介紹如下：一、 MATLAB 軟體工具針對研究指標「所有詞詞頻」、「實詞詞頻」、「每句詞頻最小值」及「平均詞彙數」，利用 MATLAB 程式工具撰寫程式，並做趨勢之分析與探究。二、 SPSS 軟體工具本研究量化資料採用描述性分析、皮爾遜積差相關及迴歸分析做探討。. 肆、中高年級文本理解測驗本研究之中高年級文本理解測驗乃由國立臺中教育大學測驗統計與適性學習研究中心所編製，相關題本內容及資料請參閱郭伯臣、廖晨惠、楊裕貿、白鎧誌、陳文蘭、陳建宏、黃勇媜、蔡亞韋、蔡筱倩、李湘瑩、葉靜如(2013)之中高年級文本理解測驗技術報告及陳建宏（2013）之兒童文本詞類指標分析系統建置與應用。 (一) 題本依據本研究之「中高年級文本理解測驗」，選自民國七十八年出版的國立編譯館編版四年級和六年級的國語科教科書，刪除新詩類、故事類、劇本類等文章類型，根據文本自動分析系統所計算之各項指標數據，擷取八篇文章，其中記敘文與非記敘文各四篇，測驗內容係參考「促進國際閱讀素養研究」（PIRLS）中的四個閱讀理. 29.

(38) 解層次架構為依據，分為低層次的直接理解歷程與詮釋理解歷程，作為編製本研究閱讀測驗之參考。 (二) 測驗編製過程本研究之「中高年級文本理解測驗」，依文本內容編製試題，經過七位任教於國民小學，平均年資長達十年以上之現任教師及三位大學教授討論，根據閱讀理解概念層次共同編審，測驗編製經過預試，預試結果將鑑別度不佳的題目刪除，原為題數 53 題，再次修正文本與試題內容，最後形成正式題本共 44 題。 (三) 題本類型中高年級文本理解測驗題本類型，係參考 PIRLS 閱讀理解－直接提取、直接推論、詮釋整合和驗評估四個層次命題，每一篇文章施測題目平均題數為五題，整份文本理解測驗共計四十四題，採單一選擇題方式作答。 (四) 信效度本測驗之信度 Cronbach α達 0.85，任一試題被刪除後，並不影響題本的信度，而信度係數值依據 Carmines & Zeller（1979）所認為優良教育測驗信度值應達到 0.8 的標準值之上，表示此份測驗內容具一致性及時間穩定性。在效度方面，本測驗經過七位任教於國民小學，平均年資長達十年以上之現任教師及三位大學教授討論，試題乃參考 PIRLS 閱讀理解概念層次共同編審，檢視確定本測驗題目的適切性，且與閱讀理解具有關聯性，故本測驗兼具良好的表面效度及內容效度。 (五) 試題分析本測驗將從古典測驗理論（Classical test theory，CTT）和試題反應理論（Item response theory，IRT）的角度分析試題，後續探討之研究亦將依此兩種測驗理論進行比較，故介紹古典測驗理論與試題反應理論如下。. 30.

(39) 1.古典測驗理論（CTT）古典測驗理論主要是以整份測驗的觀點，來解釋測驗分數的涵義。因此，對學生或受試者的測驗分數的看法，是以各試題得分加總之後的總分做為代表，單獨一道試題的得分，不具可做為獨特的解釋價值，較缺乏數學理論基礎。其主要的理論學說依據如公式3.5，其中χ為測驗分數，t為真實分數，e為誤差分數： χ  t +e. (3.5). 古典測驗理論中的難度(item difficulty)，即代表該題的通過率，也就是所有受試者中答對該題的百分比，以數學式表示： Pi . ni N. (3.6). 其中 Pi 是答對題項 i 的百分比，N 是所有受測人數，ni 是答對該題的人數。通過率值愈大表示愈多人答對該題，即該題愈簡單。而古典測驗理論中的鑑別度(item discrimination)中，通常有鑑別度的試題應該與整個測驗的走向是一致的，也就是說測驗分數高的受試者要比測驗分數低的受試者答對較多試題，否則此題目並不能反應出受試者的能力，以數學式表示試題鑑別度如下： D = PH－PL. (3.7). P H：高分組受試者在個別試題上通過人數的百分比 P L：低分組受試者在個別試題上通過人數的百分比基本上 D 值愈大，表示試題愈能鑑別出高、低分組的受試者，並且個別試題與測驗總分的一致性愈高。(余民寧，2009) 2.試題反應理論（IRT）試題反應理論是當代測驗理論的代表，其理論主要是以個別試題的觀點，來解釋測驗分數的涵義。認為學生在某試題上的表現情形，與其潛在特質（即能力）之間具有某種關係存在，該關係可以透過一條連續性遞增的數學函數來表示，這個數. 31.

(40) 學函數稱為「試題特徵曲線」（item characteristic curve，簡稱ICC），茲舉一個典型的「三參數對數型試題反應模式」（three-parameter logistic model，簡稱3PL）為例，說明學生的能力與試題特徵曲線之間的關係如下： Pi ( )  ci . (1  ci ) 1  exp ai (  bi ). (3.8). 其中，  是受試者的能力，Pi(  )是能力  的受試者答對題項 i 的機率，b i 是題項的難度，鑑別度為 ai，可猜測度的機率為 ci。. 在試題反應理論所採用的試題參數不會受樣本的影響，亦即難度鑑別度及猜測度的獲得不會因受試者的樣本不同而有不同（余民寧，2009）。 3.難度鑑別度分析從古典測驗理論的觀點，整份文本試題難度分布的情形，其中試題難度小於 0.3 的題目占百分之七，試題難度在 0.3 與 0.7 區間的題目占百分之六十八，試題難度大於 0.7 的題目為百分之二十五，整份測驗的平均難度達 0.6，顯示此份試卷的難度適中。而試題鑑別度分布的情形，其中鑑別度小於 0.22 的題目占百分之九，鑑別度在 0.2 與 0.4 區間的題目占百分之三十二，鑑別度大於 0.4 的題目為百分之五十九，整份測驗的平均鑑別度為 0.43，表示此份測驗的鑑別度相當良好。依 BILOG-MG 軟體所計算出的試題反應理論三參數，鑑別度、難度及猜測度數值表，其中鑑別度為0.768，表示此份測驗具不錯的鑑別性，難度為0.112，屬中等難度，而猜測度為0.23，頗具合理性。詳細數值資料參考中高年級文本理解測驗技術報告(郭伯臣等，2013)及兒童文本詞類指標分析系統建置與應用（陳建宏，2013）。綜而言之，在古典測驗理論中，試題的難度參數及鑑別度參數，會因參與試題作答的學生能力分配的不同，而獲得不一樣的結果，是種樣本依賴的指標；而試題反應理論中，則具有參數不變的特性，不受樣本影響，不會因為受式樣本的不同而獲得不一樣的估計結果，可提供有意義的比較。. 32.

(41) (六) 學生能力分析 1.受試學生在不同年級閱讀理解測驗之通過率本研究以獨立樣本 t 檢定檢視四、六年級學生在不同年級閱讀理解測驗之通過率是否達顯著差異。在古典測驗理論中，四、六年級學生對於四年級、六年級及全部文本的通過率皆有顯著差異，且六年級學生的通過率皆高於四年級學生的通過率，表示六年級學生在閱讀理解的能力優於四年級學生。在試題反應理論，四、六年級學生對於四年級、六年級及全部文本的通過率同樣具有顯著差異，表示六年級學生在閱讀理解的能力確實優於四年級學生。故得知在試題反應理論抑或古典測驗理論，六年級學生在不同年級文本中的表現皆優於四年級的學生，此與錡寶香（1999）探討四、六年級學童閱讀理解能力之發展，高年級學童在文章中基本事實、抽取大意、分析比較和推論等閱讀理解層次能力皆優於中年級學童的論點一致，根據閱讀能力發展理論，兒童的閱讀能力會隨年齡的增加而增長，年級越高的學童其閱讀能力應高於年級較低的學童，此點亦證明本研究之中高年級閱讀理解測驗確實可以鑑別出四、六年級的學生能力。 2.受試學生與閱讀理解層次本研究使用皮爾遜積差相關探討直接提取、直接推論、詮釋整合及檢驗評估四個層次題型與不同年級受試學生通過率之相關程度。根據結果顯示，學生在閱讀理解直接提取、直接推論、詮釋整合及檢驗評估的題型上，四年級學生、六年級學生或全部學生皆呈顯著高度相關，在古典測驗理論中rCTT 介於.939和.989之間，試題反應理論rIRT 介於.966和.999之間。由受試學生的文本通過率結果可歸納出，不論是四年級、六年級及全部學生，其與直接提取、直接推論、詮釋整合及檢驗評估四個層次題型的相關係數，皆呈高度正相關，顯示在不同理解層次中，中年級學生通過率高的文章對高年級受試學生及全部學生而言，也會是通過率高的文章，且本研究分析結果發現試題反應理論的. 33.

(42) 相關程度皆高於古典測驗理論。. 第四節研究對象本研究之閱讀理解測驗方式採紙筆測驗，以團體施測進行，作答時間為四十分鐘。其受試學生樣本取自臺中市八所國民小學四、六年級學童，共計三十三班，現今學校多採S型常態編班，學童的學習能力與先備知識皆呈常態分布，排除智能障礙和情緒障礙的學童，有效樣本共計796名，其中四年級學生371名，六年級學生425 名。本研究以臺中地區的國小四、六年級學童為研究對象，採立意抽樣，不適宜將研究結果擴展至其他地區的學生。. 第五節資料處理與分析本研究量化資料採用SPSS. for Window 進行分析，其各資料處理分析方法說. 明如下。統計方法包括描述性統計、積差相關與迴歸分析，其分析說明如下。. 壹、描述性統計描述不同年級的受試學生在中高年級文本理解測驗中通過率的情形，如平均值、標準差、最大值及最小值。. 貳、皮爾遜積差相關（Pearson product-moment correlation）本研究旨在探討詞頻、詞彙指標在閱讀理解能力的重要性，使用皮爾遜積差相關比較詞頻、詞彙指標與閱讀理解能力之相關程度，探討項目如下： (一) 檢視詞頻、詞彙指標與兒童語料庫年級之相關程度。 (二) 檢視詞頻、詞彙指標與文本理解測驗通過率之相關程度。 (三) 檢視詞頻、詞彙指標與閱讀理解層次之相關程度。. 參、迴歸分析(Regression Analysis) 本研究使用一般迴歸與逐步多元迴歸分析，探討的項目如下： (一) 檢視詞頻、詞彙指標在一般迴歸中對於年級之預測效果。. 34.

(43) (二) 檢視詞頻、詞彙指標在逐步多元迴歸中對於年級之最佳預測模式。. 35.

(44) 第四章研究結果與討論本研究成果可分為五大部分，第一節為兒童語料庫詞頻、詞彙指標與年級之趨勢分析。第二節為檢視詞頻詞彙指標，預測文本適讀年級，並評估其成效。第三節為受試學生題本通過率與詞頻、詞彙指標分析。第四節為閱讀理解層次與詞頻、詞彙指標之分析。第五節檢視高低分組受試學生在閱讀理解層次之表現。茲將研究成果分別敘述如下。. 第一節. 兒童語料庫趨勢分析. 本研究詞頻與詞彙指標分析，係根據兒童語料庫一至六年級國語科電子文本，利用臺中教育大學教育測驗統計研究所發展之兒童文本分析系統，就文章內容分析其「所有詞詞頻」、「實詞詞頻」、「每句詞頻最小值」及「平均詞彙數」四項，將各年級指標分析結果歸納整理，並與 Coh-Metrix 3.0 版之數值結果做趨勢比較分析。其中 Coh-Metrix 3.0 版中所採用數據資料，乃採 Coh-Metrix 所建置之指標，文章來源選自 TASA ( Touchstone Applied Science Associates ) 語料庫中的 37651 篇文章，含九種不同文體，可區分為語文藝術、社會研究與科學文本三大類。語料庫文章的級別依 DRP ( Degrees of Reading Power ) 分成 13 個級別，簡化成六個等級， Coh-Metrix 3.0 版從三大類 13 個級別文章中隨機取樣各 100 篇，每類共 300 篇做為樣本（McNamara,Graesser,McCarthy, & Zhiqiang Cai, 2013）。. 壹、所有詞詞頻從表 4-1-1、圖 4-1-1 和圖 4-1-2 中，可發現依據兒童語料庫所分析之「所有詞詞頻」，會隨著年級的遞增，所有詞的詞頻會呈現往上的趨勢，且一至二年級的所有詞詞頻變化幅度較大，二至六年級的變化並不是很明顯；此與 TASA 語料庫中 K1~13 級別中，隨著年級往上，所有詞詞頻會往下的整體趨勢相異。一年級所有詞詞頻偏低的原因，推估可能其課文內容篇幅過短且疊字詞居多，中英語法、結構等文章特. 36.

(45) 徵不同，且中文的實詞和虛詞占所有詞彙的比重不同，也可能致使所有詞詞頻產生不一樣的結果。表4-1-1 所有詞詞頻. 所有詞詞頻趨勢分析表兒童語料庫 TASA 語料庫. 年級. 一年級二年級三年級四年級五年級六年級. 平均值. 7.83. 8.47. 8.56. 8.59. 8.57. 8.57. 年級. K-1. 2-3. 4-5. 6-8. 9-10. 11-CCR. 平均值. 3.14. 3.09. 3.09. 3.06. 3.05. 2.99. 資料來源：McNamara,Graesser,McCarthy & Zhiqiang Cai(2013). 圖4-1-1. 兒童語料庫所有詞詞頻趨勢. 37.

(46) 圖4-1-2. TASA語料庫所有詞詞頻趨勢. 貳、實詞詞頻從表 4-1-2、圖 4-1-3 和圖 4-1-4 中，可發現依據兒童語料庫所分析之「實詞詞頻」，除一年級外，二至六年級的實詞詞頻大致呈下降走勢，但在四、五、六年級間差異不大，結果顯示隨著年級愈高，實詞出現的頻率愈低，一年級實詞詞頻偏低的原因，推估可能其課文內容大部分偏向兒歌的形式，篇幅短且重疊詞彙居多，故產生與整體趨勢不同的結果；而在 TASA 語料庫中，整體趨勢是隨著級別愈高，實詞詞頻出現的頻率越小。此發現中文實詞詞頻的分布與 TASA 語料庫的走向大體上趨於一致。表4-1-2 實詞詞頻. 實詞詞頻趨勢分析表兒童語料庫 TASA 語料庫. 年級. 一年級二年級三年級四年級五年級六年級. 平均值. 7.07. 7.42. 7.31. 7.13. 7.15. 7.14. 年級. K-1. 2-3. 4-5. 6-8. 9-10. 11-CCR. 平均值. 2.52. 2.40. 2.34. 2.24. 2.21. 2.11. 資料來源：McNamara,Graesser,McCarthy & Zhiqiang Cai(2013). 38.

(47) 圖4-1-3 兒童語料庫實詞詞頻趨勢. 圖4-1-4. TASA語料庫實詞詞頻趨勢. 參、每句詞頻最小值從表 4-1-3、圖 4-1-5 和圖 4-1-6 中，可發現依據兒童語料庫所分析之「每句詞頻最小值」，除一年級外，可發現二至六年級會隨著年級增加，每句詞頻的最小值出現下降的狀況，此也說明隨著年級愈高，出現的頻率愈小，詞彙相對會愈難，此結. 39.

(48) 果與 TASA 語料庫中的趨勢大體上具一致性，而國小一年級的每句詞頻最小值與整體趨勢不一致的原因，推論應該與一年級內容以兒歌居多，且文章篇幅較其他年級來得簡短，詞彙也以重疊詞為主，故產生與其他年級不一樣的趨勢。表4-1-3 每句詞頻最小值趨勢分析表每年級一年級二年級三年級四年級五年級六年級兒童句詞語料庫平均值 4.11 4.44 4.15 3.74 3.65 3.53 頻年級 K-1 2-3 4-5 6-8 9-10 11-CCR 最 TASA 小語料庫平均值 1.711 1.536 1.415 1.13 1.076 0.93 值資料來源：McNamara,Graesser,McCarthy & Zhiqiang Cai(2013). 圖4-1-5. 兒童語料庫每句詞頻最小值趨勢. 40.

(49) 圖4-1-6. TASA語料庫每句詞頻最小值趨勢. 肆、平均詞彙數從表 4-1-4、圖 4-1-7 和圖 4-1-8 中，可發現不論是中文抑或 TASA 語料庫中之「平均詞彙數」，皆可看出隨著年級遞增，平均詞彙數會也會往上升的情形，這與 Otto（2006）、蔡宜芳（2009）及佘永吉（2006）的研究結果一致，證明兒童所掌握到的詞彙數量及種類會隨著年齡的遞增而有增加的情形。表4-1-4 平均詞彙數趨勢分析表平年級一年級二年級三年級四年級五年級六年級兒童均語料庫平均值 4.43 5.64 6 6.29 6.23 7.23 詞年級 K-1 2-3 4-5 6-8 9-10 11-CCR TASA 彙平均值 8.601 11.375 14.522 19.937 23.002 24.764 數語料庫資料來源：McNamara,Graesser,McCarthy & Zhiqiang Cai(2013). 41.

(50) 圖4-1-7. 圖4-1-8. 兒童語料庫平均詞彙數趨勢. TASA語料庫平均詞彙數趨勢. 伍、綜合討論本研究建置之指標，若不考慮一年級的分布情形，可發現在實詞詞頻、每句詞頻最小值與平均詞彙數方面，兒童語料庫分析結果與 Coh-Metrix 3.0 版本所採用之 TASA 語料庫趨勢一致，而所有詞詞頻的趨勢則相異，推論可能為中英文文章的結構、語法、詞類的分法等不同特徵所導致。一年級在所有詞詞頻、實詞詞頻及詞頻. 42.

(51) 最小值方面的分析結果，趨勢與其他年級不一致的主因，可能一年級扣除首冊，課文內容偏短，文章內重複的疊字詞占多數，故導致與其他年級的結果迥異。. 第二節指標分數預測文本適讀年級本研究在檢視所有詞詞頻、實詞詞頻、詞頻最小值及平均詞彙數與兒童語料庫文本年級之相關程度，並利用一般迴歸與逐步多元迴歸分析，將年級做為依變項，所有指標做為自變項，找出研究指標對年級的預測解釋量，並建立迴歸方程式。. 壹、檢視詞頻、詞彙指標與年級之相關程度本小節使用皮爾遜積差相關比較詞頻、詞彙數指標與年級之相關性，以評估各指標對於年級的重要性之成效。根據表 4-2-1 的研究結果，詞頻最小值及平均詞彙數與年級（r =-.439 和 r =.444）呈顯著中度相關，所有詞詞頻、實詞詞頻與年級呈顯著低度相關(r =.110 和 r =-.103)。但實詞詞頻與詞頻最小值，其相關程度呈反向成長，此顯示隨著年級愈高，詞彙變得較困難，出現的頻率自然愈低。楊惠珍（2012）對中年級國語文教科書詞彙分析中提到詞彙平均使用率，平均每一個虛詞的使用次數為 18.15 次，遠超過實詞的使用次數 3.91 次，顯見在中文語詞的結構中，虛詞使用的頻率高於實詞，故推論本研究之所有詞詞頻因包含實詞與虛詞，實詞與虛詞在文章中內容所占比例不同，造成所有詞詞頻趨勢與實詞詞頻相異之因。表4-2-1 年級. 分析指標與年級相關年級. 所有詞. 實詞. 詞頻最小值. 詞彙數. －. .110**. -.103**. -.439**. .444 **. ***p<.001 **p<.01 *p<.05. 43.