緒論 - 中文文本詞彙多樣性自動化分析系統建置與探討

第一章緒論

本研究應用 Type-Token Ratio（TTR）及 Measure of Textual Lexical Diversity

（MTLD）發展詞彙多樣性自動化文本分析指標，並建置一套適合中文使用的線上中文兒童詞彙多樣性文本分析系統，以作為教師及家長提供兒童適合閱讀之讀本的參考依據。本章分為三節，第一節說明研究動機；第二節說明研究目的；第三節為名詞解釋。

第一節研究動機

閱讀的目的為何？為什麼世界各國如此重視閱讀教育？史考斯基認為「閱讀能帶來希望，開啟生命之窗」；列夫‧托爾斯泰認為「理想的書籍，是智慧的鑰匙」；卡萊爾認為「書最大的影響力，就是可以刺激讀者自我思考」；莎士比亞認為「生活裡沒有書籍，就好像沒有陽光；智慧裡沒有書籍，就好像鳥兒沒有翅膀」；高爾基認為「我覺得，當書本給我講到聞所未聞，見所未見的人物、

感情、思想和態度時，似乎是每一本書都在我面前打開了一扇窗戶，讓我看到一個不可思議的新世界」。笛卡兒認為「讀一本好書，就是和許多高尚的人談話」。語文教學以「閱讀」為核心，個體在閱讀的初期主要是以培養閱讀能力為主，後期則在培養學生對多元文化的尊重及對不同族群、文化的關懷。此外更希望能藉由廣泛閱讀，養成主動探索、研究的能力。至於閱讀對於兒童而言更為重要，因為閱讀不僅是汲取知識的主要手段，更是幫助他們開啟通往世界的窗口，且能培養學生有效應用國語文，從事思考、理解、推理、協調、討論、

欣賞、創作，以融入生活經驗，擴展多元視野，面對國際思潮（教育部，2008）。

因此如何更有效率、更精確的為孩子選擇適當的文本，儼然成為師長們關心的話題。

自從聯合國教科文組織在 1995 年訂定 4 月 23 日為「世界閱讀日」以來，

世界各國越來越重視閱讀教育的推行，因為一個國家的競爭力可由人民的知識

程度來代表。為了提升人民的閱讀能力，各國紛紛提出各種閱讀措施，例如：

連續兩屆在「國際學生評量計劃（ Programme for International Student Assessment，簡稱 PISA）」稱霸的芬蘭之「無一人落後」（天下雜誌，2011）；英國於 1998 年啟動的「全國閱讀年」；美國柯林頓總統的「美國閱讀挑戰」；布希總統「閱讀優先方案」等，都是提倡閱讀的相關措施。尤其「不讓孩子落後法案」更將「閱讀優先計畫」作為政策主軸；而日本文部省則將 2000 年定為「兒童閱讀年」，由此可看出世界各國對於閱讀的重視。而我國近幾年也開始積極推動許多閱讀教育政策，如自 93 年起針對弱勢地區國小推動「焦點三百―國小兒童閱讀計畫」；95 年起針對偏遠地區國中小閱讀推廣計畫；97 年開始啟動為期 4 年的「悅讀 101 ― 教育部國民中小學閱讀提升計畫」；98-101 年閱讀植根與空間改善：98-101 年圖書館創新服務發展計畫（教育部電子報，2010）。2011 年公布的國際閱讀素養評比（Progress in International Reading Literacy Study，簡稱 PIRLS）排名從 22 名進步到第 9 名，成績較 5 年前進步，顯示國內這幾年的閱讀推廣具有明顯成效。

有鑑於對閱讀教育的重視，本研究發現目前國內已有許多學者針對「閱讀理解策略」、「閱讀教學方式」及「特殊教育閱讀理解教學」進行研究探討；反觀對於如何選擇適合不同年齡或不同語文程度之兒童閱讀文本的研究卻少之又少，此外對於中文詞彙多樣性的相關研究更是欠缺。

「工欲善其事，必先利其器」，因此本研究團隊參考美國 Coh-metrix 線上文本分析系統分析兒童語料庫文本文本，希望能藉由此次研究建立一套線上自動化中文文本分析系統，分析文本的詞彙多樣性、詞彙訊息、詞類及文本連貫性等指標，來分析文本之間的凝聚力。讓家長或老師日後在為孩子選擇適合的閱讀文本時更為省時、方便，能更快速找出適合不同年齡層孩子的閱讀文本；

更希望能藉由中文自動化文本指標的建置，讓國內的閱讀教育研究更為完整！

第二節研究目的

根據上述動機，本研究目的如下：

I. 建立詞彙多樣性自動化文本分析指標。

II. 發展線上詞彙多樣性文本分析系統。

III. 探討詞彙多樣性與年級之關聯性。

第三節名詞解釋

壹、詞彙多樣性

詞彙多樣性（lexical diversity）是指一篇文本中使用的詞是否豐富多樣、較少重複。數值高表示用詞範圍廣，具有較高的多樣性。當文本中含有較多不同的單詞時，新單詞需要被整合到文本的上下文中，所以詞彙多樣性與凝聚力是息息相關的（Graesser, McNamara, & Kulikowich, 2011）。

貳、Coh-Metrix

Coh-Metrix 是一套由美國曼菲斯大學所開發的線上電腦分析工具，藉由提供多層次的文本分析指標，包含詞彙特性、句子特性、語法、模式分類、語法解析器、淺層語意口譯及文本中意思的關連性（Graesser et al., 2011），區分學生定時寫作質量變量之信度和效度的計算工具。

叁、閱讀理解

「閱讀理解能力」是複雜的認知處理歷程，指讀者藉由個人既有的認知基模與作者所提供的訊息產生互動，從中獲得資訊並建構文本內容的意義。成功的理解是指讀者與文本間互動良好，當讀者閱讀可讀性高的文本時，會產生較好的理解及較佳的學後保留效果（Klare, 1963, 2000）。

肆、詞性分類

華語詞彙可分為實詞（content words）與虛詞（function words）。實詞是

指一種具體概念的詞彙，能單獨充當句法成分的詞；虛詞是指沒有明確語意的詞彙，不能單獨充當句子成分，主要用來表達各種語法意義或語氣（現代漢語語法，2003）。實詞分為：名詞、動詞、形容詞、副詞、數詞、量詞、代詞；

虛詞分為：介詞、連詞、助詞、歎詞、語氣詞、象聲詞。本研究採用（胡裕樹，

1994）定義為分類標準。

伍、Type-Token Ratio（TTR）

Type-Token Ratio（TTR）源自於自然語言文本的語言學測驗之一。其歷史可以追溯到 70 幾年前（Johnson, 1944）。TTR 即指文本中所有不同的單詞在連續呈現的單詞總數中所占的百分比，也就是單一文本中使用之不同單詞數量和總字數數量的比值（Laufer & Nation, 1995）。”token”指一段文本中的任何單詞，

不論是否重複出現，都算作一個單獨的標記；而”type”則是指重複出現的標記。

陸、 Measure of Textual Lexical Diversity（MTLD）

Measure of Textual Lexical Diversity（MTLD）是一項計算詞彙多樣性指標的電腦文本分析工具，它是由 McCarthy 於 2005 年所發展出來的。他認為文本是有結構的，因此強調應保留文本結構語文章順序來維持文本的原貌，故將「文本」的概念引入其所提出的 MTLD 指標中。

在文檔中中文文本詞彙多樣性自動化分析系統建置與探討 (頁 9-13)

緒論

第一章 緒論

第一節 研究動機

第二節 研究目的

第三節 名詞解釋