緒論 - 以潛在語意分析建置斷詞測驗輔助工具及其在閱讀理解上之應用

本章的第一節主要說明研究背景與研究動機；第二節說明研究目的；第三節為本研究之名詞解釋。

第一節研究背景與研究動機

在拼音文字的系統中，由於構成詞彙的字母與詞彙彼此之間的距離並不相同，

因此兒童可以明確地辨別出詞界限；與其不同的，中文是屬於表意文字，在構成詞彙的字（character）與詞彙彼此之間的距離是完全相同的，因為中文此種特有的構詞方式，而使得斷詞成為學習中文時的重要課題與挑戰（Chang, Hung &

Tzeng，1992）。

當ㄧ位成熟的中文讀者在閱讀時，除了必須具備良好的文字解碼能力之外，

還需擁有充足的詞彙能力與相關背景知識。雖然中文字結構複雜，與拼音文字大不相同，但在實際上使閱讀產生障礙的主要問題往往不在於識字，而是在於斷詞

（洪蘭、曾志朗、張稚美，1993）。若是讀者本身的詞彙能力和背景知識不足或是發展受到限制，就容易產生斷詞錯誤的情形，並進而影響閱讀的流暢性，造成閱讀上的阻礙（楊憲明，1998a）。由此可知斷詞在閱讀理解上是十分重要的能力，

因此透過斷詞測驗的實施，便能夠了解學生的斷詞能力，進而可推論出其真實之閱讀理解能力。

因傳統斷詞測驗的組卷方式多是以專家組卷為主，其在於題目的選擇上，多半是使用詞頻來作為參考標準，即使有考慮到詞彙和詞彙彼此之間的關聯度以及兒童對於各個不同詞彙的熟悉度的差異性的問題，也幾乎都是建立在專家或是研究者的主觀判斷之下。再者，傳統斷詞測驗的計分方式採用二元計分方式，也就是不論所答對題目為何，皆給予相同的分數。但這並未考慮在題目中，每個詞彙都是獨一無二的，彼此都具有不同的特性與難度，因此應針對每個詞彙的彼此間關聯度與熟悉度的不同來給予不同的分數。

潛在語意分析（Latent Semantic Analysis, LSA）不同於傳統的語意學，在傳統的語意學中通常研究的是字詞中所蘊含的意義或是詞彙與詞彙之間的關係，譬如同義詞、反義詞、近義詞等。但LSA 探討的乃是字詞背後所潛藏的意義或關聯性，這種關聯性並非建立於詞彙的定義上，而是以詞彙的使用環境作為分析的基礎。其利用數學及統計上的方法，使用關鍵字來從文章的句子中去萃取及推論字詞間的關係（Landauer, Foltz & Laham，1998)，且能夠將統計計算方法運用於大量文本所建置而成的語料庫，進而萃取和表示上下文詞彙的意義（Landauer &

Dumais，1997）。近年來，語言學及計算語言在語料庫方面的研究有著重要發展

（Church & Mercer，1993；Hsu & Huang，1995），隨著自然語言處理研究的進步，

大型語料庫的作用更是變得越來越重要，自從最早的平衡語料庫－1960 年代美國的布朗語料庫（Brown Corpus）被建置以來，世界上便接連不斷地建置出各式不同主題與特性的語料庫。而以運用大型的語料為基礎，來進行比對及描繪詞彙間的語意關係，也是語言心理學中新興的研究取向（陳明蕾、王學誠、柯華葳，2009)。

且在語言心理學方面的研究也指出，若有一大型語料庫能夠適當的反映語言中的一語彙知識，即可以利用 LSA 的技術來建置一個能反映心理表徵的語意空間

（Landauer、Foltz & Laham，1998) 。

因LSA的優點是能夠計算詞彙與詞彙彼此之間的語意關聯度，因此本研究使用廖晨惠（2011）的國科會計畫－「閱讀研究議題八－以LSA為基礎之電腦化閱讀認知測驗及AutoTutor建置」（編號：100-2420-H-142-001-MY3 )中所建置完成之兒童語料庫，並應用LSA來定義詞彙本身之熟悉度，接著加以發展LSA斷詞測驗組卷輔助工具，並藉以改善傳統斷詞測驗之組卷與計分方式。最後探討組卷輔助工具所產生之斷詞測驗與傳統斷詞測驗對於預測閱讀理解與識字量之成效。

第二節研究目的

本研究目的是利用LSA 能夠用來比對詞彙間關聯度的優點，接著應用 LSA 來定義詞彙之熟悉度後，並藉以發展LSA 斷詞測驗組卷輔助工具。因此在詞彙之

熟悉度的部分，首先利用在本研究中所定義的詞彙熟悉度來針對兒童語料庫中的所有詞彙進行熟悉度的計算，接著從兒童語料庫中抽取部分詞彙來請專家進行熟悉度的評分，並評估比較本研究中所定義之詞彙熟悉度與專家評分之相關度。接著請專家以兒童語料庫為依據，分別以不同的詞彙間關聯度與詞彙熟悉度來進行斷詞測驗之組卷，同時也使用LSA 斷詞測驗組卷輔助工具來產生另一份斷詞測驗，

接著比較傳統斷詞測驗與使用LSA 斷詞測驗組卷輔助工具所產生之斷詞測驗之相關與預測閱讀理解能力與識字量之成效，並探討LSA 斷詞測驗自動化計分方式與傳統計分方式在預測閱讀理解能力與識字量之成效。以下為本研究的目的：

一、應用LSA定義詞彙之熟悉度並評估其與專家計分之一致性。

二、使用詞彙關聯度與詞彙熟悉度發展LSA斷詞測驗組卷輔助工具。

三、探討在斷詞測驗中，傳統組卷與LSA組卷之成效。

四、探討在斷詞測驗中，採用不同組卷方式（傳統組卷、LSA組卷）與不同計分方式（LSA計分、傳統計分）對於預測閱讀理解能力與識字量之成效。

第三節名詞解釋

壹、潛在語意分析

潛在語意分析利用大量的文本進行統計分析，並且通過奇異值分解（singular value decomposition, SVD）與維度約化（dimension reduction）的處理，使語意空間中的雜訊能夠降低甚至去除，進而讓詞彙間隱含的語意關係得到最精確的重現。

貳、斷詞

詞界限指的是詞彙與詞彙之間的空白距離，斷詞指的是判斷詞界限的位置。

而斷詞測驗目的在於評量兒童斷詞能力，亦即找出詞和詞的界限之能力。本研究中所定義之斷詞能力，是指兒童在傳統斷詞測驗與使用LSA 斷詞測驗組卷輔助工

具所產生之斷詞測驗中的表現，兩種斷詞測驗測驗時間皆為一分鐘，若兒童在斷詞測驗中得分越高，表示其斷詞能力越好。

參、LSA 斷詞測驗組卷輔助工具

本研究中指的斷詞測驗組卷輔助工具為廖晨惠（2011）的國科會計畫中所發展之以LSA 為基礎之斷詞測驗組卷輔助工具。此工具以國小兒童語料庫之詞彙為基礎，主要目的是根據LSA 所計算出之詞彙間關聯度與本研究中所定義之詞彙熟悉度來自動化產生出適合之斷詞測驗。

肆、閱讀理解

閱讀理解是指讀者在閱讀時的心智活動、記憶之間與文章或文本內容積極互動所產生的結果（林寶貴、錡寶香，2000）。讀者必須具備充分的字彙知識、

先備知識與策略運用能力，並擁有正確理解句子和文章意義的能力（林寶貴、

錡寶香，1999）。本研究中所定義的閱讀理解能力是指兒童在林寶貴、錡寶香

（1999）所編製之閱讀理解測驗中的表現，若兒童在閱讀理解測驗得分越高，

表示其閱讀理解能力越好。

在文檔中以潛在語意分析建置斷詞測驗輔助工具及其在閱讀理解上之應用 (頁 11-15)

緒論

第一節 研究背景與研究動機

第二節 研究目的

第三節 名詞解釋