以潛在語意分析評估詞彙重要性及其應用

全文

(1)國立臺中教育大學教育測驗統計研究所理學碩士論文. 指導教授：郭伯臣. 博士. 指導教授：廖晨惠. 博士. 以潛在語意分析評估詞彙重要性及其應用. 中. 華. 民. 研究生：白鎧誌. 撰. 國. ０. 一. ０. 年. 七. 月.

(2) 謝辭兩年的碩士生活，對我而言是人生中重要的經歷，也是一段最珍貴的回憶。由於求學背景的不同，選擇就讀教育測驗統計研究所是一項艱鉅的挑戰，因為將面臨新的課程與研究，在這艱苦求學的過程中，感謝師長的指導與研究室夥伴們的陪伴以及家人的支持，讓我能堅持到底，能夠順利完成論文的撰寫。首先感謝指導教授郭伯臣與廖晨惠兩位教授的指導，在我遇到研究上的挫折與難題時，不厭其煩的討論與引導，讓我能夠從錯誤中學習，對於難題也能夠迎刃而解。也感謝口試委員陳學志老師與陳明蕾老師給予許多寶貴的建議，讓本論文能夠更加完整。兩年的研究室生活的點點滴滴，令人難忘，有學長姐與學弟妹的陪伴，讓生活變得多采多姿。感謝星期二的研究團隊，一起討論不同領域的研究，讓我獲益良多。感謝政軒學長的指導，讓我的研究能夠更加順利。感謝筱倩學姊在測驗與統計方面的解惑，讓我在自己的研究領域之外也能有所獲得，也感謝佳樺學姊在計畫行政業務上的幫忙。感謝革為學長與傑如學長的幫忙，讓我順利完成論文資料蒐集。感謝敏嫻、辰育、品潔、淑瑜、俊彥一同為論文打拼的夥伴們的互相鼓勵與打氣，也感謝研究室學弟妹們的熱心幫忙。我要謝謝我的可愛的女朋友怡伶的陪伴與包容，一起做研究與寫論文並互相打氣，讓我能夠永不放棄。最後我要感謝我最摯愛的家人，家人們的支持，是我能夠享受這兩年的碩士生活與完成論文撰寫的最大動力。. 白鎧誌中華民國一百年七月.

(3) 中文摘要本研究旨在應用潛在語意分析發展詞彙重要性指標，藉由專家評分來評估詞彙重要性指標之成效。此外應用詞彙重要性指標發展 LSA 造詞、造句自動化計分模式，並評估 LSA 造句自動化計分之成效，且探討傳統計分與 LSA 自動化計分對於造詞、造句與閱讀理解之關係。本研究對象為台中市國小六年級學童，有效樣本共 113 位。本研究主要研究發現如下：一、詞彙在閱讀的重要性，本研究發展的詞彙重要性指標與專家評分有顯著高度相關，而語意空間的詞彙向量長度與 entropy 權重與專家評分達顯著中度相關。詞彙在句子的重要性部分，本研究發展的詞彙重要性指標則與專家評分達顯著高度相關，顯示有良好評估成效。二、本研究發展的 LSA 造句自動化計分與專家評分達顯著高度相關，顯示造句自動化計分可以節省人工閱卷時間，也有良好評估之成效。三、字根造詞、造句預測閱讀理解分析結果，傳統計分對於字根造詞、造句能有有效預測閱讀理解，而 LSA 計分模式則是在字根造詞與以字造句能夠有效預測閱讀理解，以詞造句測驗對閱讀理解則沒有達顯著預測力。四、比較傳統計分與 LSA 計分，LSA 在字根造詞與以字造句對於閱讀理解有較高的預測力。關鍵字：潛在語意分析、LSA 自動化計分、字根造詞、造句、閱讀理解. I.

(4) Abstract The purposes of the present study was to develope the indicators of the significance of terms and to examine the effectiveness of these indicators by comparing it with human scoring. LSA-based automated scoring system for word construction and sentence construction tasks were developed by employing the indicators. The utility of the automated scoring system was examined by comparing with the results of human scoring. Also, the relation of word and sentence construction and, reading comprehension was investigated. The results of the study showed: 1. The result of the significance of terms was comparable between the indicators and human scoring.. The term vector length and entroy were moderately correlated with. human scoring, whereas the indicators of the significance of terms correlated highly with human scoring in the sentence construction task. 2. The LSA-based automated scoring for sentence construction and the human scoring were highly correlated, which implies that LSA-based automated scoring is effective. 3. Word and sentence construction tasks. predicted reading comprehension in both. means of scoring, which shows that LSA-based automated scoring works as well as human scoring 4. Comparing the results of traditional scoring and LSA-based automated scoring, LSA-based automated scoring explained more variance in reading comprehension.. Keywords: Latent Semantic Analysis, LSA-based automated scoring, word construction, sentence construction, reading comprehension. II.

(5) 目錄中文摘要 .............................................................................................................................. I ABSTRACT ........................................................................................................................ II 目錄 ..................................................................................................................................... II 表目錄 ................................................................................................................................IV 圖目錄 ................................................................................................................................. V 第一章緒論 ........................................................................................................................ 1 第一節研究背景與動機 ................................................................................................. 1 第二節研究目的 ............................................................................................................. 2 第三節名詞解釋 ............................................................................................................. 3 第二章文獻探討 ................................................................................................................ 5 第一節潛在語意分析 ..................................................................................................... 5 第二節造詞在閱讀認知的相關研究 ........................................................................... 14 第三節造句在閱讀認知的相關研究 ........................................................................... 16 第四節閱讀理解 ........................................................................................................... 17 第三章研究方法 .............................................................................................................. 21 第一節研究流程 ........................................................................................................... 21 第二節詞彙重要性指標的發展與評估方法 .............................................................. 23 第三節 LSA 造詞、造句自動化計分模式 .................................................................. 25 第四節字根造詞、造句與閱讀理解之關係 .............................................................. 26 第五節研究對象 ........................................................................................................... 26 第六節資料處理分析................................................................................................... 27 第七節研究工具 ........................................................................................................... 28 第四章研究結果與討論 .................................................................................................. 31 第一節詞彙在閱讀的重要性指標評估之成效 .......................................................... 31 第二節詞彙在句子的重要性指標評估之成效 .......................................................... 33 第三節 LSA 造句自動化計分評估之成效 .................................................................. 39 第四節字根造詞、造句對閱讀理解之預測度 .......................................................... 43 第五章結論與建議 .......................................................................................................... 57 第一節結論 ................................................................................................................... 57 第二節研究限制 ........................................................................................................... 58 第三節建議 ................................................................................................................... 59 參考文獻 ............................................................................................................................ 61 中文參考文獻 ................................................................................................................ 61 英文參考文獻 ................................................................................................................ 62. III.

(6) 表目錄表 2-1 TITLES FOR TOPICS ON MUSIC AND BAKING................................................ 8 表 2-2 THE 10 X 9 TYPE-BY-DOCUMENT MATRIX WITH TYPE FREQUENCIES ... 8 表 2-3 THE 10 X 9 WEIGHTED TYPE-BY-DOCUMENT MATRIX ............................... 9 表 2-4 MCNAMARA 等人（2007）研究結果 ................................................................ 13 表 3-1 以字造句例題 ......................................................................................................... 29 表 3-2 以詞造句例題 ......................................................................................................... 29 表 4-1 詞彙在閱讀重要性-專家評分結果 ....................................................................... 31 表 4-2 專家評分與各重要性指標之相關矩陣 ................................................................. 32 表 4-3 挑選之句子 ............................................................................................................. 33 表 4-4 詞彙在句子重要性-專家評分結果 ....................................................................... 34 表 4-5 句子 1 專家評分與各重要性指標之相關矩陣 ..................................................... 36 表 4-6 句子 2 專家評分與各重要性指標之相關矩陣 ..................................................... 36 表 4-7 句子 3 專家評分與各重要性指標之相關矩陣 ..................................................... 36 表 4-8 句子 4 專家評分與各重要性指標之相關矩陣 ..................................................... 37 表 4-9 句子 5 專家評分與各重要性指標之相關矩陣 ..................................................... 37 表 4-10 句子 6 專家評分與各重要性指標之相關矩陣 ................................................... 37 表 4-11 以字造句-專家評分與各重要性指標之相關矩陣 ............................................. 38 表 4-12 以詞造句-專家評分與各重要性指標之相關矩陣 ............................................. 38 表 4-13 國小六年級孩童在以字造句、以詞造句測驗的表現 ....................................... 40 表 4-14 專家評分與 LSA 造句自動化計分之相關矩陣-以字造句 ................................ 41 表 4-15 專家評分與 LSA 造句自動化計分之相關矩陣-以詞造句 ................................ 41 表 4-16 國小六年級孩童在閱讀理解、字根造詞測驗的表現（N=113）.................... 44 表 4-17 字根造詞、以字造句與閱讀理解之階層式迴歸分析 ....................................... 45 表 4-18 字根造詞、以詞造句與閱讀理解之階層式迴歸分析 ....................................... 46 表 4-19 LSA_ENTROPY 計分-字根造詞、以字造句與閱讀理解之階層式迴歸分析 47 表 4-20 LSA1 計分-字根造詞、以字造句與閱讀理解之階層式迴歸分析 ................... 48 表 4-21 LSA2 計分-字根造詞、以字造句與閱讀理解之階層式迴歸分析 ................... 49 表 4-22 LSA_ENTROPY 計分-字根造詞、以詞造句與閱讀理解之階層式迴歸分析 50 表 4-23 LSA1 計分-字根造詞、以詞造句與閱讀理解之階層式迴歸分析 ................... 51 表 4-24 LSA2 計分-字根造詞、以詞造句與閱讀理解之階層式迴歸分析 ................... 52 表 4-25 造詞(傳統計分與 LSA 計分)、以字造句與閱讀理解之階層式迴歸分析 ...... 53 表 4-26 造詞、以字造句(傳統與 LSA 計分)與閱讀理解之階層式迴歸分析 .............. 54. IV.

(7) 圖目錄圖 1-1 LSA 基本架構 .......................................................................................................... 7 圖 2-2 SVD 與維度約化圖示 ............................................................................................ 10 圖 3-1 研究流程 ................................................................................................................. 22 圖 3-2 字根造詞範例 ......................................................................................................... 28. V.

(8) VI.

(9) 第一章緒論本章第一節說明研究背景與動機；第二節說明研究目的；第三節為本研究重要名詞釋義。. 第一節研究背景與動機潛在語意分析（Latent Semantic Analysis, LSA）是利用關鍵詞彙來萃取文件中潛在的概念，從文件中找出重要的潛在語意（Landauer & Dumais, 1997; Landauer, Laham, Rehder, & Schreiner, 1997）。根據 Landauer 與 Dumais（1997）提出的概念， LSA 可藉由統計計算方法應用到大量文本建置的語料庫，萃取和表示上下文詞彙的意義。過去 LSA 的相關研究，Landauer、Foltz 及 Laham（1998）將 LSA 技術應用在心理語言分析的研究領域，並指出如有一大型語料庫能夠適當的反映人所擁有的語彙知識，即可以利用 LSA 的技術建置出一個能反映這些語彙知識背後語意關係的語意空間。而近年來，運用大型語料為基礎，已進行比對及描繪詞彙之間的語意關係，是心理語言學中新興的研究取向（陳明蕾、王學誠、柯華葳，2009）。依上述研究顯示，LSA 在心理語言分析的研究領域具有重要的研究發展。利用 LSA 建置語意空間時，需要針對詞彙-文件共生矩陣進行詞彙重要性加權，即是考慮到每個詞彙的重要性是不完全相同的，而過去詞彙重要性的相關研究大多是在探討共生矩陣中詞彙的重要性（Dumais, 1991; Landauer & Dumais, 1997）。而經由 LSA 建置的潛在語意空間可以計算詞彙與詞彙、詞彙與文件、文件與文件之間的語意相似度，找出詞彙或文件之間潛藏的語意關係，但甚少研究探討在進行語意相似度比對時文件中每一個詞彙的重要性，顯示定義詞彙的重要性是相當困難的。根據過去的研究在探討詞彙重要性部分，馮樹仁（2001）以 LSA 發展摘要寫作評量系統，利用 LSA 計算學生摘要句子與教師摘要句子之間的相關性，以評量學生摘要寫作的能力，其研究中有使用不同的權重方法做為在評量學生的摘要句子時每個關. 1.

(10) 鍵詞彙的重要性加權。McNamara, Cai and Louwerse（2007）的研究中探討使用 LSA 在進行句子之間的語意相似度比對時每個詞彙在句子中的重要性是否相同，但此研究並未考慮專家對於句子中每個詞彙的重要性評分，因此本研究發展不同指標與納入專家評分以評估詞彙在句子的重要性，此外為了能夠快速區別在文章的上下語句中每一個詞彙對於閱讀的重要性程度的不同以幫助讀者在閱讀文章時，能夠了解哪些詞彙在文章中的語意脈絡是較重要的，因此本研究也發展詞彙在閱讀的重要性指標並與專家評分進行評估。柯華葳（1999）指出閱讀包含認字和理解，而蘇宜芬（2004）的研究指出認字對於閱讀占有重要部分，而增進認字技能方式可以藉由造詞練習，而其他相關研究也指出造詞對於兒童閱讀認知能力有重要的影響（Leong & Ho, 2008；Liu & McBride-Chang, 2010）。此外蘇宜芬（2004）研究還指出就中文閱讀能力而言，如果學生是因為句型的不熟悉而導致理解上的困難，則加強句型的練習對這些學生可能是需要的，而其他相關研究也指出造句對於兒童的閱讀認知是息息相關的（邱小芳、詹士宜，2009），從上述研究顯示造詞與造句對於兒童閱讀認知是非常重要的。過去傳統的造詞測驗計分方式是採用二元計分，題目中每個詞彙都給予相同的分數，並未考慮到每個詞彙的重要性程度。而傳統的造句測驗部分大多是紙筆測驗，並使用人工閱卷評分，因此在進行造句的相關研究時，當所需要施測的樣本數較多的時候，專家或教師需花費大量時間進行閱卷，不僅曠時費力，也造成人力及時間成本的浪費。而 LSA 的優點是可以進行詞彙與詞彙，句子與句子之間的比對，因此本研究應用詞彙重要性指標發展 LSA 造詞與造句自動化計分模式。最後並應用本研究發展的 LSA 自動化計分探討造詞、造句與閱讀理解之關係以驗證詞彙重要性指標在自動化計分預測閱讀理解之成效。. 第二節研究目的依上述研究動機，本研究目的是應用 LSA 發展詞彙重要性指標，本研究定義的. 2.

(11) 詞彙重要性指標分為詞彙在閱讀的重要性與詞彙在句子比對的重要性，並請專家針對這兩部分進行詞彙的重要性評分，此外也利用本研究發展的詞彙重要性指標應用在字根造詞的詞彙加權計分與句子語意相似度的評分，在字根造詞不採用傳統計分，而是考慮每個詞彙在閱讀的重要性給予權重分數。在造句評分則是考慮句子中每個詞彙的的重要性，並比較 LSA 造句自動化計分與專家評分之成效。最後探討傳統計分與 LSA 自動化計分在造詞、造句與閱讀理解之關係。以下為本研究的目的：一、應用 LSA 發展詞彙重要性指標與評估其成效。二、發展 LSA 造詞、造句自動化計分模式與評估其成效。三、探討傳統計分與 LSA 自動化計分對於字根造詞、造句與閱讀理解之關係。. 第三節名詞解釋針對本篇論文常見的名詞，詳細說明如下：. 壹、潛在語意分析潛在語意分析是以奇異值分解（singular value decomposition, SVD）和維度約化（dimension reduction）為基礎的知識模組，SVD 是一種數學矩陣的分解技術，能將文件所隱含的知識抽象轉換到語意空間中，而維度約化能去除文件知識在語意空間中的雜訊，使LSA 能更精確地推演出文件所隱含的知識（Deerwester, Dumais, Furnas, Landauer, & Harshman, 1990）。. 貳、字根造詞字根造詞是指以高頻字為字根，探討受試者在有限時間的情況下，如何從心理詞庫中提取可運用的詞素組合成詞的認知能力，而運用高頻字的方式能夠降低因為字頻所造成的研究限制，只純粹探討基礎的造詞能力（廖晨惠，2009）。本研究中定義的字根造詞能力是以廖晨惠（2009）所編製的字根造詞測驗得分，得分越高，表示字根造詞能力越好. 3.

(12) 參、造句能力造句能力是指將一群字詞聯綴成為一具有邏輯性，可以表達一個複雜的想法，與思想感情完全符合而不被誤會意思，讓人了解的句子之過程（張雯惠，2006）。本研究所定義的造句能力是以 Liao, Pai and Kuo（2011）所編製的以字造句與以詞造句測驗，分數越高表示學生造句能力越好。. 肆、閱讀理解林寶貴、錡寶香（1999）指出閱讀理解是指在閱讀文章時，讀者先具備充分的字彙知識，而且有足夠的先備知識及策略運用能力，並具有正確理解句子和文章意義的能力。本研究定義的學童閱讀理解能力是指學童在林寶貴、錡寶香（1999）所編製之「閱讀理解測驗」得分，得分越高表示閱讀理解能力越好。. 4.

(13) 第二章文獻探討本研究主要目的是以 LSA 發展詞彙的重要性指標，並應用於中文造詞、造句自動化計分模式，最後應用於造詞、造句與閱讀理解之關係。因此本研究針對潛在語意分析、造詞與造句在閱讀的相關研究與閱讀理解相關研究進行文獻探討。. 第一節潛在語意分析 LSA 是使用大型的語料庫（Corpus）與利用統計方法萃取出和表達詞彙在語料庫中的上下文之間的語意關係。而使用 LSA 建置語意空間的基本概念是先建置一個二維矩陣空間的詞彙-文件共生矩陣（term-by-document occurrence matrix）表示詞彙與文件之間的關聯性，並使用奇異值分解(SVD)拆解原始的共生矩陣以得到詞彙與文件相對應的語意結構矩陣，接著利用維度約化（dimension reduction）為基礎去除一些不重要的雜訊維度，最後將矩陣重新建置即是具有代表性的潛在語意空間（Landauer ＆ Dumais, 1997）。以下就語料庫的相關研究、潛在語意空間建置流程、語意相似度計算與詞彙在文件重要性的研究分別進行說明。. 壹、語料庫的相關研究語料庫（Corpus）是指大型的詞語料資料庫，內容包含了大量的語料分析與文本資料，其語料庫內容是經由整理與有架構的的格式儲存，以提供語言相關之研究者進行分析與統計之研究（溫文喆，2008）。根據過去的相關研究指出利用 LSA 建置語意空間時，其所需要的語料庫的語料來源越大越好，即須包含大量的詞彙與文件，且其語料庫需要和研究目的有一定的相關（Wiemer-Hastings, 2004）。過去應用語料庫於建置潛在語意空間的相關研究，Landauer等人（1998）曾經以葛羅里學術百科全書（Grolier Encyclopedia）作為語料庫，並建立一個60,768個詞彙和30,473個文件的詞彙－文件共生矩陣，接著利用SVD與維度約化將共生矩陣轉換成一個維度為300的語意空間。而在中文領域亦有相關研究，如葉鎮源（2002）曾經. 5.

(14) 建置一個約有1600個關鍵詞大小的語意空間，其語料來源是以新聞週刊中的100份新聞文件為小型語料庫。張國恩與宋曜廷（2005）設計一個可以自動評量小六學生閱讀摘要寫作的系統，建置以族群與群落與端午節兩個主題，其中以族群與群落為主題分別建置關鍵詞大小為488、901與1557的語意空間，以端午節為主題則分別建置關鍵詞大小為1340、2176與2921的語意空間。陳明蕾等人（2009）則利用了中央研究院所建置的現代漢語平衡語料庫（3.0版）建置了一個大型的中文語意空間，其中包含了49021的關鍵詞與40463份文件，其研究結果發現以潛在語意分析技術所建置的中文語意空間，能反應中文讀者內在心理詞彙表徵間之語意關聯性。. 貳、潛在語意空間建置流程根據Martin and Berry（2007）的研究中使用LSA建置語意空間，需要以下幾個步驟：建立詞彙-文件共生矩陣；詞彙權重計算；執行SVD轉換矩陣；維度約化。圖1-1 為LSA基本架構，灰色底部分表示使用LSA建置語意空間的流程。以下就本研究建立潛在語意空間之各步驟分別說明：. 6.

(15) 建立詞彙-文件共生矩陣詞彙權重計算. 執行 SVD 矩陣轉換. 維度約化. 語意空間. 相似度計算. 圖 1-1 LSA 基本架構. 一、建立詞彙-文件共生矩陣詞彙-文件共生矩陣為一個二維的空間矩陣，是以文件為行，以關鍵詞為列，其中關鍵詞為語料庫中所定義的詞彙，文件可以是語料庫中的一般文章、句子，或是研究者自行將文章切割成所需要的大小而形成的新文件，矩陣中的元素值為關鍵詞出現在每份文件的次數。根據（Quesada, 2006）的研究中說明，在共生矩陣中只出現一次的詞彙會干擾LSA語意比對的效果，因此在關鍵詞的選取中，是以詞彙在共生矩陣中出現兩次以上的作為研究所定義的關鍵詞彙。表2-1和表2-2為一小型語料庫和其相對應藉由詞彙出現次數所建立的詞彙－文件共生矩陣的例子（ Witter & Berry,1998）。. 7.

(16) 表2-1 Titles for Topics on Music and Baking 文件. 標題. M1 M2 M3 M4 M5 B1 B2 B3 B4. Rock and Roll Music in the 1960’s Different Drum Rolls, a Demonstration of Techniques Drum and Bass Composition A Perspective of Rock Music in the 90’s Music and Composition of Popular Bands How to Make Bread and Rolls, a Demonstration Ingredients for Crescent Rolls A Recipe for Sourdough Bread A Quick Recipe for Pizza Dough using Organic Ingredients 表2-2 The 10 x 9 Type-by-Document Matrix With Type Frequencies. 詞彙 Bread Composition Demonstration Doungh Drum Ingredients Music Recipe Rock Roll. 文件 M1 0 0 0 0 0 0 1 0 1 1. M2 0 0 1 0 1 0 0 0 0 1. M3 0 1 0 0 1 0 0 0 0 0. M4 0 0 0 0 0 0 1 0 1 0. M5 0 1 0 0 0 0 1 0 0 0. B1 1 0 1 0 0 0 0 0 0 1. B2 0 0 0 0 0 1 0 0 0 1. B3 1 0 0 1 0 0 0 1 0 0. B4 0 0 0 1 0 1 0 1 0 0. 二、詞彙權重計算在詞彙-文件共生矩陣中頻繁出現的詞彙（以英文而言，例如 the, a 中文而言，例如：這、那），這些功能詞對於詞彙-文件共生矩陣並沒有太多的意義，因此必須給定一個加權來降低這些詞彙對於共生矩陣的影響（Landauer & Dumais, 1997）。而加權方式可分為 local 與 global，local 權重是考慮詞彙在每一份文件中所佔的重要. 8.

(17) 性，如果詞彙在該份文件出現次數愈多，其 local 權重愈大；gloal 權重則是考慮到詞彙在語料庫所有文件的重要性，與 local 權重相反，當詞彙出現很多文件中出現很多次時，global 權重則愈小（Dumais, 1991; Landauer & Dumais, 1997）。下列為 m × n 的詞彙－文件共生矩陣 A 作詞彙權重加權的公式：. A =(fij × G (i ) × L(i, j )) m×n. (2.1). G (i ) 代表第 i 個詞彙在語料庫的 global 權重，而 L(i, j ) 表示第 i 個詞彙在第 j 個文件的 local 權重。一般研究發現使用 log-entropy 方法有較好的效果（Dumais, 1991），其公式給定如下：. L= (i, j ) log(tf ij + 1). (2.2). L(i, j ) 表示 local 權重， tfij 表示第 i 個詞彙在第 j 個文件出現的次數。 G (i ) = 1 + ∑ j. pij log 2 ( pij ) log 2 n. ， pij =. tf ij. (2.3). gf i. G (i ) 表示 global 權重， gfi 是第 i 個詞彙在所有文件中出現次數的總和。表 2-3 為表. 2-2 經過 log-entropy 方法詞彙權重加權後所形成的加權共生矩陣。表2-3 The 10 x 9 Weighted Type-by-Document Matrix 詞彙 Bread Composition Demonstration Doungh Drum Ingredients Music Recipe Rock Roll. 文件 M1 0 0 0 0 0 0 .347 0 .474 .256. M2 0 0 .474 0 .474 0 0 0 0 .256. M3 0 .474 0 0 .474 0 0 0 0 0. M4 0 0 0 0 0 0 .347 0 .474 0. 9. M5 0 .474 0 0 0 0 .347 0 0 0. B1 .474 0 .474 0 0 0 0 0 0 .256. B2 0 0 0 0 0 .474 0 0 0 .256. B3 .474 0 0 .474 0 0 0 .474 0 0. B4 0 0 0 .474 0 .474 0 .474 0 0.

(18) 三、執行 SVD 矩陣轉換詞彙-文件共生矩陣只是表徵每個關鍵詞在每份文件的所出現的次數，並沒有呈現詞彙之間的語意關聯性，因此在 LSA 中最常用來分解詞彙－文件共生矩陣 A 的方法為奇異值分解，藉由 SVD 的運算過程，可以計算出每個詞彙在對角矩陣中的特徵值，一般來說特徵值愈大的向量，表示具有較大的訊息量，反之則只有微小的訊息量。而經過 SVD 轉換後的矩陣，關鍵詞和文件的關係，就不是原本出現次數的關係，取而代之的是表徵關鍵詞在文件中的語意關係。而經過 SVD 轉換一個 m × n 的詞彙－文件共生矩陣 A 可被拆解成：. A=UΣVT. (2.4). 其中 U 是正交矩陣（orthogonal matrix）或稱為左奇異向量（left singular value）， V 為正交矩陣（orthogonal matrix）或稱為右奇異向量（right singular value）， ∑ 為由奇異特徵值組成的對角矩陣（ ∑ =diagonal(λ1 ,λ2 , ,λr ) ，其於元素皆為 0）（Letsche & Berry, 1997），U 矩陣的列向量稱為詞彙向量（type vector），而 V 矩陣的列向量稱為文件向量（document vector）（Landauer, Foltz, & Laham, 1998）。. U (m × r). A (m × n). ∑ (r × r). ∑k Ak. =. Uk. V T (r × n). k. VkT. k. k. k. 圖 2-2 SVD 與維度約化圖示四、維度約化經由 SVD 後，因為語意空間的矩陣過大或是太多所謂的雜訊（noise）會干擾語. 10.

(19) 意比對的結果，所以我們可以利用維度約化（dimension reduction）來消除語意空間中不重要之雜訊。而維度約化的方式是取出 SVD 後前 k 個最大的特徵奇異值，和 U 矩陣、V 矩陣前 k 個行向量（ k < r ），並重建矩陣 A= U k ∑ k VkT，如圖 2-2 所示（Berry, k Dumais, & O’Brien, 1995; Witter & Berry, 1998）。陳明蕾等人（2009）的研究中提出其所建立的共生矩陣經由 SVD 後每個詞彙的向量都有 40,463 個維度，而在維度約化的過程中，其研究發現如果只用兩到三個維度來表徵每個關鍵詞的向量，則每個關鍵詞之間的相似性會過高；相反的，如果保留所有的維度來表徵每個關鍵詞的向量，則每個關鍵詞的相似性就又會幾近於零。因此維度約化的 k 取得適當，可以消除潛在語意空間中的雜訊，並且減少系統運算量；但是如果取用的維度過小，將會損失過多空間向量，導致判斷不精準。而根據國外 LSA 相關研究，指出當所要進行研究的語料庫為一大型的語料庫時，根據過去的研究發現如果將維度約化 k 的範圍設定為 100 到 300 個維度之間的情形下，其在同義詞的測試會有不錯的效果（Berry, Drmac, & Jessup, 1999； Jessup & Martin, 2001；Lizza & Sartoretto, 2001.； Landauer & Dumais, 1997）。而在本研究中則是以 300 作為維度約化的維度數重新建置新的中文潛在語意空間。. 參、語意相似度計算經由 SVD 重新建置的矩陣 Ak，是將詞彙、段落句子或文章以向量形式呈現該詞彙、段落句子或文章在語意空間的相對位置，假設我們要判斷第 i 個詞彙和第 j 個詞彙的相似度，則可利用 VSM（vector space model）求兩向量的夾角的餘弦值(cosine)，即可求得其語意相似度，公式如下：. cos(t i ,t j ) =. ti t Tj ti t j. (2.5). 其中 ti 表示第 i 個詞彙在語意空間的向量表徵， ti 為 ti 向量的長度。 McNamara 等人（2007）的研究中所定義的文件語意相似度比對方法的公式如下：. 11.

(20) n. n. (∑ ai vi )(∑ bi vi )T. sim(T1 , T2= )= i. 1 =i 1 n n. ∑. (2.6). ∑. ai vi bi vi =i 1 =i 1 n 表示此語意空間的關鍵詞，vi 表示第 i 個詞彙向量表徵，ai 表示在 T1 文件中出現的關鍵詞的次數，而 bi 表示在 T2 文件中出現的關鍵詞的次數。此研究定義文件向量為將文件中出現的詞彙的向量加總，假設一文件中有語意空間中十個詞彙出現，即將這十個詞彙的詞彙向量加總，其公式如下：. v = v1 + v2 + ... + v10. (2.7). 在 LSA 建置的潛在語意空間中，皆可以利用兩向量的 cosine 值推算出詞彙與詞彙、詞彙與文件或文件與文件之間的語意相似度，其 cosine 值愈高，表示兩向量之間的夾角愈小，其語意相似度愈接近；相反的，cosine 值愈低，表示兩向量之間的夾角愈大，其語意相似度愈低。. 肆、詞彙在文件比對的重要性 McNamara 等人（2007）在研究中提出在進行文件的語意相似度比對時，文件中每個詞彙對於文件是否都有同樣的重要性的問題；一般認知是認為給予詞彙加權，權重愈大的詞彙對文件的影響較大。其研究所定義的文件與文件之間相似度公式如公式 2.6 與 2.7：此研究實驗分別刪除一個詞彙所形成的新文件與原來文件做語意相似度（cosine 值）比對，其研究結果發現經由 SVD 轉置重新建置的詞彙文件矩陣，詞彙的向量長度對於 LSA 的 cosine 值有負高相關（相關性=-0.94，p<0.01），即詞彙向量長度愈大，其刪除該詞彙之文件與原來文件兩者之間的 cosine 值愈低，表示在比對的文件中所出現的每個關鍵詞彙的重要性程度皆不相同。表 2-4 是其研究結果，LSA 為刪除該詞彙之文件與原來文件之 cosine 值，length 為該詞彙在語意空間中的向量長度， α i 為該詞彙在詞彙權重加權計算時的 entropy. 12.

(21) 權重值。表2-4 McNamara等人（2007）研究結果. as they were being dragged off cried for help. LSA. length. αi. .996 .969 .958 .962 .999 .953 .987 .998 .872. .10 .32 .34 .31 .04 .35 .19 .08 .56. .04 .07 .09 .20 .51 .19 .35 .03 .20. 根據 McNamara 等人（2007）的研究結果敘述，在詞彙文件加權共生矩陣中重要性較高的詞彙，在句子比對中的重要性卻不一定是最重要的。但是此項研究只以 LSA 計算出的 cosine 值當作比對詞彙重要性的依據，並未納入專家評分，因此本研究發展新的詞彙重要性指標與加入專家評分，並分別評估指標與專家之相關性。在國內相關研究部分，馮樹仁（2001）以 LSA 發展摘要寫作評量系統，利用 LSA 計算學生摘要句子與教師摘要句子之間的相關性以評量學生摘要寫作的能力，其研究中有使用不同的權重方法做為在評量學生的摘要時每個關鍵詞彙的重要性加權。其加權公式如下：. log( f i + 1)      f   f  −∑   n i  * log  n i     ∑ fi   ∑ fi    i     i . f i 表示摘要中第 i 個詞彙所出現的關鍵詞次數。. 13. (2.8).

(22) 根據上述公式進一步探討，發現此公式的詞彙加權方法有一限制，因為他只針對摘要句子中的關鍵詞彙進行公式轉換加權，因此當句子中每個關鍵詞次數都一樣時，每個詞彙權重都是一樣的，無法完全區別出每個詞彙的重要性。. 第二節造詞在閱讀認知的相關研究柯華葳（1999）認為閱讀包含認字和理解兩部分，其中認字是閱讀的基礎。如果認字困難或認字失敗的話，往往會造成接下去的閱讀歷程難以進行，導致較差的閱讀理解。而黃忻怡（2011）的研究提到，在認字的學習過程中，「字」總是被置於「詞」的脈絡中學習，甚至為求具備國字應用能力，必須要能針對國字「造詞」。在這些看似平常不過的識字學習過程背後，所代表的意義應有兩項：第一、「字」為無意義的形體單位，需置於有意義的「詞」單位中，才能在認知歷程裡啟動意義聯結，達到識字的有效性；第二、能運用國字造詞，代表個體對於單獨形體的「字」已產生意義聯結，且其詞彙量應達一定數量，「字」才能成為心理詞庫中的構詞要素-「詞素」，並組合不同詞素達到正確造詞的能力。 Chung and Hu（2007）的研究中運用詞彙輔以圖片教導同音異字，並於教學前分別進行中文年級認字量表和自編認字測驗（題目皆為學校中已學過的字），以做為一般認字能力和已習得的字彙知識能力，其研究對象為46個台灣幼稚園大班學生。研究結果發現，當字彙知識在經由統計控制後，詞素覺識能力和一般認字能力沒有顯著的相關性。而Wu et al.（2009）針對146位國小低年級學生進行詞素覺識能力與閱讀能力的縱貫性研究，研究者分別在小一和小二時進行詞素教學，其教學內容包含分析詞素的部件結構、詞的結構和意義、造詞等。研究結果發現，二年級的詞素教學對讀寫能力成效優於一年級詞素教學的成效，而且在一年級詞素教學過後，詞素覺識能力能單向預測閱讀能力；但到了二年級詞素教學後，詞素覺識能力和閱讀能力間則變成雙向相互預測的關係。根據上述兩個研究結果顯示，造詞能力需要經由不斷的學習經驗而累積，且隨著學習的詞彙量增多而逐漸進步，當學童累積一定的. 14.

(23) 詞彙量，能夠促使造詞能力的進步，而能夠進一步去促使閱讀能力的發展。過去其他在造詞對於閱讀認知的相關研究，陳慶順（2001）研究國小二年級的一般學生和識字困難學生在識字與認知能力上之表現，其研究發現識字困難學生在「看字造詞」的表現上顯著低於一般學生。而Leong and Ho（2008）在造詞能力測驗部分是利用填字的方式檢測兒童的造詞能力。其方式為給兒童一個字根，並希望兒童在一分鐘內進行造詞，其數量沒有限制，但所造出來的詞彙要具有意義而非無根據的造詞，造出的詞彙越多得分越高，例如：在一分鐘內要對「現」這個字根要進行造詞，則可以造出「出現」、「浮現」或是「呈現」…等詞彙。其研究在於探討一般造詞能力與閱讀的相關性，研究結果發現個體在限時內造詞的數量和正確性是閱讀理解和熟練度最強而有力的預測因子。某些造詞的相關研究則是以進階造詞能力為指標，例如要求造出與目標詞素同音但不同字的語詞；或要求造出與目標詞素意義相同與否的語詞，探討其能力與中文讀寫表現的關係。例如 Shu, McBride-Chang, Wu and Liu（2006）研究中實施的詞素建構測驗是針對指定詞素建構兩個語詞，一個必須與目標詞中的詞素意義相同，另一個則必須與目標詞中的詞素意義不相同，其研究對象為 152 位國小五、六年級的學生，依此詞素建構測驗結果當作學生的詞素建構能力。其研究結果顯示當控制了一般詞彙、聲韻覺識和快速唸名後，詞素建構能力對識字、聽寫、閱讀理解依然具有顯著的解釋量。Tong, McBride-Chang, Shu and Wong （2009）的研究方式則是以口頭呈現一個目標詞，第一階段要求受試者針對目標詞中的指定詞素造詞，第二階段則要求受試者建構與指定詞素同音但不同字的詞，研究對象為 171 位幼稚園學童。其研究方式研究結果發現此項能力除了能同時性預測認字、聽寫和閱讀理解表現外，還能預測一年後的讀寫能力。Liu and McBride-Chang（2010）是針對 121 位國小三年級的學童進行同音異字覺識測驗，除了要求受試者造出與目標詞中詞素意義相同的詞外，更要求造出與目標詞中詞素意義不相同的詞越多越好。研究結果顯. 15.

(24) 示，同音異字覺識能力與認字表現達顯著相關，且具極高的預測力。黃忻怡（2011）的研究是探討國小低年級學童字根造詞、中文斷詞與中文閱讀能力關係，其研究結果發現國小低年級學童的字根造詞能力會隨著年級增長而有顯著的進步，且字根造詞對於中文閱讀能力有顯著性相關。綜合上述研究，顯示造詞能力對於國小學童的閱讀學習歷程有重要的影響。. 第三節造句在閱讀認知的相關研究蘇宜芬（2004）的研究中提到，就中文閱讀的學習而言，在學校中有些學生會因為一些含有連接詞的句型掌握不佳，而影響到學生對於句子或段落的理解。就中文閱讀能力，如果學生是因為句型的不熟悉而導致理解上的困難，則加強句型的練習對這些學生可能是需要的。其研究並提出在造句練習過程中，老師應先從學生的生活經驗中取材，提供許多例句的示範，再進行由易而難的造句練習，這樣可能比較能讓學生學會不熟悉的句型，進而增進閱讀理解。過去造句的相關研究，例如陳姿蓉（1999）指出造句是幫助學生培養語法的一種方法。讓學生能正確的將詞語組合起來，形成一個通順而有意義的句子，而且可以讓學生發揮想像力和創造思考的能力。此外，造句的基礎有助於作文中句子的連貫和順暢，所以造句練習是學生必須熟練的。葉靖雲（2000）研究於比較不同年級（四、五、六）、不同能力（學習障礙與一般能力）學生在文章寫作和造句測驗的表現，其研究結果發現造句測驗能夠清楚鑑別不同年級與不同能力的學生。邱小芳、詹士宜（2009）的研究是探討詞彙導向之繪本教學對國小學習障礙學生的閱讀表現，其研究設計是依據繪本特性及文句脈絡教學設計了 12 項相關教學活動進行教學。而文句脈絡教學是從下下文意中加強學生對詞彙的理解，並使用其他例句或是造句練習協助兒童理解詞彙意義，並於閱讀中理解詞彙的作法。此研究目的雖然是以詞彙為主，但在幫助兒童理解詞彙應用時中利用口頭造句幫助以及引導學生以目標語詞進行口頭造句，顯示造句在詞彙理解、閱讀中占有重要部分。. 16.

(25) Chik 等人（2010）的研究是探討國小低年級（一至三年級）和高年級（四、五年級）的閱讀理解而言，什麼是重要的認知及閱讀相關技能，其研究中利用不同的認知能力來預測閱讀理解能力，其中包含使用詞彙排序的測驗來測試學童的中文造句的建構能力，測驗學童對中文句子組成規則的認識，以及複句中連接詞的使用方法。並評估兒童的閱讀認知技能對閱讀理解的預測力。綜合造詞與造句的相關研究，顯示造詞與造句對於學童在閱讀的學習過程占有重要的影響，造詞的學習歷程跟造句的建構規則與閱讀能力是息息相關的，但是比起其它認知能力對於閱讀之影響，探討造詞與造句對於閱讀認知的研究是非常少的，值得研究者關注與重視。. 第四節閱讀理解閱讀是人在學習中重要的技能之一，閱讀能發展腦力及啟發想像，對學習及成長將有莫大的助益。以兒童為例，兒童最主要的學習行為必須憑藉著閱讀來獲得書本中的知識，兒童的閱讀能力除了直接關係著兒童知識吸收的效率之外，還間接影響兒童處理問題的能力，所以閱讀能力對於兒童學習歷程是很重要且不容忽視的（藍慧君，1991）。閱讀是一種建構文章意義的過程，其主要的目的在於對文章的記憶和理解。為達此目的，須賴有效閱讀策略的運用。但在運用閱讀策略之前，須了解閱讀的基本特性，才能達到有效的運用。蘇國榮（1985）對於閱讀的特性定義如下：一、. 閱讀是有發展性，不同的發展階段有不同的閱讀問題。. 二、. 閱讀是有個別差異。. 三、. 閱讀能力與技巧是可以增進。. Lerner（2000）的研究則舉出閱讀具備的幾個性質：一、閱讀是建構的過程：讀者需運用先前經驗與知識，建構文章的意義。二、閱讀是有策略的：熟練而有技巧的讀者，能在不同的閱讀情境，適當而彈性的使用不同的策略。三、閱讀需要動機：. 17.

(26) 學習閱讀需要維持長時間的注意力，四、閱讀需達自動化：具備自動化的認字過程後，才能達到流暢的閱讀。五、閱讀是終身的追求：閱讀是一種持續性發展的技能，透過不斷地改進與學習，便能夠提昇表現。閱讀的最終目的在於理解，也就是有能力從文本中蒐集意義（張世慧、楊坤堂， 2005）。Swaby（1989）認為閱讀即是技能之表現，而技能可分為四個不同層次的理解（引自林翠玲，2007）：一、字義的理解是指讀者可從字句中的語意，了解文章中述說清楚的主題、思想。其相關的技能包括回憶事實、細節、次序，並且知道字的意義。二、推論的理解是指讀者根據文章中描述的訊息，再以自己的經驗，直覺推論其隱涵的意義。其相關的技能包括推論中心思想，做適當的解釋、預測、比較、對照、因果等。三、評鑑的理解是指依據文章所傳達的訊息而產生自己的觀點。其相關的技能包括價值判斷、決定主張，支持或拒絕某些意見。四、批評的理解是指分析閱讀材料的格式、內容。其相關的技能包括知道文章思想的邏輯性和一致性、區別文章字句的型式和語態。 Pressley（2000）的研究中將閱讀理解概分為兩個層次：一、字彙理解層次字彙理解層次為較低層的理解，只要閱讀者具備自動化的解碼技巧，再加上足夠的字彙，理解便可產生。二、文章理解層次文章理解層次為較高層次的理解，主要是強調句子間、段落間，及整篇文章的理解。. 18.

(27) 這樣的理解，閱讀者除了需要具備充分的字彙知識外，還要有足夠的先備知識及閱讀策略，才能產生理解。錡寶香(1999)指出閱讀歷程本身是一種非常複雜、動態的心智活動，其中包含了幾個相互關聯、交互運作的認知歷程，以及需要知覺、語言、認知、動作協調。而有研究發現大約有 80%的學習障礙者有文字認知和閱讀理解方面的困難，其中包括聽、說、讀、寫與字彙辨認及正確掌握音韻等（Lerner，2000；孟瑛如，2002），顯示閱讀理解在一般能力閱讀者和閱讀障礙者之間具有區辨力。綜合上述研究，閱讀理解在學童的閱讀過程中扮演重要的角色，而閱讀理解需仰賴字彙的理解與文章的理解，顯示出學童在字彙語句子之間的認知程度的高低會影響到自身的閱讀理解，因此探討詞彙、句子與閱讀理解之關係是必要的。. 19.

(28) 20.

(29) 第三章研究方法本研究目的是發展詞彙重要性指標，並評估詞彙重要性與專家評分之成效，且應用於 LSA 造詞、造句自動化計分，最後探討字根造詞、造句與閱讀理解之關係。本章節共分為七節，依序為研究流程、詞彙重要性指標的發展與評估方法、LSA 造詞、造句自動化計分模式、字根造詞、造句與閱讀理解之關係、研究對象、資料處理分析與研究工具，茲分述如下。. 第一節研究流程本研究之研究流程圖如圖 3-1 所示，本研究先蒐集潛在語意分析、造詞、造句與閱讀理解的相關文獻以進行潛在語意分析、造詞、造句與閱讀理解相關文獻之探討。接著應用 LSA 發展詞彙的重要性指標，請語文方面專家對於詞彙在閱讀的重要性與詞彙在句子的重要性進行評分以評估指標的成效。並依重要性指標發展 LSA 造詞、造句自動化計分。接著進行蒐集資料，蒐集資料後進行資料分析，最後撰寫研究報告並提出研究成果與建議。. 21.

(30) 相關文獻閱讀. 發展詞彙的重要性指標. 詞彙重要性指標評估. 發展 LSA 自動化計分模式. 資料蒐集. 資料分析. 評估成效. 撰寫研究報告提出結果與建議圖 3-1 研究流程. 22.

(31) 第二節詞彙重要性指標的發展與評估方法文獻探討詞彙在句子的重要性部分，McNamara 等人（2007 ）發現詞彙在句子中的重要性與詞彙在語意空間中的向量長度有很大的相關性，但其研究是以逐一刪除詞彙所形成的新句子與原有句子進行語意相似度的比對，並未納入專家評分，因此本研究將加入專家評分部分，並發展新的指標，以下就本研究與專家評分作比較的指標分別說明，並說明評估的方法。. 壹、潛在語意空間的詞彙向量長度根據 McNamara 等人（2007）的研究，將 U、Σ、VT 重新相乘形成新的矩陣 A’， A’及代表潛在語意空間，其中 A’矩陣中的每一列向量表示每個詞彙的向量，其每一個詞彙的向量長度公式定義如下：. Ti = Ui ∑ V T. (3.1). Ti 表示第 i 個詞彙在潛在語意空間中的向量表徵， Ti 即為 Ti 向量的長度。. 貳、 Entropy 權重 McNamara 等人（2007）的研究中發現在進行詞彙-文件共生矩陣加權時所使用的詞彙 entropy 權重與句子中每個詞彙的重要性程度無顯著相關，但因其未考慮專家評分，所以本研究在評估指標與專家評分之成效時也加入 entropy 權重作為本研究評估的指標之一。其 entropy 權重公式如第二章公式 2.3。. 參、詞彙重要性指標 1 本研究除了納入語意空間中的詞彙向量長度之外，也考慮到每一個詞彙在詞彙文件共生矩陣的出現總次數，如果詞彙出現次數頻繁，則應該要給予較小的權重。因此將兩者結合做下列公式轉換：詞彙重要性= log(. Ti ) ，i=1,2,…,n tf i. 23. (3.2).

(32) Ti 表示第 i 個詞彙向量長度，n 代表詞彙-文件共生矩陣中的關鍵詞彙數，tfi 表示第. i 個詞彙在詞彙-文件共生矩陣中所出現的總次數。本研究藉由上述公式得到的詞彙重要性，再將其作線性轉換使得詞彙重要性權重值的範圍介於 0~1 之間，取對數與作線性轉換是為了縮小詞彙重要性的值之間的差距並讓值呈現正數將其定義為本研究發展的詞彙重要性指標之一。. 肆、詞彙重要性指標 2 詞彙重要性指標 1 是考慮詞彙的總次數，而此新指標與 entropy 權重類似，是考慮詞彙在共生矩陣中所出現的文件數，如果詞彙在語料庫中的文件中出現很多次，則應該要給予較小的權重，並加入詞彙向量長度作公式的轉換，其公式定義如下：詞彙重要性= log(. Ti ) ，i=1,2,…,n df i. (3.3). Ti 表示第 i 個詞彙向量長度，n 代表詞彙-文件共生矩陣中的關鍵詞彙數，dfi 表示第. i 個詞彙在詞彙-文件共生矩陣中所出現的文件數。本研究藉由上述公式得到的詞彙重要性，再將其作線性轉換使得詞彙重要性權重值的範圍介於 0~1 之間，取對數與作線性轉換是為了縮小詞彙重要性的值之間的差距並讓值呈現正數。. 伍、詞彙在閱讀的重要性評估依據本章第二節所發展的詞彙重要性指標，探討詞彙在閱讀的重要性。本研究從語料庫中依據關鍵詞彙的詞頻分為高、中、低，從中各選取 5 個關鍵詞彙，共計 15 個詞彙，並請 2 位語文方面專家針對此 15 個詞彙進行詞彙在閱讀重要性程度評分。如果專家認為該詞彙在閱讀中占有較多的重要性，即給予高重要性，其專家評分方式是根據文本中的情境與類型，專家先以關鍵詞的詞性為評分依據，在閱讀中，動詞跟名詞所佔的重要性較高，而輔助關鍵詞（例如：因為、所以…等）為次要。其計分方式採 0~5 分，5 分代表詞彙在閱讀重要性程度最高，0 分代表最低。其評估方式以本研究所發展的指標計算各指標所計算得到的 15 個詞彙的權重與專家評分. 24.

(33) 之相關性，相關性愈高代表指標成效愈好。. 陸、詞彙在句子的重要性評估本研究發展的詞彙重要性指標，將其應用於詞彙在句子重要性評估，本研究依 Liao 等人（2011）所發展的以字造句與以詞造句測驗從題目中依難易度分為高、中、低，各隨機挑選三個句子，共計六個句子，請兩位語文方面專家依此六個句子各出現的關鍵詞彙進行重要性評分，專家認為該詞彙在該句子中所佔的重要性愈高，即給予高重要性，其專家的評分方式會先以句子組成的規則做為詞彙重要性評分的依據，例如句子組成是以主語加上謂語為主，則主語與謂語的詞彙的重要性較高，而修飾語的詞彙則為次要。計分方式採 0~5 分，5 分代表詞彙重要性程度最高，0 分代表最低。評估方式以詞彙重要性指標所計算得到的詞彙權重，計算其權重與專家評分之相關性，相關性愈高代表指標的成效愈好。. 第三節 LSA 造詞、造句自動化計分模式壹、 LSA 造詞計分根據本章第二節所發展出的詞彙在閱讀的重要性指標，將其應用於字根造詞計分方式，每個詞彙都給予一個權重，不同於一般傳統造詞計分方式所採用的二元計分。. 貳、 LSA 造句計分在 LSA 造句計分部分，依本研究發展的詞彙在句子重要性指標、entropy 權重與馮樹仁所使用的詞彙權重加權方法，每個詞彙都會給予一個權重，並將原本只以句子中關鍵詞的次數所形成的向量，與詞彙在句子重要性的權重值相乘，而得到新的加權向量，作為句子新的向量表徵。. 25.

(34) 利用上述方法可分別得到標準答案或受試者的答案轉換到潛在語意空間的向量表徵。而我們在比對標準答案的句子與受試者的答案句子之語意相似度時，可利用下列公式：. sim( S1 , S 2 ) =. d1d 2T d1 d 2. (3.4). d1 是將標準答案的句子（S1）以向量形式表示，向量則是經過詞彙重要性加權過後得到的新向量；d2 則是將受試者作答的句子（S2）以向量形式表示，也是經過詞彙重要性加權後所得到的新向量。而在造句測驗中每一道題目皆有該題的分數，而 LSA 自動化計分公式如下：. scoreitem = sim( S1 , S 2 ) * sitem. (3.5). s 表示該題的分數，score 則表示受試者在該題得到的分數。本研究將根據不同指標的詞彙權重加權方法所得到受試者的造句分數與專家評分進行成效評估。. 第四節字根造詞、造句與閱讀理解之關係本研究為探討字根造詞、造句與閱讀理解之關係，因此使用階層式迴歸分析探究字根造詞、造句（以字造句、以詞造句）對於閱讀理解之預測度，本研究分別以傳統計分方式在排除受試者年齡與非語文智商後，字根造詞、造句（以字造句、以詞造句）對於閱讀理解之預測度；也以詞彙重要性指標對於計算受試者答案與標準答案之語意相似度時進行詞彙權重加權計分所得到的分數，探究在排除受試者年齡與非語文智商後，字根造詞、造句（以字造句、以詞造句）對於閱讀理解之預測度。最後比較以 LSA 造句計分與專家評分之差異。. 第五節研究對象本研究在造詞與造句測驗部分是採用紙筆測驗，其受試者樣本取自於台中市忠信國小與台中市信義國小六年級學童，並排除智能障礙、情緒障礙的學童，經過篩. 26.

(35) 選後，受試者人數共計 113 名學童，其中男生 57 人，女生 56 人（年齡介於 11 歲 8 個月至 13 歲 7 個月，平均為 12 歲 2 個月）。. 第六節資料處理分析本研究量化資料採用 SPSS for Window 進行分析，統計方法包括描述性統計、積差相關與階層式迴歸，其各資料處理分析說明如下。. 壹、描述性統計描述兒童在字根造詞測驗、造句測驗專家評分與 LSA 自動化計分，以及閱讀理解測驗之結果，如平均值、標準差、最大值及最小值。. 貳、皮爾遜積差相關（Pearson product-moment correlation）本研究旨在探討詞彙重要性指標在詞彙的閱讀重要性、詞彙在句子的重要性與專家評分之成效，因此使用皮爾遜積差相關比較詞彙重要性指標與專家評分之相關性，相關性愈高表示成效愈好。此外，本研究為了探討指標應用於造句自動化計分之成效，也使用皮爾遜積差相關比較 LSA 造句自動化計分與專家評分之相關性，相關性愈高表示成效愈好。本研究探討項目如下：一、檢視詞彙重要性指標在詞彙閱讀的重要性與專家評分之相關程度。二、檢視詞彙重要性指標在句子中詞彙的重要性與專家評分之相關程度。三、檢視以字造句、以詞造句測驗 LSA 造句自動化計分與專家評分之相關程度。. 參、階層式迴歸分析（Hierarchical regression）本研究使用階層式迴歸分析探討的項目如下：一、檢視字根造詞（二元計分、LSA 自動化計分）、以字造句（專家評分、LSA 自動化計分）分別對於閱讀理解之預測度。二、檢視字根造詞（二元計分、LSA 自動化計分）、以詞造句（專家評分、LSA. 27.

(36) 自動化計分）分別對於閱讀理解之預測度。. 第七節研究工具壹、語料庫本研究使用之語料庫為中央研究院建置的現代漢語平衡語料庫（3.1）版，語料庫內容共有 9227 份文件，約五百萬詞。本研究是以詞為單位以進行關鍵詞篩選，共挑選出 78448 個詞彙作為本研究定義之關鍵詞，並將 9227 份文件分割成 38444 份文件，其每份文件大小平均約 200 個字（平均數=205，標準差=48），本研究是以 300 維度作維度約化，依此建置的共生矩陣使用 LSA 技術建置中文潛在語意空間。. 貳、字根造詞測驗本研究所使用的測驗為廖晨惠（2009）所編制的字根造詞測驗，其施測方式採用團體測驗方式進行。該測驗目的是評量學童在限時的情況下，判斷能與字根組合成詞的構詞敏感度。其測驗共有 10 題，測驗內容包含 10 個高頻字為造詞的字根，排列方式由上而下，每個字根左右各放置 6~9 個不同的國字，受試者必須在 5 分鐘的時限內，判斷將能和字根組合成雙字詞的字圈起來，正確圈選的字數即為得分。圖 3-2 為字根造詞之範例。. 故、早、在、樹、手、心. 上. 去、冷、學、面、把、衣. 圖 3-2 字根造詞範例. 參、造句測驗本研究所使用的造句測驗是 Liao 等人（2011）所編制的造句測驗，分為以字造句跟以詞造句，分別以字跟以詞讓受試者根據這些字或詞進行排列組合以組成一個. 28.

(37) 語法正確的句子，題目中使用到的字或詞越多且語法正確分數越高。表 3-1 與表 3-2 分別為以字造句與以詞造句之例題。. 表3-1 以字造句例題題目. 裡、在、遊、院、玩、戲、我、子. 答案. 我在院子裡玩遊戲. 表3-2 以詞造句例題題目. 長大、在、我們、中、歡笑. 答案. 我們在歡笑中長大. 肆、程式撰寫工具本研究是使用 MATLAB 程式工具來建置中文的潛在語意空間，並發展詞彙重要性指標與 LSA 造詞與造句自動化計分模式。. 29.

(38) 30.

(39) 第四章研究結果與討論本研究成果可分為詞彙在閱讀的重要性指標與專家評分之成效、詞彙在句子的重要性指標與專家評分之成效與 LSA 造句自動化計分與專家評分之成效，以及檢視傳統計分與 LSA 自動化計分分別在字根造詞、造句（以字造句、以詞造句）與閱讀理解之關係，茲研究成果分別敘述如下。. 第一節詞彙在閱讀的重要性指標評估之成效壹、評分者一致性本研究請兩位語文方面專家進行詞彙在閱讀的重要性評分，根據本研究從語料庫依詞頻分為高、中、低各挑選 5 個詞彙，共計 15 個詞彙請專家進行評分，表 4-1 為本研究所挑選的詞彙與專家評分結果。表 4-1 詞彙在閱讀重要性-專家評分結果詞彙專家評分 1 專家評分 2 依 1 2 應用 4 4 不過 5 4 所 1 1 就 1 3 定 5 5 措施 5 4 推廣 4 4 提高 5 4 項目 4 4 移轉為 1 2 鬱鬱寡歡 3 3 無利可圖 4 3 皎然 5 5 縈迴 3 3. 31.

(40) 根據表 4-1，兩位評分者評分結果之相關性為 0.879，顯示評分者之間有高度一致性。. 貳、詞彙重要性指標與專家評分之成效本研究使用皮爾遜積差相關比較各詞彙重要性指標與專家評分之相關性，以評估各指標對於詞彙在閱讀的重要性之成效。其研究結果如表 4-2：. 表 4-2 專家評分與各重要性指標之相關矩陣. 1.專家評分. 1. 2. 3. 4. 5. ─. -.555 *. .580*. .619*. .618*. ─. -.888**. -.894**. -.873**. ─. .977**. .978**. 2.詞彙向量長度 3.entropy 權重. ─. 4.詞彙重要性指標 1. ─. 5.詞彙重要性指標 2 *p<.05. .997**. **p<.01. 根據表 4-2 的研究結果，顯示各詞彙重要性指標接與專家評分達顯著相關，專家評分與詞彙向量長度呈現負顯著中度相關（r = -.555）；專家評分與 entropy 權重呈現顯著中度相關（r =.580）；專家評分與本研究發展的兩個詞彙重要性指標皆呈現顯著高度相關（r = .619 和.618）。. 參、綜合討論依據上述研究結果說明以評估詞彙在閱讀的重要性程度，各指標對於詞彙在閱讀的重要性與專家評分皆達顯著相關，顯示各指標可以區分出每一詞彙在閱讀的重要性程度是不同的。但詞彙向量長度、entropy 權重與專家評分是呈現顯著中度相關（r = -.555 和.580），而本研究發展的新詞彙重要性指標與專家評分皆呈現顯著高度. 32.

(41) 相關（r =.619 和.618），顯示本研究所發展的詞彙重要性指標對於詞彙在閱讀的重要性有較好的成效，而比較本研究所發展的兩個詞彙重要性指標，其詞彙重要性指標 1 略優於詞彙重要性指標 2。. 第二節詞彙在句子的重要性指標評估之成效壹、評分者一致性本研究從以字造句與以詞造句測驗中依難易度分成高、中、低，各隨機挑選一個句子，共計六個句子。其每一個句子中所呈現的關鍵詞彙請兩位語文方面專家根據這些詞彙在該句子中的重要性程度進行評分，其計算每一句子兩位評分之相關性，最後取六個句子評分者的相關性平均。其評分結果，兩位專家評分之間的相關性為 0.954，顯示評分者之間有高度一致性。. 貳、詞彙重要性指標與專家評分之成效從本研究使用的造句測驗中，是根據以字造句與以詞造句分別按照難易度高、中、低各挑選一個句子，共六個句子進行評估詞彙重要性指標與專家評分之成效。本研究使用皮爾遜積差相關比較各詞彙重要性指標與專家評分之相關性，以評估各指標對於詞彙在句子的重要性之成效。表 4-3 為本研究所挑選的句子與其句子中包含的關鍵詞彙，表 4-4 則為詞彙在句子中重要性專家評分結果。測驗內容. 表4-3 挑選之句子題目. 難易度. 編號. 低. 1. 裡、在、遊、院、玩、戲、我、子. 中. 2. 假、回、我、享、暑、時、快、的、憶、分、愉、們. 高. 3. 比、下、遺、時、只、以、赴、力、會、留、憾、有、全、才、不、賽. 以字造句. 33. 關鍵詞彙我、在、院子、裡、玩、遊戲我們、分享、暑假、時、愉快、的、回憶比賽、時、只有、全力以赴、才、不會、留下、遺憾.

(42) 低. 4. 中. 5. 高. 6. 以詞造句. 句子. 句子 1. 句子 2. 句子 3. 我們、在、歡笑、中、長大他、在、相簿、記錄、裡、的、笑容、相簿、他、裡、記錄、燦燦爛、在爛、的、笑容只有、錯誤、的、殘酷、他、抉擇、悲劇、的、的、抉擇、才才、錯誤、招致、只有、會會、招致、殘酷、的、悲劇長大、在、我們、中、歡笑. 表4-4 詞彙在句子重要性-專家評分結果詞彙專家評分 1 我 5 在 3 院子 4 裡 2 玩 5 遊戲 5 我們 5 分享 5 暑假 4 時 2 愉快 3 的 1 回憶 5 比賽 5 時 2 只有 4 全力以赴 5 才 4 不會 5 留下 3 遺憾 5. 34. 專家評分 2 5 2 4 1 5 5 5 5 4 2 4 1 5 5 1 4 5 4 5 4 5.

(43) 句子. 句子 4. 句子 5. 句子 6. 表4-4 詞彙在句子重要性-專家評分結果(續) 詞彙專家評分 1 專家評分 2 我們 5 5 在 3 3 歡笑 4 5 中 3 3 長大 5 5 他 5 5 在 2 3 相簿 4 4 裡 2 1 記錄 5 5 燦爛 3 4 的 1 1 笑容 5 5 他 5 5 為了 4 4 遞送 4 4 情意 4 4 唱出 5 5 扣人心弦 5 5 的 2 1 歌曲 5 5. 表 4-5 至表 4-10 分別為本研究所挑選的六個句子在進行詞彙權重指標與專家評分相關程度分析之結果。. 35.

(44) 表 4-5 句子 1 專家評分與各重要性指標之相關矩陣 1.專家評分. 1. 2. 3. 4. 5. ─. -.005. .452. .573. .561. ─. -.665. -.558. -.372. 2.詞彙向量長度 3.entropy 權重. ─. 4.詞彙重要性指標 1. .959*. .903*. ─. .978** ─. 5.詞彙重要性指標 2 *p<.05. **p<.01 表 4-6 句子 2 專家評分與各重要性指標之相關矩陣. 1.專家評分. 1. 2. 3. 4. 5. ─. -.092. .667. .754. .773*. ─. -.709. -.364. -.410. ─. .902. .930. 2.詞彙向量長度 3.entropy 權重. ─. 4.詞彙重要性指標 1. ─. 5.詞彙重要性指標 2 *p<.05. .990**. **p<.01 表 4-7 句子 3 專家評分與各重要性指標之相關矩陣. 1.專家評分 2.詞彙向量長度. 1. 2. 3. 4. 5. ─. -.461. .599. .763. .759. -.751*. -.657. ─. 3.entropy 權重. ─. .914** ─. 4.詞彙重要性指標 1. .853** .988** ─. 5.詞彙重要性指標 2 *p<.05. -.913**. **p<.01. 36.

(45) 表 4-8 句子 4 專家評分與各重要性指標之相關矩陣. 1.專家評分. 1. 2. 3. 4. 5. ─. -.111. .592. .707. .758. ─. -.759. -.588. -.533. 2.詞彙向量長度 3.entropy 權重. ─. 4.詞彙重要性指標 1. .956*. .945*. ─. .995** ─. 5.詞彙重要性指標 2 *p<.05. **p<.01 表4-9 句子5專家評分與各重要性指標之相關矩陣. 1.專家評分. 1. 2. 3. 4. 5. ─. -.102. .533. .707*. .659. ─. -.670. -.463. -.418. ─. .937. .936. ─. .986*. 2.詞彙向量長度 3.entropy 權重 4.詞彙重要性指標 1. ─. 5.詞彙重要性指標 2 *p<.05. **p<.01 表4-10 句子6專家評分與各重要性指標之相關矩陣. 1.專家評分 2.詞彙向量長度. 1. 2. 3. ─. .028. .557. ─. 3.entropy 權重. ─. .846** -.472 .910** ─. 4.詞彙重要性指標 1. 5 .779** -.563 .952** .993** ─. 5.詞彙重要性指標 2 *p<.05. -.766**. 4. **p<.01. 37.

(46) 表 4-5 至表 4-10 為詞彙重要性指標與專家評分在各句子中的相關性，從各表可以看出詞彙重要性指標只有在句子 2、5、6 這三個句子中與專家評分有達顯著性相關。其他句子雖然與專家評分沒有達顯著，但只針對表 4-5 至表 4-10 的各指標的結果可以發現本研究發展的指標 1 與指標 2 與專家評分的相關性仍較高。而相關程度會受到樣本大小影響，本研究所挑選的句子其所包含的關鍵詞彙最多為 9 個，平均詞彙數為 7 個，因此較不容易達到顯著。因此本研究將以字造句與以詞造句各三個句子中所有的關鍵詞彙進行合併，並計算其不同的詞彙重要性指標得到的權重與專家評分的相關程度，其結果如表 4-11 與表 4-12。表4-11 以字造句-專家評分與各重要性指標之相關矩陣. 1.專家評分. 1. 2. 3. ─. -.083. .554*. ─. -.714**. 2.詞彙向量長度 3.entropy 權重. ─. 4 .701** -.471* .888** ─. 4.詞彙重要性指標 1. .695** -.398 .884** .973** ─. 5.詞彙重要性指標 2 *p<.05. 5. **p<.01 表4-12 以詞造句-專家評分與各重要性指標之相關矩陣. 1.專家評分 2.詞彙向量長度. 1. 2. 3. ─. -.064. .530*. ─. -.709**. 3.entropy 權重. ─. .754** -.463* .916** ─. 4.詞彙重要性指標 1. 5 .695** -.477* .942** .986** ─. 5.詞彙重要性指標 2 *p<.05. 4. **p<.01. 38.

(47) 表 4-11 是計算以字造句中三個句子中的所有關鍵詞彙在不同的詞彙重要性指標得到的權重與專家評分的相關程度，其研究結果發現，詞彙向量長度與專家評分無顯著相關，而 entropy 權重則是與專家評分呈現顯著中度相關（r =.554）；而本研究發展的詞彙重要性指標 1 與指標 2 皆與專家呈現顯著高度相關（r =.701 和 r =.695）。表 4-12 則是計算以詞造句的三個句子中的所有關鍵詞彙在不同的詞彙重要性指標得到的權重與專家評分的相關程度，根據表 4-12 的呈現結果，詞彙向量長度與專家評分並沒有顯著相關；entropy 權重則與專家評分呈現顯著中度相關（r =.530）；而詞彙重要性指標 1 與指標 2 同樣與專家評分呈現顯著高度相關（r =.754 和 r =.695）。. 參、綜合討論綜合表 4-11 與表 4-12 的研究結果，發現詞彙向量長度在句子的重要性與專家評分並無顯著相關，而 entropy 權重則與專家評分達顯著中度相關，這與 McNamara 等人的研究呈現不同的結果。進一步討論，發現利用 LSA 在進行句子語意相似度比對時，第二章文獻探討中句子語意相似度計算的公式與詞彙向量長度有關，顯示在計算語意相似度時受到詞彙向量長度影響較大，而 entropy 權重只是在共生矩陣時對詞彙進行的加權動作而得到詞彙的權重值，並且需經由 SVD 與維度約化後重新建置的潛在語意空間才能進行句子語意相似度比對，因此 entropy 權重經由上述這些步驟後，造成與語意相似度 cosine 值之間的相關程度較小。而本研究所發展的詞彙重要性指標 1 與指標 2 皆與專家評分達顯著高度相關，顯示本研究所發展的詞彙重要性指標有良好的評估成效，也顯示在句子中每個詞彙都有不同的重要性。. 第三節 LSA 造句自動化計分評估之成效本研究在此節先敘述國小六年級學童在以字造句與以詞造句的表現，接著評估 LSA 造句自動化計分（以字造句、以詞造句）與專家評分之成效，最後進行綜合討論。. 39.

(48) 壹、國小六年級學童在以字造句與以詞造句之表現本研究是以紙筆測驗方式進行以字造句跟以詞造句測驗，待施測資料蒐集完成後進行樣本篩選，針對其中一項測驗未作答或是作答狀況有異的樣本進行刪除，最終有效樣本為 113 人，其中男生 57 人，女生 56 人（年齡介於 11 歲 8 個月至 13 歲 7 個月，平均為 12 歲 2 個月）。表 4-13 為國小六年級學童在以字測驗與以詞測驗的表現，其中包含專家評分與各詞彙重要性指標加權計分而得到的分數，其表格呈現各分數的平均數、標準差、最大值與最小值，其中 LSA 計分為 LSA 未加入詞彙權重計算得到的分數； LSA_entropy 為加入 entropy 權重後計算所得到的分數；LSA_1 計分為利用本研究所發展的詞彙重要性指標 1 作為詞彙加權計分計算而得到的分數；LSA_2 計分則是利用本研究所發展的詞彙重要性指標 2 作為詞彙加權計分計算而得到的分數，LSA_3 計分則是馮樹仁（2001）使用的詞彙加權方法。. 表4-13 國小六年級孩童在以字造句、以詞造句測驗的表現（N=113）測驗內容計分方式平均數標準差最小值最大值. 以字造句. 專家評分. 104.42. 19.57. 29. 119. LSA計分 LSA_entropy計分 LSA_1計分 LSA_2計分 LSA_3計分專家評分. 112.30 111.62 111.33 111.53 113.04. 12.71 13.49 13.52 13.47 13.42. 59 52.99 52.77 53.23 49.44. 119 119 119 119 119. 61.14. 12.14. 10. 74. 9.05 9.13 9.13 9.16 9.05. 14.94 13.17 13.34 12.90 14.94. 74 74 74 74 74. LSA計分 70.01 LSA_entropy計分 69.84 以詞造句 LSA_1計分 69.84 LSA_2計分 69.85 LSA_3計分 70.02 註記：1.所有數據皆四捨五入到小數第二位。. 40.

(49) 貳、LSA 造句自動化計分與專家評分之成效本研究的造句測驗分為以字造句與以詞造句兩個測驗，本研究就兩個測驗評估 LSA 造句自動化計分與專家評分結果之成效的研究結果分別說明。其中表 4-14 為以字造句 LSA 自動化計分與專家評分之相關程度，表 4-15 為以詞造句 LSA 自動化計分與專家評分之相關程度。. 表4-14專家評分與LSA造句自動化計分之相關矩陣-以字造句. 1.專家評分. 1. 2. 3. ─. .776**. .817*. .821**. .817**. .738**. ─. .991**. .990*. .991**. .980**. .998**. .999**. .964**. .999**. .963**. 2.LSA. ─. 3.LSA_entropy. 4. ─. 4.LSA_1. 5. ─. 5.LSA_2. .963** ─. 6.LSA_3 *p<.05. 6. **p<.01. 表4-15專家評分與LSA造句自動化計分之相關矩陣-以詞造句. 1.專家評分. 1. 2. 3. ─. .678**. .684*. .683**. .682**. .678**. ─. .999**. .999*. .999**. .999**. .999**. .999**. .997**. .999**. .997**. 2.LSA 3.LSA_entropy. ─. ─. 4.LSA_1. 5. ─. 5.LSA_2. 6. .997** ─. 6.LSA_3 *p<.05. 4. **p<.01. 41.

(50) 根據表 4-14 的研究結果，在以字造句測驗部分，專家評分與未考慮詞彙權重的 LSA 自動化計分呈現顯著高度相關（r = .776）；而加入 entropy 詞彙權重的 LSA 自動化計分與專家評分也呈現顯著高度相關（r = .817）；加入本研究所發展的詞彙重要性指標則一樣分別呈現顯著高度相關（r = .821 和 r = .817）；而馮樹仁所使用的詞彙加權方法得到的自動化計分與專家評分也是呈現顯著高度相關（r = .738）。表 4-15 則是呈現以詞造句測驗的研究結果，未考慮詞彙權重的 LSA 自動化計分與專家評分呈現顯著高度相關（r = .678）；加入 entropy 詞彙權重的 LSA 自動化計分與專家評分一樣呈現顯著高度相關（r = .684）；而本研究所發展的詞彙重要性指標也一樣分別呈現顯著高度相關（r = .683 和 r = .682）；馮樹仁所使用的詞彙加權方法得到的自動化計分與專家評分也是呈現顯著高度相關（r = .678）。. 參、綜合討論根據表 4-14 與表 4-15 呈現的研究結果，LSA 自動化計分模式與專家評分之間有顯著的高相關，本研究比較五種 LSA 計分模式在以字造句測驗部分，未考慮詞彙加重要性加權的 LSA 計分模式與專家評分之間相關性較低（r = .776），而以 LSA_1 計分模式，即是本研究所發展的詞彙重要性指標 1 與專家評分之間有較高的顯著相關性（r = .821）；而三種加入詞彙重要性加權（LSA_entropy、LSA_1、LSA_2）的計分模式與專家評分的相關性皆高於未考慮詞彙加重要性加權的 LSA 計分模式，顯示句子中每個詞彙重要性並不相同，加入詞彙重要性可以提升 LSA 在造句計分時與專家評分的準確性。而以詞造句測驗部分雖然五種 LSA 計分模式也呈現顯著高度相關（r 介於.678 和.684 之間），但是如果與以字造句進行比較，其與專家評分相關性明顯低於以字造句測驗的計分。本研究進一步探討，發現在利用 LSA 進行比對受試者所造的句子答案與標準答案的語意相似度時，需先將句子進行斷詞處理，因為 LSA 的句子語意相似度比對是以句子中的關鍵詞彙為主，例如句子為藍藍的天空很美麗，將句子進行斷詞後即成. 42.