應用潛在語意分析於試題相似度比較之可行性

全文

(1)國立臺灣師範大學資訊教育研究所碩士論文. 指導教授：何榮桂博士. 應用潛在語意分析於試題相似度比較之可行性 The feasibility of applying Latent Semantic Analysis to analyze Item similarity. 研究生：. 中華民國. 陳彥霖撰. 九十五年七月.

(2) 中華民國. 九十五年七月. 摘要. 應用潛在語意分析於試題相似度比較之可行性陳彥霖. 本研究旨在應用潛在語意分析(Latent semantic analysis，LSA)模型於試題相似度之判斷，並探討不同的評分函式對於結果的影響，同時根據試題關鍵字的特性，與 LSA 模型處理詞彙共現(Lexically Co-occur)的特性，提出訓練文件可採用相關文件來提高判斷的精確率。研究結果使用 dice 或內積為評分函式較接近專家評鑑結果，對於專家相似度評鑑比較一致的試題，有高達 0.9 的相關程度，而平均相關值也有 0.7 以上的相關程度，因此潛在語意分析應用於試題相似度是可行的技術。. 關鍵字：潛在語意分析、LSA、試題相似、評分函式. i.

(3) ABSTRACT. The feasibility of applying Latent Semantic Analysis to analyze Item similarity by Chen, Yan-Lin The purpose of this study is to apply latent semantic analysis (LSA) to analyze item similarity , and discuss the result of using different score function. The feature of LSA model is “Lexically Co-occur” detection , in other words, LSA model can analyze many documents, and find synonyms , but synonyms rarely exist in the same item , so LSA model needs to be trained by documents which are related to this item . This study revealed that the result using dice measure or inner product measure correlates more closely with expert’s scores. For the items which is more agreeable of expert’s scores than others , the maximum correlation is up to 0.9, and the mean of correlation is up to 0.7, so applying latent semantic analysis to analyze item similarity is a feasible technology. keyword：latent semantic analysis、LSA、Item similarity、score function. ii.

(4) 目錄中文摘要.........................................................................................................................i 英文摘要........................................................................................................................ii 表目錄............................................................................................................................v 圖目錄...........................................................................................................................vi 第一章緒論..................................................................................................................1 第一節研究動機與目的......................................................................................1 第二節研究目的..................................................................................................2 第二章文獻探討..........................................................................................................4 第一節命題技巧與原則......................................................................................4 第二節潛在語意分析..........................................................................................6 第三節關鍵字的選取........................................................................................15 第四節關鍵字的權重........................................................................................15 第五節中研院-中文斷詞系統 ..........................................................................17 第三章研究方法與步驟............................................................................................19 第一節研究步驟................................................................................................19 第二節研究工具................................................................................................20 第三節實驗設計................................................................................................21 第四章結果與討論....................................................................................................27 第一節外在效標建立........................................................................................27 第二節評分函式在判斷不同相似度之分析....................................................29 第三節關鍵字選取之分析................................................................................37. iii.

(5) 第四節使用相關文件訓練有無之分析............................................................43 第五節研究結果................................................................................................48 第五章結論與建議....................................................................................................51 第一節結論........................................................................................................51 第二節建議........................................................................................................52 參考文獻......................................................................................................................53 附錄一、中研院平衡語料庫詞類標記集..................................................................58 附錄二、高中歷史題庫概況表..................................................................................60 附錄三、潛在語意分析系統介面..............................................................................61 附錄四、評鑑所使用的試題範例..............................................................................62 附錄五、相似度評鑑系統介面..................................................................................65 附錄六、評鑑系統說明手冊......................................................................................66 附錄七、專家評鑑資料..............................................................................................68. iv.

(6) 表目錄表 1 利用圖 3 之文件所產生的詞彙與文件關係的矩陣 A................................11 表 2 利用新舊矩陣所得到的辭彙相似度之比較..................................................13 表 3 利用新舊矩陣所得到的文件相似度之比較..................................................13 表 4 肯德爾和諧係數檢定.....................................................................................27 表 5 專家評鑑結果統計表.....................................................................................28 表 6. 所有試題組-各評分函式的外在效標相關之 ANOVA 分析 .....................31. 表 7 去除完全不相似後的題組-各評分函式的外在效標相關分析 ....................32 表 8. 高相似度題組-所使用的題組 .....................................................................32. 表 9. 高相似度題組-各評分函式的外在效標相關之 ANOVA 分析 .................33. 表 10. 高一致性組-所使用的題組 .......................................................................34. 表 11. 高一致性組-各評分函式的外在效標相關之 ANOVA 分析 ...................35. 表 12. 餘弦-不同關鍵字選取結果之 ANOVA 分析 ...........................................38. 表 13 dice-不同關鍵字選取結果之 ANOVA 分析.............................................39 表 14. 內積-不同關鍵字選取結果之 ANOVA 分析 ...........................................40. 表 15. jaccard-不同關鍵字選取結果之 ANOVA 分析........................................41. 表 16. overlap-不同關鍵字選取結果之 ANOVA 分析 .......................................42. 表 17. 各評分函式使用不同關鍵字選取結果優劣順序總表.............................43. 表 18. 餘弦-訓練文件差異之 t-test 分析 .............................................................47. 表 19 dice-訓練文件差異之 t-test 分析...............................................................47 表 20. jaccard -訓練文件差異之 t-test 分析.........................................................47. 表 21. 內積-訓練文件差異之 t-test 分析 .............................................................47. 表 22. overlap-訓練文件差異之 t-test 分析 .........................................................47. 表 23. 各評分函式在各研究中平均外在效標相關值總表.................................48. 表 24. 各評分函式在各研究中最大外在效標相關值總表.................................48 v.

(7) 圖目錄圖 1 奇異值分解結果...............................................................................................6 圖 2 詞彙與文件間的關係所形成的矩陣 A...........................................................7 圖 3 技術文件的標題.............................................................................................11 圖 4 將表 1 之矩陣 A 經奇異值分解所得到的三個矩陣 U、S、 V T ...............12 圖 5. LSA-文件摺入示意圖..................................................................................14. 圖 6. LSA-詞彙摺入示意圖..................................................................................14. 圖 7 LSA 運作流程圖 ..........................................................................................21 圖 8 純試題與混合相關文件的差異.....................................................................24 圖 9 所有試題組-不同評分函式在維度 0~1000 間的外在效標相關 .................30 圖 10. 所有試題組-不同評分函式在維度 0~200 間的外在效標相關 ...............30. 圖 11 去除完全不相似後的題組-不同評分函式在各維度上的外在效標相關 .31 圖 12. 高相似度題組-不同評分函式在各維度上的外在效標相關 ...................33. 圖 13. 高一致性組-不同評分函式在維度 0~1000 間的外在效標相關 .............34. 圖 14. 高一致性組-不同評分函式在維度 0~200 間的外在效標相關 ...............35. 圖 15. 餘弦-不同關鍵字選取結果在各維度下之分析 .......................................38. 圖 16 dice-不同關鍵字選取結果在各維度下之分析.........................................39 圖 17. 內積-不同關鍵字選取結果在各維度下之分析 .......................................40. 圖 18. jaccard-不同關鍵字選取結果在各維度下之分析....................................41. 圖 19. overlap-不同關鍵字選取結果在各維度下之分析 ...................................42. 圖 20. 訓練文件不同對於餘弦評分函式在各維度上的影響.............................44. 圖 21. 訓練文件不同對於 dice 評分函式在各維度上的影響............................44. 圖 22. 訓練文件不同對於 jaccard 評分函式在各維度上的影響 .......................45. 圖 23. 訓練文件不同對於內積評分函式在各維度上的影響.............................45. 圖 24. 訓練文件不同對於 overlap 評分函式在各維度上的影響.......................46 vi.

(8) 圖 25. 各評分函式在各研究中平均外在效標相關值總圖.................................49. 圖 26 各評分函式在各研究中最大外在效標相關值總圖...................................49. vii.

(9) 第一章. 緒論. 本研究旨在應用資訊檢索模型-潛在語意分析(latent semantic analysis， LSA)，以判斷試題間的相似度，並且探討影響判斷精確度的因素，其因素為使用不同評分函式的差異、相關文件做為訓練文件與否和關鍵字選取不同對於判斷結果的影響，詳細說明將於實驗設計做介紹。以下玆就本研究之動機、目的及相關名詞敘述如下。. 第一節研究動機與目的近幾年來，大學入學學科能力測驗以及指定考科，一直被大眾質疑有數題命題出自坊間試題，或是以往的研究用試題，例如 91 學年度指定考科國文和社會，被質疑取材於龍騰版教科書的練習題；92 學年度指定考科英文試題，發現與坊間補習班複習考題一模一樣；93 學年度學科能力測驗國文試題，遭人檢舉四題出自大考中心 91 年研究試題。考試的公正、公平及兼顧試題的水準，是目前最迫切的課題，但是坊間試題數以萬計，如果於審題時一一比對新試題與舊試題的相似度，將會耗費相當的人力資源，既不經濟也不科學。然而隨著資訊檢索（information retrieval）、資料探勘（data mining）技術的發展與進步，在比對文件間的相似性、文件的自動分類等，已有不少的研究成果，. 1.

(10) 目前資訊檢索研究中，所使用的文件種類相當多，包含網路 HTML 文件、新聞文件、一般文件、以及電子郵件等，應用領域十分廣泛。因此研究者覺得可利用資訊檢索技術於試題相似度比對，以協助專家學者於命題後，檢驗是否為坊間已經出現的舊試題，提升命題的品質。資訊檢索中常見的資訊檢索模型，大致可分為逐字比對(Literal Term Matching)與概念比對(Concept Matching)二種方式(陳柏琳，2005)，分別以向量空間模型(Vector Space Model, VSM)及潛在語意分析(Latent Semantic Analysis, LSA) 為代表，而潛在語意分析可藉由分析一個龐大的語料庫，來解決同義詞的問題 (Landauer，1998)，因此應用上較為廣泛，成效也獲得肯定。除此之外，在資訊檢索領域中，新的資訊檢索模型產生，也常使用潛在語意分析做優劣比較，因此潛在語意分析可以說是資訊檢索模型的最低標準，本文旨在探討資訊檢索模型用於試題相似度比對之可行性，而研究者也以潛在語意分析做為探討的模型。. 第二節研究目的潛在語意分析應用於試題相似度分析，已有部分良好的研究結果(郭榮芳,2005):1.關鍵字選取方面，使用去除冗詞較原始試題佳。2.關鍵字權重方面，判斷試題非常相似、部分相似與些微相似試題情況時，使用 log-entropy 的效果較佳。. 2.

(11) 因此研究者更進一步探討影響系統判斷相似度的其他原因，如評分函式 (score function)、使用關鍵字詞性做選取、使用相關文件訓練有無的差異。故本研究之目的可具體臚列如下： 1. 不同評分評分函式對於試題相似度判斷的影響如何？ 2. 關鍵字選取時，使用詞性選取是否優於冗詞去除？ 3. 訓練潛在語意分析模型時，僅使用試題是否恰當？是否應當使用其他相關文件做為訓練？. 3.

(12) 第二章. 文獻探討. 研究者深信，要應用資訊檢索技術於試題相似度的分析，就必須暸解測驗試題以及資訊檢索模型雙方面的特性，以求研究中可以根據雙方面特性來增進系統判別準確度以及系統效能，因此以下就命題技巧與原則、資訊檢索需使用到的技術(如斷詞、LSA 模型等)做介紹。. 第一節命題技巧與原則目前測驗領域中比較常用的試題題型有「是非題」、「選擇題」及「配合題」，而其中以選擇題最為普遍，其主要原因為此類的試題能夠適應於不同性質的材料，且具有較高的鑑別作用，因此研究者選用試題的題型為單一選擇題和多重選擇題。試題的產生並非由教科書中照抄一段即可，而是需根據命題原則來命題，就以本研究所使用的選擇題而言，命題時所要注意的命題原則有「一般命題原則」以及「選擇題命題要領及原則」(台灣省國教研習會編,民 82): 一、 1.. 一般命題原則. 試題之取材宜均勻分佈，且應包括教材的重要部分。. 2. 試題文字力求淺顯簡短，題意須明確，但不可遺漏解題所依據的必要條件。 3. 各個試題需彼此獨立，不可相互牽涉。 4. 試題不應有會引起爭論的正確答案。 4.

(13) 5. 試題之中不可含有暗示本題或他題答案的線索。 6. 試題文句需重新組織，避免直抄課文或原來材料。 7. 試題宜注重基本原理之瞭解與活用，而非零碎知識之記憶。二、. 選擇題命題要領及原則. 選擇題的結構包含兩部份：一為題幹(stem)，可由直接問句或不完全的敘述句所構成；另一為選項(options)，包含一個正確答案及若干個錯誤答案。此類之編擬要領及原則如下： 1. 每題所列答案數目應該一致，以四或五個為宜。 2. 每題配列的答案以簡短為宜，必要的敘述或相同的字詞宜置於題幹中。 3. 正確答案在形式或內容性質上不可特別突出。 4. 錯誤答案與題幹間應有相當的邏輯性和似真性。 5. 少用「以上皆非」，避免使用「以上皆是」的答案。 6. 選項之間應避免重現，且宜按選項的邏輯順序排列之。 7. 題幹需求完整，且其敘述應能顯示題意。 8. 正確答案出現的位置應隨機排列，且其次數要大致相同，以避免猜測因素之影響。應用資訊檢索技術於試題時，所需特別注意的原則有一般項目的第 2 點，選擇題命題要領的第 7 點。試題命題原則與資訊檢索技術詳細的關聯，列在討論檢索技術時再次強調。. 5.

(14) 第二節潛在語意分析潛在語意分析又稱「潛在語意索引」(Latent Semantic Indexing)，以線性轉換 SVD(singular value decomposition，SVD)為理論基礎，藉由 SVD 將原始由 Word-by-Context 組成的向量空間，轉換到另一個由特徵向量(eigenvector)所組成的語意空間(semantic Space)，因此，即首先說明 SVD 的原理與功用。. 一、SVD 運作原理 SVD 是數學矩陣的分解技術，能將一個高維度的矩陣 Amxn，rank(A)=r，拆解成三個矩陣相乘 Um x rS r x rVTr x n，其中 S=diag(σ1.. σｒ)，且σ1≧σ2≧…≧σｒ >0；U 和 V 為正交(orthonormal)矩陣，U 的行向量稱為左奇異向量(Left singular value)，V 的行向量稱為右奇異向量(Right singular value)，其正交矩陣定義如下： ⎧0 if i ≠ j ∀i, j ∈1 ~ n, < ui , u j >= ⎨ ⎩1 if i = j 因此奇異值分解結果如圖 1 所示： n. r. r ×. n 0. r. m. ≅ m. Amxn. ×r. 0. Umxr. Srxr. 圖 1 奇異值分解結果. 6. VTrxn.

(15) 分解後的矩陣可配對成 A = U ( SV T ) = (US )V T，其特性就是 U 的行向量為 SV T 的座標軸向量； V 的行向量為 US 的座標軸向量。. 二、LSA 的運作流程由語料庫(corpus)中的文件 D 組成一個 m x n 的矩陣 A，其中 aij ∈ A 為詞彙 t i 在文件 d j 的重要性，如圖 2：. 文件d j 共n篇詞彙 ti. a11. a12. a1n. a 21. 共 m 個 a nm. a m1. 圖 2 詞彙與文件間的關係所形成的矩陣 A. 1. 將矩陣Ａ經過 SVD 分解後得到三個矩陣 U mxr S rxrV T rxn ，其中 u i ∈ U T ，是潛在語意空間的基向量(basis vector)，由多個詞彙組成，愈常同時出現在同一文件中的詞彙，就愈容易成為潛在語意空間的基向量； v j ∈ V ， v jS 表示文件投影到潛在語意空間後的向量。. 2. 取 k 個最大的奇異值，也就是說只使用 U mxk S kxkV T kxn ，k≦r，此稱為維度約化。維度約化的 k 如果取得適當，可以消除潛在語意空間中的雜訊，並且減少系統運算量；但是如果取用的維度過小，將會損失過多空間向量，導致判斷不 7.

(16) 精準。至於適當的 k 值應該取多少，並沒有理論上的最佳值。. 3. 要判斷兩個文件 di , dj 的相似度，利用向量空間模型(Vector Space Model， VSM)，其方式為求兩向量的夾角(餘弦)，假設比對 q 與 dm 和 dn 的相似度，其空間中的示意圖如下：. dm. θm. q. θn dn 可知 θ m < θ n ，因此 q 與 dm 較為相似，其餘弦公式如下: cos in(d i , d j ) =. di d j. T. di d j. 4. 因此使用到潛在語意空間，兩個文件 di , dj 的相似度公式如下(Frakes and Baeza Yates, 1992): T. cos in(di , d j ) = cos in(viS, v jS) =. viS2v j. viS v jS. 三、評分函式的特性評分函式是影響系統判斷試題相似度最重要的一環，除了使用餘弦評分函式外，尚可使用其他評分函式，以下將對各評分函式的由來以及特性略為描述：. 8.

(17) 1. 餘弦函式(cosin) 主要藉由向量夾角來判斷文件間的相似度，並不考慮向量的長度，因此潛在語意應用餘弦評分函式時，不會受文件的長短而影響判斷的結果，公式如下，其值範圍介於-1~1 之間: t. sim( Di , Q) =. ∑ (d k =1 t. ∑ d ik. ik. × qk ) t. ∑q. 2. k =1. k =1. 2 k. 2. 內積(inner product) 此函式特點為計算量最少，只需將兩向量做內積即可，與餘弦不同之處，在於考慮到了兩個向量的長度，也因此應用於潛在語意分析時，文件的長度在本研究所探討的五個函式中，影響系統判斷的結果最大，公式如下，其值範圍介於 -∞~∞之間: t. sim( D, Q) = ∑ (d ik × q k ) k =1. 3. overlap Coefficient(Rijsbergen, 1979) 此評分函式中文名稱為重疊係數，顧名思義就是考慮兩向量重疊的部份，公式如下，其值範圍介於-1~1 之間: t. sim( Di , Q) =. ∑ (d k =1 t. ik. × qk ) t. min(∑ d ik , ∑ q k ) k =1. 2. 2. k =1. 9.

(18) 4. dice Coefficient(Dice 1945，Frakes and Baeza Yates, 1992) 此評分函式與 overlap 概念一樣，仍然是對兩向量共同的部份做調整，其概念為兩向量連接成一個向量，而共同部分佔全部的比重為何，其中共同部分為兩個向量皆有，因此得乘於 2，公式如下，其值範圍介於-1~1 之間: t. sim( Di , Q) =. 2∑ (d ik × qk ) k =1. t. t. ∑ d ik + ∑ qk 2. k =1. 2. k =1. 5. jaccard Coefficient (Jaccard ,1908,Salton and McGill, 1983) 此為 Jaccard 在 1908 年所提出用來檢定兩數列的相關程度，Salton and McGill 於 1983 年第一次引進於資訊檢索技術中，與 dice 最大的不同，就是將共同的部份移於分母做計算，公式如下，其值範圍介於-1~1 之間: t. sim( Di , Q) =. ∑ (d t. k =1 t. ik. × qk ) t. ∑ d ik + ∑ qk − ∑ (d ik × qk ) k =1. 2. 2. k =1. k =1. 四、LSA 實例以下利用實例說明 LSA 的運作流程（Landauer, Foltz, ＆Laham, 1998）：假設有九篇文件如圖 3，其中 c1~c5 與人機互動（Human Computer Interaction,. HCI）有關，m1~m4 與數學圖形理論（Mathematical Graph Theory）有關。. 10.

(19) Example of text data: Titles of Some Technical Memos c1: Human machine interface for ABC computer applications c2: A survey of user opinion of computer system response time c3: The EPS user interface management system c4: System and human system engineering testing of EPS c5: Relation of user perceived response time to error measurement m1: The generation of random, binary, ordered trees m2: The intersection graph of paths in trees m3: Graph minors IV: Widths of trees and well-quasi-ordering m4: Graph minors: A survey 圖 3 技術文件的標題. 1. 建立矩陣 A 首先從這份文件中挑選出現兩次以上的詞彙（斜體部份），共計 12 個，將這些詞彙和文件建立一個矩陣 A，矩陣Ａ的第 i 列表示詞彙 i 在各試題的出現次數，第 j 行表示試題中出現多少次詞彙，如表 1：表 1 利用圖 3 之文件所產生的詞彙與文件關係的矩陣 A. c1 c2 c3 c4 c5 m1 m2 m3 m4 human. 1. 0. 0. 1. 0. 0. 0. 0. 0. interface. 1. 0. 1. 0. 0. 0. 0. 0. 0. computer. 1. 1. 0. 0. 0. 0. 0. 0. 0. User. 0. 1. 1. 0. 1. 0. 0. 0. 0. system. 0. 1. 1. 2. 0. 0. 0. 0. 0. response. 0. 1. 0. 0. 1. 0. 0. 0. 0. Time. 0. 1. 0. 0. 1. 0. 0. 0. 0. EPS. 0. 0. 1. 1. 0. 0. 0. 0. 0. survey. 0. 1. 0. 0. 0. 0. 0. 0. 1. Trees. 0. 0. 0. 0. 0. 1. 1. 1. 0. Graph. 0. 0. 0. 0. 0. 0. 1. 1. 1. minors. 0. 0. 0. 0. 0. 0. 0. 1. 1. 2. 使用 SVD 將 A 矩陣分解成 USVT 矩陣，得到以下分解矩陣(如圖 4)：. 11.

(20) U=. human. 0.22 -0.11. interface. 0.2 -0.07. computer. 0.24. User. 0.4. 0.29 -0.41 -0.11 -0.34 0.14 -0.55. 0.28. 0.5 -0.07 -0.01 -0.11. 0.04 -0.16 -0.59 -0.11 -0.25. -0.3. 0.06. 0.49. 0. 0. 0.01. 0.33 -0.16 -0.21 -0.17. 0.03. 0.27. 0.06 -0.34. 0.1. 0.33. 0.38. system. 0.64 -0.17. response. 0.27. 0.11 -0.43. 0.07. 0.08 -0.17. 0.28 -0.02 -0.05. Time. 0.27. 0.11 -0.43. 0.07. 0.08 -0.17. 0.28 -0.02 -0.05. 0.19. 0.11. 0.03 -0.02 -0.17. EPS. 0.3 -0.14. 0.36. 0.52 -0.06 -0.41. 0.33. survey. 0.21. 0.27 -0.18 -0.03 -0.54. Trees. 0.01. 0.49. 0.23. Graph. 0.04. 0.62. 0.22. minors. 0.03. 0.45. 0.14 -0.01. 0.03. 0.27. 0.08 -0.47 -0.04 -0.58. 0.59 -0.39 -0.29. 0 -0.07 -0.3. 0.25 -0.23. 0.11. 0.16 -0.68. 0.23. 0.28. 0.34. 0.18. 0.68. S=. 3.34 0 0 0 0 0 0 0 0 0 2.54 0 0 0 0 0 0 0 0 0 2.35 0 0 0 0 0 0 0 0 0 1.64 0 0 0 0 0 0 0 0 0 1.5 0 0 0 0 0 0 0 0 0 1.31 0 0 0 0 0 0 0 0 0 0.85 0 0 0 0 0 0 0 0 0 0.56 0 0 0 0 0 0 0 0 0 0.36. VT = c1 0.2 -0.06 0.11. c2. c3. c4. c5. m1. m2. m3. m4. 0.61. 0.46. 0.54. 0.28. 0. 0.01 0.02. 0.08. 0.17 -0.13 -0.23. 0.11. 0.19. 0.44 0.62. 0.53. 0.1. 0.19 0.25. 0.08. -0.5. 0.21. 0.57 -0.51. -0.95 -0.03. 0.04. 0.27. 0.15. 0.02. 0.02 0.01 -0.03. 0.05 -0.21. 0.38 -0.21. 0.33. 0.39. 0.35 0.15. -0.08 -0.26. 0.72 -0.37. 0.03. -0.3 -0.21. 0.18 -0.43 -0.24. 0.26. -0.6. 0. 0.36. 0.67 -0.34 -0.15 0.25. 0.04. -0.01. 0.05. 0.01 -0.02 -0.06. 0.45 -0.76 0.45 -0.07. -0.06. 0.24. 0.02 -0.08 -0.26 -0.62. 0.02 0.52 -0.45. 圖 4 將表 1 之矩陣 A 經奇異值分解所得到的三個矩陣 U、S、 V 12. T.

(21) 3. 維度約化 k 假設取 k=2 做為計算。. 4. 相似度計算如要計算詞彙間的相似度，例 user 和 human、user 和 survey，利用圖 4 矩陣 U 兩個列向量的餘弦求得相似度，比對表 1 中使用原始矩陣 A 相似度，結果如表 2: 表 2 利用新舊矩陣所得到的辭彙相似度之比較. 原始矩陣 A. 轉化後. user 和 human 的相似度. 0. 0.887846. user 和 survey 的相似度. 0.57735. 0.775233. 由上例可知，雖然 user 和 human 未出現在同一篇文件，但利用 LSA 可得到其相似程度高於 user 和 survey 的相似度。 T. 如要計算文件間相似度，例 c1 和 c5、c1 和 m1，利用圖 4 矩陣 V 兩個行向量的餘弦求得相似度，比對表 1 中使用原始矩陣 A 相似度，結果如表 3: 表 3 利用新舊矩陣所得到的文件相似度之比較. 矩陣類別. 原始矩陣 A. 轉化後. c1 和 c5. 0. 0.907648. c1 和 m1. 0. -0.22243. 文件編號. 五、摺入(fold in)演算法潛在語意分析模型要做新文件相似度比對時，需將新文件的向量轉化到潛在語意空間內的向量，有兩種作法:第一種為重新計算 SVD，其缺點是每次新文件. 13.

(22) 之比對需要耗費繁瑣的計算在處理 SVD 上，因此較不被採用；第二種為新文件的空間向量，利用摺入演算法轉換到潛在語意空間向量較為經濟且快速，其演算法如下:. 1. 文件摺入新文件為 qm×1 的向量，轉換到潛在語意空間為 qˆ1× k ，公式如下：. qˆ1×k = (q T )1×m U m×k S k−×1k. n. (qT )1×m. qˆ1×k. k k. m. =. n. A. U. 圖 5. S. VT. LSA-文件摺入示意圖. 2. 詞彙摺入新詞彙為 t1×n 的向量，轉換到潛在語意空間為 tˆ1× k ，公式如下：. tˆ1× k = t1× nVn× k S k−×1k n. k. k k =. tˆ1×k. t1×n A. U 圖 6. S. LSA-詞彙摺入示意圖. 14. VT.

(23) 第三節關鍵字的選取文件中並非所有的辭彙都有相同的重要性，名詞與動詞的重要性就比冠詞、副詞或是介系詞的重要性高很多；而多數的語句都是以「主詞-述詞-受詞」的結構呈現，而主詞和受詞通常都為名詞，述詞通常都為動詞，因此便可以用名詞和動詞來理解語意，因此本研究僅選取名詞與動詞做為試題的辭彙代表，以減少. LSA 語意中的雜訊，來增進判別相似度的準確性。. 第四節關鍵字的權重由於本研究者對關鍵字選取僅由名詞與動詞著手，所得的關鍵詞彙其重要性也並不完全相同，因此需給予不同的權重，給予權重最簡單的方式，即是根據關鍵詞彙在試題中的出現次數，詞彙出現的次數愈多則給予的權重就愈大，但是並不完全如此，如「下列」、「何者」、「是」等，在試題中出現的次數最多，卻不是最重要的詞彙，甚而會造成誤判情形，因此權重的調整方式，得由「local 權重」和「global 權重」兩部份所組成(Dumais，1991)。local 權重是指詞彙在試題中的重要性，通常以詞彙出現次數代表，出現次數愈多代表愈重要；global 權重則是詞彙在整個題庫的重要性，與 local 權重相反，出現次數愈多，對於題庫的重要性. 15.

(24) 相對愈低。因此對於詞彙的權重調整，就以 L(i,j)xG(i)表示，L(i,j)表示詞彙 i 在試題 j 的 local 權重，G(i)表示詞彙 i 在題庫中的 global 權重。一、. L(i,j)的估計方式有以下三種(Salton & Buckley,1988;Harman,1992):. 1.. term frequency(tf)： L(i, j ) = tf ij ， tf ij 表示詞彙 i 在試題 j 中出現的次數。. 2.. ⎧0, tf ij = 0 binary： L(i, j ) = x(tf ij ) = ⎨ ⎩1, tf ij > 0. 3.. log： L(i, j ) = log(tf ij + 1) ，取 log 主要是為了不讓 tf ij 的值差距太大，加 1 是為了避免 log(0) 產生。. 二、. G(i)的估計方式可以用以下四種方式求得. （Salton & Buckley,1988;Dumais,1991）. 1.. normal：. G (i ) =. 2.. 1 ⎞ ⎛ ⎜ ∑ tf ij2 ⎟ ⎟ ⎜ ⎠ ⎝ j. inverse document frequency(idf)： G (i ) = log(. 3.. idf squared(idf2)： G (i ) = log(. 4.. N ) ，Ｎ表示文件數量。 ∑ x(tf ij ). N )。 ∑ x(tf ij ) 2. entropy： G (i ) = 1 − ∑ j. pij log 2 ( pij ) log 2 n. ， pij =. tf ij gf i. , gf i 是詞彙 i 在所有文件中出現次數的. 總和。 16.

(25) 郭榮芳(2005)的研究顯示應用 LSA 於試題間相似度，在判斷完全相同試題時，使用 binary-entropy 的效果較佳；而在判斷非常相似、部分相似與些微相似試題情形時，使用 log-entropy 的效果較佳。由於本論文目標在於探討試題間相似度，故僅應用 log-entropy 當做權重調整，不考慮其他種權重調整的組合。. 第五節中研院-中文斷詞系統詞是最小有意義且可以自由使用的語言單位，由於中文句子詞彙與詞彙之間，並非如英文句子以空白作為區隔，因此在研究中文資訊檢索之前，首先要處理的就是中文斷詞，本研究使用由中央研究院所開發的「中文斷詞系統」來做試題的斷詞處理，此系統擁有以下特色：一、. 擁有新詞辨識能力. 傳統的中文斷詞最大的缺點就是在未知詞(辭典中沒有的詞)的選取，一篇文章中約有 3%~5%的詞彙是未知詞，而這些詞彙又往往扮演文章中重要的腳色，因此必須加以辨識。此系統利用單字上下文(Chen, K.J. & Ming-Hong Bai,1998)和重新斷詞(Chen, K.J. & Wei-Yun Ma,2002)來辨識新詞，在效果上有不錯的表現。. 17.

(26) 二、. 辨識詞彙的詞性. 此系統包含一個約 100,000 的詞彙庫及附加詞類、詞頻、詞類頻率、雙連詞類頻率等資料，並且採用中央研究院資訊科學所詞庫小組所編列的中研院平衡語料庫詞類標記集之簡化詞類做詞性標記，請參閱附錄一。三、. 斷詞正確率達 95%-96%。. 四、. 提供線上免費斷詞服務. 在填寫線上申請表後，使用 XML 資料交換方式，就可以使用免費又快速的斷詞服務。. 18.

(27) 第三章. 研究方法與步驟. 第一節研究步驟對於本研究所使用的歷史題庫試題做相似程度之檢驗，由於目前尚無相關研究與資料，因此無法使用資訊檢索上的精確率與召回率做系統效能上的檢定，所以研究者採用專家效度當作外在效標來做統計上的檢定，其研究步驟如下:. 1.. 隨機挑選 5 題試題為新試題。. 2.. 根據每一題新試題，並從題庫內挑選 10 題舊試題，因此共有 50 組相似度比對試題，試題範例如附錄四。. 3.. 請專家學者根據試題組(新試題與舊試題)，給予 0~5 分的相似程度，0 分表示完全不相似，5 分表示完全相似，作答說明如附錄六。. 4.. 驗證專家評鑑的一致性，並且使用專家對於各組相似程度的平均作為外在效標。. 5.. 使用皮爾森積差相關驗證專家與系統評鑑分數的相關性，本研究簡稱為外在效標相關值，其值範圍介於-1~1 之間，1 為完全正相關，-1 為完全負相關，. 0 為零相關。 6.. 使用 ANOVA 或 t 檢定，驗證本研究中提出的改進方法是否達顯著差異。. 19.

(28) 第二節研究工具. 本研究系統開發及設計環境，硬體採用 Intel Pentium 4 2.4G 處理器個人電腦，搭配 1G 系統記憶體。軟體採用 apache+php+mysql+xoops 開發，svd 套件為. Michael Berry 所開發，可於 Linux like 的系統中執行，而中文斷詞系統則採用中研院線上斷詞系統，並且自行開發專家效度評鑑工具，統計分析工具則採用 SPSS。研究中使用之題庫，為研究者蒐集各高中高一歷史選擇題試題(包含無圖表的單一選擇以及多重選擇)，共計 2395 題，各高中試題題數如附錄二、試題評鑑範例如附錄四。. 20.

(29) 第三節實驗設計郭榮芳(2005)在應用潛在語意分析於試題相似度的研究中指出，權重加權使用 tf-entropy 且維度約化為 20 維度時，可以得到較佳的精確度與召回率。本研究認為應用潛在語意分析模型於試題相似度分析，更需考慮模型和試題的特性，因此研究者仔細觀察潛在語意分析模型其演算法流程(如圖 7)，認為尚可在評分函式、訓練文件及關鍵字選取處做改進，以便提高判斷的精確度，因此提出以下三點改進方法：郭榮芳(2005) 訓練文件. 前置處理. 潛在語意分析. 採用題幹. 斷詞系統. 最大匹配法. 關鍵字選取(冗詞去除). 冗詞表. 關鍵字權重加權. tf-entropy. SVD 維度約化. 20 維度. 評分函式. 餘弦. 圖 7. LSA 運作流程圖 21.

(30) 一、. 評分函式的影響. 評分函式是影響系統判斷試題相似度最重要的一環，也是影響評分結果最大的部份，不同的評分函式擁有不同的特性，本研究中主要利用外在效標，找出最適合用於判斷試題相似度的評分函式。二、. 使用相關文件訓練有無. 以往使用 LSA 模型做試題相似性(郭榮芳，2005)以及試題分類(鄭淑玲，葉瑞峰，鄭雙慧，2003)的研究，皆直接使用試題充當空間訓練用的文件，本研究者認為並不適宜，因此以試題和 LSA 模型的特性提出另外的看法:. 1.. LSA 模型的最大的功能是利用詞彙共現來偵測同義詞的存在，以達到不同文件中的同義詞，也能給於相同的分數，藉此增加判斷文件相似度的精確度。. 2.. 根據試題命題的原則-題幹長度應適中(以 20 字或不超過一行為原則)，導致擁有相同意義的名詞極少在同一題內出現，例如：孫中山、孫逸仙、孫文、中山樵、中山先生等名詞，皆為同一人，但在試題命題時，這些名詞同時出現在同一試題內的機率相當低，而在介紹孫中山事蹟的文件中，上列諸名詞出現在同一份文件中的機率便較出現在同一試題中高。. 因此直接使用試題充當訓練用的文件，並不能完全發揮 LSA 模型的功效，研究者認為研究試題的相似性，除了使用試題來做訓練，同時必須使用相關文件來訓練空間模型。 22.

(31) 三、. 關鍵字選取方法不同對於判斷試題相似度的影響. 在潛在語意分析流程中(圖 7)，前置處理中的關鍵字選取如果選取的適當，除了降低系統運算量外，更可增加判斷相似度的精確率，郭榮芳(2005)指出評分函式為餘弦時，使用冗詞去除方法優於原始試題，因此本實驗中探討關鍵字選取使用詞性選取與冗詞去除，對於系統判斷試題相似度的影響。. 以上研究者所提出的三個改進之處，以評分函式的特性影響判斷試題相似度的結果最為重要，因此本研究主要探討各種評分函式在不同條件下的優劣，分為下列三個部份做探討:. 一、評分函式在判斷不同相似程度下的優劣各評分函式判斷相似度的優劣並不相同，或許有些評鑑高相似度特別準確，或許有些對於專家評鑑較一致性的試題特別準確，因此為了探討這些問題，研究者將 50 組建利外在校標所使用的試題，區分為以下四組實驗:. 1. 去除無相似度後的題組僅挑選專家認定新、舊試題有相似度的題組來做驗證。. 2. 高相似度的題組僅挑選專家給予相似度較高的新、舊試題題組來做驗證。. 3. 高一致性的題組僅挑選專家給予的分數一致性較高的新、舊試題題組來做驗證。. 23.

(32) 4. 所有試題組全部 50 組新、舊試題題組，不做任何過慮。. 二、關鍵字選取的差異，對於評分函式的影響本實驗中將探討關鍵字選取對於判斷試題相似度的差異，是否使用詞性選取關鍵字優於冗詞去除，並且將各評分函式分開討論，其中所探討的關鍵字選取的方法有以下四種:. 1. 使用原始試題，並不做任何關鍵字選取。 2. 使用冗詞表去除不重要的詞彙，剩餘詞彙即是關鍵字。 3. 使用詞性選取，僅選取名詞為關鍵字。 4. 使用詞性選取，選取名詞、動詞為關鍵字。. 三、使用相關文件訓練有無對於評分函式的影響本實驗中採用的相關文件，僅做潛在語意空間建立使用，增加判別試題相似度的精確度，以往的研究本研究中稱為純試題組，由研究者提出的改進方法稱為混合相關文件，不同的差異如圖 8：題庫. 題庫. 潛在語意空間. 相關文件. 潛在語意空間. 以往研究(純試題). 改進(混合相關文件) 圖 8 純試題與混合相關文件的差異. 24. 新試題.

(33) 本研究所提出的混合相關文件，是根據新試題的關鍵字搜尋相關文件，然後與題庫一起導入到潛在語意分析模型訊練，不過相關文件的選取差異會影響整個潛在語意空間模型建置的完整性，因此本研究採用資訊檢索的技術-搜尋引擎，以及限制其搜尋範圍於各大百科全書中，避免搜尋到其他不相干的資訊，演算法如下:. 1. 將新試題做中文斷詞。 2. 選取出名詞、動詞為關鍵字。 3. 將關鍵字導入搜尋引擎，並限制搜尋範圍。 4. 如果無相關文件，依照關鍵字權重調整 L(i,j)xG(i)，剔除權重最低的關鍵字。. 5. 重複步驟 3-4，直到選取出 n 個文件。所挑選出的相關文件將與所有舊試題一同訓練，由於相關文件是根據新試題所挑選出，且相關文件內包含的資訊較試題內的資訊豐富，因此可以彌補新試題資訊不足的缺失，以增加系統判斷相似度的精確度，本實驗中將探討使用相關文件與舊試題一起做為訓練文件，是否優於僅使用舊試題。. 各評分函式在不同保留維度下，可能也有所不同的結果，例如有些評分函式低維度時判斷特別精確，有些則是高維度時判斷特別精確，因此本研究將維度約化視為依變項，觀察各評分函式在不同保留維度下的表現，實驗結果中顯示保留. 25.

(34) 維度大於 1000 時，評鑑結果無太大改變，而且保留維度過大也會大幅增加系統運算量，因此各實驗中的統計圖表將僅呈現保留維度於 0~1000 中的變化情形。. 26.

(35) 第四章. 結果與討論. 本章旨在比較五種評分函式在不同條件下對於判斷是提相似性的差異，其條件為不同關鍵字選取方法下和使用相關文件訓練有無，並且以專家效度做為外在效標來檢驗評分函式的優劣。. 第一節外在效標建立本研究採用九位專家學者對 50 組(新試題與舊試題)試題相似度比較，給予. 0~5 分的相似程度，其評分原始資料如附錄七，評鑑系統界面與評鑑指導語如附錄四、附錄六。. 一、專家評分一致性之分析建立外在效標，首先驗證其評鑑之一致性，以肯德爾和諧係數 W(Kendall's. coefficient of concordance)來驗證評分者間信度，結果如表 4：表 4 肯德爾和諧係數檢定 50. N Kendall's W(a) Chi-Square df Asymp. Sig.. .430 172.195. 8 .000. 27.

(36) 由上表得知專家評分結果達 0.001 的顯著水準，所以專家的評分之間有相關存在，亦即專家們對於這 50 組試題評分的相似度頗有一致性。. 二、專家效度之建立由於專家評鑑資料具有一致性，因此將所有專家對同一題試題的相似度評分作平均，得到一組 50 題的相似度為外在效標，其資料如表 5：表 5 專家評鑑結果統計表. 題組最小值最大值平均值標準差. 題組最小值最大值平均值標準差. 1. 3. 4. 3.67. .500. 26. 0. 3. 1.22. 1.093. 2. 5. 5. 5.00. .000. 27. 0. 3. 1.33. 1.414. 3. 3. 5. 4.22. .667. 28. 0. 3. .89. 1.054. 4. 3. 5. 4.11. .782. 29. 0. 3. 1.56. 1.236. 5. 0. 3. .89. 1.054. 30. 0. 3. 1.11. 1.453. 6. 0. 3. 1.89. 1.054. 31. 0. 3. 1.33. 1.118. 7. 0. 3. 2.00. 1.118. 32. 0. 3. 1.33. 1.118. 8. 0. 4. 2.44. 1.236. 33. 0. 4. 1.67. 1.414. 9. 0. 4. 2.67. 1.414. 34. 2. 4. 3.00. .866. 10. 0. 2. .56. .882. 35. 0. 3. 1.89. 1.269. 11. 0. 4. 1.22. 1.394. 36. 1. 5. 2.33. 1.414. 12. 0. 5. 2.33. 1.658. 37. 0. 4. 1.67. 1.414. 13. 0. 3. 1.11. 1.054. 38. 0. 2. 1.11. .928. 14. 0. 3. .78. .972. 39. 2. 4. 3.00. 1.000. 15. 0. 5. 3.00. 1.581. 40. 0. 0. .00. .000. 16. 0. 3. 1.78. 1.302. 41. 0. 3. 1.44. 1.130. 17. 0. 3. 1.67. 1.225. 42. 0. 4. 2.33. 1.323. 18. 1. 4. 3.11. 1.054. 43. 0. 2. .67. .707. 19. 0. 2. .44. .726. 44. 0. 4. 2.11. 1.269. 20. 0. 4. 2.11. 1.537. 45. 0. 3. 1.11. 1.054. 21. 1. 5. 3.56. 1.130. 46. 0. 3. 1.22. 1.093. 22. 0. 3. 2.11. 1.167. 47. 0. 3. 1.78. 1.394. 28.

(37) 23. 0. 2. .67. 1.000. 48. 0. 4. 2.00. 1.581. 24. 2. 5. 3.78. .972. 49. 0. 3. .89. 1.054. 25. 0. 4. 2.56. 1.333. 50. 0. 1. .33. .500. 第二節評分函式在判斷不同相似度之分析影響資訊檢索最主要的部份即是評分函式，因此本研究首先研究餘弦、內積、jaccard、overlap 以及積差相關等，不同的評分函式對於試題相似度之判別有所差異，因此依照實驗設計的第一點，將本研究所使用的試題組分為四組:「所有試題組」(使用全部的 50 組試題)、「去除完全不相似後的題組」 (去除半數專家認為新、舊試題為無相似度的試題 6 題，剩餘 44 題)、「高相似度的題組」 (專家認為新、舊試題相似度較高的前 30%=15 題) 、「高一致性的題組」(專家認為新、舊試題相似度一致性較高的前 30%=15 題)，探討不同的評分函式所給予的相似度值，與外在效標相關程度的變化情形，研究結果如下列圖表:. 29.

(38) 1. 所有試題組(50 組)相似度評分. 0.85. 外在效標相關. 0.8 0.75. 餘弦內積 jaccard overlap dice. 0.7 0.65 0.6 0.55 0.5 0.45 0. 200. 400. 600. 800. 1000. 維度圖 9 所有試題組-不同評分函式在維度 0~1000 間的外在效標相關. 0.85 0.8 外在效標相關. 0.75. 餘弦內積 jaccard overlap dice. 0.7 0.65 0.6 0.55 0.5 0.45 0. 50. 100. 150. 200. 維度圖 10 所有試題組-不同評分函式在維度 0~200 間的外在效標相關. 30.

(39) 表 6 所有試題組-各評分函式的外在效標相關之 ANOVA 分析 (I) V1. (J) V1. 餘弦. dice. Mean Difference (I-J) -.06884(*). .000. .01116. .642. 內積. -.05584(*). .000. overlap. -.05668(*). .000. jaccard. .08001(*). .000. 內積. .01300. .492. overlap. .01217. .561. 內積. -.06701(*). .000. overlap. -.06784(*). .000. overlap. -.00084. 1.000. jaccard. dice. jaccard. 內積. Sig.. 2. 去除完全不相似後的題組去除半數以上專家認為無相似度(給予零分)的試題題組，10、19、23、30、. 40、50 共捨棄 6 個題組，剩餘 44 個題組). 0.8. 外在效標相關. 0.75 餘弦內積 jaccard overlap dice. 0.7 0.65 0.6 0.55 0.5 0.45 0. 200. 400. 600. 800. 1000. 維度圖 11 去除完全不相似後的題組-不同評分函式在各維度上的外在效標相關. 31.

(40) 表 7 去除完全不相似後的題組-各評分函式的外在效標相關之 ANOVA 分析 (I) V1. (J) V1. Mean Difference (I-J). Sig.. 餘弦. dice. -.06270(*). .000. .00724. .926. 內積. -.05431(*). .000. overlap. -.03546(*). .000. jaccard. .06995(*). .000. .00839. .879. .02724(*). .014. 內積. -.06156(*). .000. overlap. -.04271(*). .000. overlap. .01885. .199. jaccard. dice. 內積 overlap jaccard. 內積. 3. 高相似度的題組專家認定相似度平均最高分的前 30%=15 題，如表 8。表 8 高相似度題組-所使用的題組. 題組相似度標準差 2 5 0 3 4.22 0.67 4 4.11 0.78 24 3.78 0.97 1 3.67 0.5 21 3.56 1.13 18 3.11 1.05 15 3 1.58 34 3 0.87 39 3 1 9 2.67 1.41 25 2.56 1.33 8 2.44 1.24 12 2.33 1.66 42 2.33 1.32. 32.

(41) 0.8. 外在效標相關. 0.75 0.7. 餘弦. 0.65. 內積 jaccard. 0.6. overlap. 0.55. dice. 0.5 0.45 0. 200. 400. 600. 800. 1000. 維度圖 12 高相似度題組-不同評分函式在各維度上的外在效標相關. 表 9 高相似度題組-各評分函式的外在效標相關之 ANOVA 分析 (I) V1. (J) V1. 餘弦. dice. Mean Difference (I-J). Sig.. dice. -.09660(*). .000. jaccard. -.09050(*). .000. 內積. -.08620(*). .000. overlap. .02291. .501. jaccard. .00610. .993. 內積. .01040. .952. .11951(*). .000. .00429. .998. overlap. .11341(*). .000. overlap. .10911(*). .000. overlap jaccard. 內積. 內積. 33.

(42) 4. 高一致性的題組專家所給予相似度分數標準誤較小的前 30%=15 題，如表 10。表 10 高一致性組-所使用的題組. 外在效標相關. 題號 2 40 1 50 3 43 19 4 34 10 38 14 24 23 39. 相似度 5 0 3.67 0.33 4.22 0.67 0.44 4.11 3 0.56 1.11 0.78 3.78 0.67 3. 標準差 0 0 0.5 0.5 0.67 0.71 0.73 0.78 0.87 0.88 0.93 0.97 0.97 1 1. 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45. 餘弦內積 jaccard overlap dice. 0. 200. 400. 600. 800. 1000. 維度. 圖 13 高一致性組-不同評分函式在維度 0~1000 間的外在效標相關. 34.

(43) 0.95 0.9. 外在效標相關. 0.85 0.8. 餘弦內積 jaccard overlap dice. 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0. 50. 100. 150. 200. 維度圖 14 高一致性組-不同評分函式在維度 0~200 間的外在效標相關表 11 高一致性組-各評分函式的外在效標相關之 ANOVA 分析 (I) V1. (J) V1. Mean Difference (I-J). Sig.. 餘弦. dice. -.05731(*). .000. .03337(*). .000. 內積. -.06248(*). .000. overlap. -.05076(*). .000. jaccard. .09068(*). .000. -.00517. .921. .00655. .830. 內積. -.09585(*). .000. overlap. -.08413(*). .000. overlap. .01172. .317. jaccard. dice. 內積 overlap jaccard. 內積. 35.

(44) 觀察圖 9 與表 6 可知，以本研究所使用的 50 組試題相似程度而言，使用. dice、overlap 和內積為評分函數，較接近專家判別試題相似度的評分，外在效標相關值最高可達到 0.8(>0.354)，達 0.01 的顯著水準；對於本研究使用的 50 組題組而言，評分函式優劣為 dice=overlap=內積>餘弦=jaccard。觀察圖 11 與表 7，在去除專家半數認定為無相似度的試題後，所有評分函式外在效標相關值皆下降，其評分函式優劣為 dice=內積=overlap>餘弦=jaccard，且 dice> overlap，最高外在效標相關值為 0.725(>0.372)，達 0.01 的顯著水準；觀察圖 12、表 9，對於專家認定為高相似度組，其評分函式優劣為. dice=jaccard=內積>餘弦=overlap，最高外在效標相關值為 0.775(>0.606)，達 0.01 的顯著水準。不過各評分函式表現並不佳，探討其原因在於專家對於高相似度的題組，評分結果較不一致，其中標準誤差 1≦σ＜1.5 有 7 題，1.5≦σ有 2 題，因此評分誤差超過一個標準差的試題組，已經超過半數題數。觀察圖 13、表 11，對於專家給予相似度較一致性的題組，其評分函式優劣為內積=dice=overlap>餘弦>jaccard，使用內積和 dice 在保留維度為 50~100 之間時，更高達 0.9 的外在效標相關值(如圖 14)，所以專家評鑑較為一致的題組，使用潛在語意分析與專家評鑑也較為一致。. 36.

(45) 第三節關鍵字選取之分析本研究中探討不同的關鍵字選取方式，如使用原始試題(不經任何處理)、原始試題經由冗詞表去除冗詞，或直接選取名詞、動詞為關鍵字，或僅選取名詞為關鍵詞，是否會影響評分函式判斷相似度的精確率，結果為下列圖表:. 37.

(46) 一、餘弦-關鍵字選取不同之分析. 餘弦. 0.85 0.8. 名詞、動詞. 外在效標相關. 0.75. 名詞. 0.7. 冗詞去除. 0.65. 原始試題. 0.6 0.55 0.5 0.45. 0. 200. 400. 600. 800. 1000. 維度圖 15 餘弦-不同關鍵字選取結果在各維度下之分析. 表 12 餘弦-不同關鍵字選取結果之 ANOVA 分析 (I) V1. (J) V1. 名詞、動詞. 名詞. 冗詞去除. Mean Difference (I-J). Sig.. 名詞. .02036(*). .015. 冗詞去除. .02675(*). .000. 原始資料. .04270(*). .000. 冗詞去除. .00639. .792. 原始資料. .02234(*). .006. 原始資料. .01595. .092. 38.

(47) 二、Dice-關鍵字選取不同之分析. dice 0.85. 外在效標相關. 0.8 名詞、動詞. 0.75. 名詞. 0.7. 冗詞去除. 0.65. 原始試題. 0.6 0.55 0.5 0.45. 0. 200. 400. 600. 800. 1000. 維度. 圖 16 dice-不同關鍵字選取結果在各維度下之分析. 表 13 dice-不同關鍵字選取結果之 ANOVA 分析 (I) V1. (J) V1. 名詞、動詞. 名詞. 名詞. 冗詞去除. Mean Difference (I-J). Sig.. .03388(*). .000. 冗詞去除. .00725. .490. 原始資料. .02876(*). .000. 冗詞去除. -.02663(*). .000. 原始資料. -.00512. .751. 原始資料. .02150(*). .000. 39.

(48) 三、內積-關鍵字選取不同之分析. 內積. 0.85. 外在效標相關. 0.8. 名詞、動詞. 0.75. 名詞. 0.7. 冗詞去除. 0.65. 原始試題. 0.6 0.55 0.5 0.45 0. 200. 400. 600. 800. 1000. 維度圖 17 內積-不同關鍵字選取結果在各維度下之分析. 表 14 內積-不同關鍵字選取結果之 ANOVA 分析 (I) V1. (J) V1. 名詞、動詞. 名詞. 名詞. 冗詞去除. Mean Difference (I-J). Sig.. .01449. .111. 冗詞去除. -.00349. .950. 原始資料. .02193(*). .003. 冗詞去除. -.01798(*). .027. 原始資料. .00744. .661. 原始資料. .02541(*). .000. 40.

(49) 四、 jaccard-關鍵字選取不同之分析. jaccard. 0.85 0.8 外在效標相關. 名詞、動詞. 0.75. 名詞. 0.7. 冗詞去除. 0.65. 原始試題. 0.6 0.55 0.5 0.45 0. 200. 400. 600. 800. 1000. 維度圖 18. jaccard-不同關鍵字選取結果在各維度下之分析. 表 15. jaccard-不同關鍵字選取結果之 ANOVA 分析. (I) V1. (J) V1. 名詞、動詞. 名詞. 名詞. 冗詞去除. Mean Difference (I-J). Sig.. -.00417. .947. 冗詞去除. .03594(*). .000. 原始資料. .06006(*). .000. 冗詞去除. .04011(*). .000. 原始資料. .06423(*). .000. 原始資料. .02412(*). .007. 41.

(50) 五、 overlap-關鍵字選取不同之 ANOVA 分析. overlap. 0.85. 外在效標相關. 0.8 名詞、動詞. 0.75. 名詞. 0.7. 冗詞去除. 0.65. 原始試題. 0.6 0.55 0.5 0.45 0. 200. 400. 600. 800. 1000. 維度圖 19 overlap-不同關鍵字選取結果在各維度下之分析. 表 16 overlap-不同關鍵字選取結果之 ANOVA 分析 (I) V1. (J) V1. 名詞、動詞. 名詞. 名詞. 冗詞去除. Mean Difference (I-J). Sig.. .04265(*). .000. 冗詞去除. -.00777. .743. 原始資料. .01532. .187. 冗詞去除. -.05043(*). .000. 原始資料. -.02733(*). .002. 原始資料. .02310(*). .013. 42.

(51) 觀察表 12~表 16，圖 15~圖 19，去除冗詞、詞性選取對於評分函式的影響有所不同，其優劣順序整理如下表: 表 17 各評分函式使用不同關鍵字選取結果優劣順序總表評分函式. 優劣順序. 餘弦. 名詞、動詞>名詞 ≅ 冗詞去除 ≅ 原始資料，名詞>原始資料. dice. 名詞、動詞 ≅ 冗詞去除>名詞 ≅ 原始資料. 內積. 冗詞去除 ≅ 名詞、動詞 ≅ 名詞 ≅ 原始資料，冗詞去除>名詞>原始資料，名詞、動詞>原始資料. jaccard. 名詞 ≅ 名詞、動詞>冗詞去除>原始資料. overlap. 冗詞去除 ≅ 名詞、動詞>名詞>原始資料. 對於餘弦、dice、jaccard 使用名詞、動詞當作關鍵詞，結果較優於冗詞去除，且有明顯差異，而內積與 overlap 則無明顯差異；詞性選取方面，使用名詞、動詞在餘弦、dice、overlap 中所得結果，較優於僅使用名詞為關鍵詞，而內積和 jaccard 中則無明顯差異；一般而言有使用關鍵字選取技術，皆比原始資料評分結果要好。. 第四節使用相關文件訓練有無之分析本實驗主要根據實驗設計的第三點，探討僅使用舊試題(純試題)，以及使用舊試題與相關文件一起做訓練(混合相關文件)，對於各評分函式的影響，研究結果為下列圖表：. 43.

(52) 餘弦 0.8 外在效標相關. 0.75. 純試題. 0.7 0.65. 混合相關文件. 0.6 0.55 0.5 0.45 0. 200. 400. 600. 800. 1000. 維度圖 20 訓練文件不同對於餘弦評分函式在各維度上的影響. 外在效標相關. dice. 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45. 純試題混合相關文件. 0. 200. 400. 600. 800. 1000. 維度圖 21 訓練文件不同對於 dice 評分函式在各維度上的影響. 44.

(53) 內積. 外在效標相關. 0.8 0.75. 純試題. 0.7 0.65 混合相關文件. 0.6 0.55 0.5 0.45 0. 200. 400. 600. 800. 1000. 維度圖 22 訓練文件不同對於 jaccard 評分函式在各維度上的影響. jaccard 0.8 外在效標相關. 0.75. 純試題. 0.7 0.65 0.6. 混合相關文件. 0.55 0.5 0.45 0. 200. 400. 600. 800. 1000. 維度圖 23 訓練文件不同對於內積評分函式在各維度上的影響. 45.

(54) overlap 0.8. 外在效標相關. 0.75 純試題. 0.7 0.65. 混合相關文件. 0.6 0.55 0.5 0.45 0. 200. 400. 600. 800. 1000. 維度圖 24 訓練文件不同對於 overlap 評分函式在各維度上的影響. 由圖 20~圖 24 得知使用相關文件訓練後，保留維度小於 300 時，效果不如僅使用試題做為訓練文件，因為使用相關文件訓練，潛在語意空間的資訊量變多，使得保留維度較小時反而不如預期的好，不過保留維度大於 300 時效果則較佳，因此使用 t-test 檢定保留維度為 300~1000 之間，是否有達顯著差異，所得結果如下列表格(Mean Difference=純試題-混何相關文件)：. 46.

(55) 表 18 餘弦-訓練文件差異之 t-test 分析 Levene's Test for Equality of Variances. Equal variances assumed. t-test for Equality of Means. Sig.. Sig. (2-tailed). Mean Difference. .674. .000. -.02805. 表 19 dice-訓練文件差異之 t-test 分析 Levene's Test for Equality of Variances. Equal variances assumed. t-test for Equality of Means. Sig.. Sig. (2-tailed). Mean Difference. .334. .000. -.02102. 表 20 jaccard -訓練文件差異之 t-test 分析 Levene's Test for Equality of Variances. Equal variances assumed. t-test for Equality of Means. Sig.. Sig. (2-tailed). Mean Difference. .062. .000. -.02522. 表 21 內積-訓練文件差異之 t-test 分析 Levene's Test for Equality of Variances. Equal variances not assumed. t-test for Equality of Means. aSig.. Sig. (2-tailed). Mean Difference. .003. .002. -.00372. 表 22 overlap-訓練文件差異之 t-test 分析 Levene's Test for Equality of Variances. Equal variances not assumed. t-test for Equality of Means. Sig.. Sig. (2-tailed). Mean Difference. .000. .000. -.02225. 由表 18~表 22 得知保留維度為 300~1000 之間時，各評分函式使用相關文件訓練的效果優於僅使用純試題訓練，且達 0.05 的顯著水準，因此使用相關文件訓練來改進潛在語意空間模型的判斷精確度，是可行的方法。. 47.

(56) 第五節研究結果本節將前述研究中，評分函式在各研究中的「平均外在效標相關值」及「最大外在效標相關值」做總結討論，分別整理為表 23、表 24、圖 25、圖 26：表 23 各評分函式在各研究中平均外在效標相關值總表所有試題組、純試題訓練、冗詞去除去除無相似度題組高相似組高一致性組混合相關文件訓練名詞和動詞名詞使用原始試題. 餘弦. Dice. Jaccard. 內積. Overlap. 4 (0.695758). 1 (0.764601). 5 (0.684593). 3 (0.751598). 2 (0.752434). 4 (0.665629) 4 (0.614349) 4 (0.771318) 4 (0.719784) 4 (0.743075) 4 (0.722711) 4 (0.700372). 1 (0.728333) 1 (0.710948) 2 (0.828629) 2 (0.753647) 1 (0.771853) 1 (0.737974) 1 (0.743097). 5 (0.658384) 2 (0.704845) 5 (0.737952) 5 (0.702055) 5 (0.720532) 3 (0.724701) 5 (0.660474). 2 (0.719943) 3 (0.700551) 1 (0.833798) 3 (0.739101) 2 (0.748113) 2 (0.733622) 3 (0.726186). 3 (0.701093) 5 (0.591439) 3 (0.82208) 1 (0.761174) 3 (0.744659) 5 (0.702008) 2 (0.729335). 表 24 各評分函式在各研究中最大外在效標相關值總表所有試題組、純試題訓練、冗詞去除去除無相似度題組高相似組高一致性組混合相關文件訓練名詞和動詞名詞使用原始試題. 餘弦. dice. Jaccard. 內積. Overlap. 4 (0.732178). 1 (0.794999). 5 (0.716531). 2 (0.775372). 3 (0.77451). 4 (0.697954) 4 (0.662704) 4 (0.80578) 4 (0.764551) 4 (0.762772) 3 (0.742414) 4 (0.729713). 1 (0.75784) 3 (0.742436) 2 (0.901964) 2 (0.789945) 1 (0.803634) 1 (0.763316) 1 (0.77027). 5 (0.695685) 1 (0.763834) 5 (0.76921) 5 (0.739588) 5 (0.744394) 4 (0.741241) 5 (0.692548). 2 (0.746136) 2 (0.760556) 1 (0.904447) 3 (0.775346) 3 (0.763465) 2 (0.759658) 3 (0.751844). 3 (0.725543) 5 (0.63868) 3 (0.847172) 1 (0.794225) 2 (0.776177) 5 (0.729176) 2 (0.75454). 48.

(57) 0.8. 餘弦. 0.75. dice jaccard. 0.7. 內積. 0.65. overlap. 原始試題. 名詞. 名詞和動詞. 混合相關文件訓練. 高一致性組. 高相似組. 0.55. 去除無相似度題組. 0.6 初始設定組. 外在效標相關值. 0.85. 初始設定組為(所有試題組、純試題訓練、冗詞去除). 餘弦 dice jaccard 內積. 原始試題. 名詞. 名詞和動詞. 混合相關文件訓練. 高一致性組. 高相似組. overlap. 去除無相似度題組. 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55. 初始設定組. 外在效標相關值. 圖 25 各評分函式在各研究中平均外在效標相關值總圖. 初始設定組為(所有試題組、純試題訓練、冗詞去除). 圖 26 各評分函式在各研究中最大外在效標相關值總圖. 49.

(58) 表 23 與表 24 評分函式的各項排名得知，使用 dice 為評分函式的評鑑結果，在各方面表現上較接近於專家評鑑結果，其次為內積與 overlap，餘弦為第四名，而 jaccard 為第五名。觀察圖 25 與圖 26，可以看出 dice 與內積在各實驗中差異不大，對於專家評鑑一致性較高的實驗中，所有評分函式皆可達到較高的外在校標相關值，以 dice 與內積最佳，其最高值更高達 0.9；以平均值而言，dice、內積與 overlap 表現較佳，有 0.825 的外在校標相關值。對於一般潛在語意分析常使用的餘弦評分方式，效果皆不如 dice 與內積，所以 dice 與內積評分方式較接近於專家評鑑結果。. 50.

(59) 第五章. 結論與建議. 本研究旨在應用資訊檢索技術中潛在語意分析的方法，分析試題相似性，並探討各評分函式的優劣。本章將依據研究過程、研究目的和研究成果，呈現具體之研究結論與建議。. 第一節. 結論. 在本研究中，研究者利用資訊檢索技術中潛在語意分析的方法，探討此方法與專家評鑑相似度是否有所相關，具體結論如下：. 一、關鍵字選取不同，對於判斷試題相似度，有明顯的差異，使用名詞、動詞結果較冗詞去除為佳。. 二、使用相關文件為訓練文件，需使用較高的維度才能達到與僅使用純試題的結果，但在高維度時則比僅使用純試題訓練較佳，結果達顯著水準。. 三、整體看來，評分函式使用 dice 最接近專家評鑑結果，內積次之，兩者評分能力較為穩定，其平均外在效標相關值皆有 0.7 以上；對於專家評鑑一致性較高的試題，dice 與內積皆有高達 0.9 的外在效標相關，成效非常顯著。. 51.

(60) 四、最佳維度約化方面，保留的維度約 50~150 間可以達到最佳維度，保留維度超過 150 時效果即呈現趨緩，對於使用相關文件訓練，則需保留更多維度。. 第二節建議未來在探討試題相似度的研究中，研究者給予以下幾點建議:. 一、本研究並未給予試題相似度明確定義，僅由專家主觀判斷，不過研究過程中，研究者經由到專家評鑑時的反應，觀察到會受試題題意或試題長度等因素影響，因此未來在研究中可詳細探討專家給予評鑑試題相似度的標準。. 二、本文僅使用代表性的潛在語意分析來做試題相似度判斷，未來研究中可使用 Hidden Markov Model 、Probabilistic Latent Semantic Analysis、Topical Mixture Model、Dependence Language Model 等模型，期待可以有更佳的表現。. 52.

(61) 參考文獻中央研究院資訊科學所詞庫小組,中文斷詞系統,http://ckipsvr.iis.sinica.edu.tw (2005/12/29 擷取)。台灣省國教研習會編(1993), 新法考試的命題技術, 國民小學學習成就評量, 第七頁。何榮桂(1991), 電腦化題庫概述, 現代教育, 18 期, 頁 121-129。何榮桂、陳麗如(1998), 電腦化適性測驗題庫品質管理策略之研究, 第七屆國際電腦輔助教學研討會, 409-410。陳柏琳(2005), Chinese Spoken Document Recognition, Organization and. Retrieval, 網路資訊檢索技術與趨勢研討會。郭榮芳(2005), 應用潛在語意分析於測驗題庫相似性之比對, 國立臺灣師範大學資訊教育研究所碩士論文。鄭淑玲、葉瑞峰、鄭雙慧(2003), 結合隱含式語意分析與基因演算法之適性化遠距教學測驗評量系統, TANET, C5 網路教學系統, ID 9835。. K.J. Chen & S.H. Liu(1992). Word Identification for Mandarin Chinese Sentences. Proceedings of COLING 1992, pages 101-107. K.J. Chen & Ming-Hong Bai(1998). Unknown Word Detection for Chinese by a Corpus-based Learning Method. International Journal of. 53.

(62) Computational linguistics and Chinese Language Processing, Vol.3, #1, 27-44. K.J. Chen & Wei-Yun Ma (2002). Unknown Word Extraction for Chinese Documents. Proceedings of COLING, 169-175. Dice, L. R. (1945). Measure of the Amount of Ecologic Association between Species. Journal of Ecolog, 26, 297-302. Dumais, S.T(1991). Improving the retrieval of information from external sources. Behavior Research Methods, Instruments and Computers,23,229-236. Frakes, W. B. and Baeza-Yates, R. (1992) . Information Retrieval, Data Structure and Algorithms. Prentice Hall. Foltz PW, Kintsch W., and Landauer TK. (1993). An analysis of textual coherence using Latent Semantic Indexing .Society for Text and Discourse, Jackson, WY Gavin.W. O’Brien (1994). Information Management Tools for Updating an SVD-Encoded Indexing Scheme. TR UT-CS-94-259, U. Tenn. Harman ,D.(1992). Relevance feedback and other query modification techniques. Information Retrieval: Data structures and algorithms. Englewood Cliffs NJ: Prentice Hall, 363-392.. 54.

(63) Hull, D.(1994). Improving Text Retrieval for the Routing Problem using Latent Semantic Indexing. ACM SIGER Conference, 282-291. J.-T. Chien, M.-S. Wu and H.-J. Peng(2004). On latent semantic language modeling and smoothing. Proceedings of International Conference on Spoken Language Processing vol. 2, 1373-1376. Jianfeng Gao, Jian-Yun Nie, Guangyuan Wu, and Guihong Cao(2004). Dependence language model for information retrieval. In SIGIR, 2004. Landauer,T.& S.Dumais. (1997).A solution to Plato's problem: The Latent Semantic Analysis theory of the acquisition,induction,a nd representation of knowledge .Psychological Review 104, 211-240. Landauer,T.K.,D.Laham & P.W.Foltz.(1998).Computer-based grading of the conceptual content of essays. Unpublished manuscript. Landauer,T.,P.W.Foltz & D.Lanham(1998). An introduction to latent se mantic analysis . Discourse Processes 25,259-284. MacDonald, I. L., & Zucchini, W. (1997). Hidden Markov and Other Models for Discrete-valued Time Series (1st ed.). London: Chapman&Hall.. 55.

(64) Ma Wei-Yun & K.J. Chen(2003). A bottom-up Merging Algorithm for Chinese Unknown Word Extraction. Proceedings of ACL workshop on Chinese Language Processing , 31-38. Salton, G. & McGill, M.J. (1983). Introduction to Modern Information Retrieval. McGraw-Hill. Salton, G.& Buckley,C.(1988).Term-weighting approaches in automatic text retrieval. Information Processing and Management,24(5),513-523. Singhal, A. and Salton, G.(1998). AutomaticText Browsing Using Vector Space Model. Proceeding of the Dual-Use Technologies and Applications, 318-324. Sullivan, D.(2001). Document Warehousing and Text Mining. Wiley Computer Publishing, 326. Trivedi, A., Medonca, A. E., Johnson, B. S.(2004). Using Machine Learning for Classifying Documents and Extracting Features. 11th World Congress of Medical Informatics. Xiangzhu, G. and Murugesan, S.(2003). A Dynamic Information Retrieval System for the Web. Proceedings of the Annual International Computer Software and Applications Conference, 670-675.. 56.

(65) Y. Akita and T. Kawahara(2004). Language modeling adaptation based on PLSA of topics and speakers. Proceedings of International Conference on Spoken Language Processing.. 57.

(66) 附錄一、中研院平衡語料庫詞類標記集簡化標記. 對應的 CKIP 詞類標記. A. A. 非謂形容詞. Caa. Caa. 對等連接詞，如：和、跟. Cab. Cab. 連接詞，如：等等. Cba. Cbab. 連接詞，如：的話. Cbb. Cbaa, Cbba, Cbbb, Cbca, Cbcb. 關聯連接詞. Da. Daa. 數量副詞. Dfa. Dfa. 動詞前程度副詞. Dfb. Dfb. 動詞後程度副詞. Di. Di. 時態標記. Dk. Dk. 句副詞. D. Dab, Dbaa, Dbab, Dbb, Dbc, Dc, Dd, Dg, Dh, Dj. 副詞. Na. Naa, Nab, Nac, Nad, Naea, Naeb. 普通名詞. Nb. Nba, Nbc. 專有名稱. Nc. Nca, Ncb, Ncc, Nce. 地方詞. Ncd. Ncda, Ncdb. 位置詞. Nd. Ndaa, Ndab, Ndc, Ndd. 時間詞. Neu. Neu. 數詞定詞.. Nes. Nes. 特指定詞. Nep. Nep. 指代定詞. Neqa. Neqa. 數量定詞. Neqb. Neqb. 後置數量定詞. Nf. Nfa, Nfb, Nfc, Nfd, Nfe, Nfg, Nfh, Nfi. 量詞. Ng. Ng. 後置詞. Nh. Nhaa, Nhab, Nhac, Nhb, Nhc. 代名詞. I. I. 感嘆詞. P. P*. 介詞. T. Ta, Tb, Tc, Td. 語助詞. VA. VA11,12,13,VA3,VA4. 動作不及物動詞. VAC. VA2. 動作使動動詞. VB. VB11,12,VB2. 動作類及物動詞. 58.

(67) VC. VC2, VC31,32,33. 動作及物動詞. VCL. VC1. 動作接地方賓語動詞. VD. VD1, VD2. 雙賓動詞. VE. VE11, VE12, VE2. 動作句賓動詞. VF. VF1, VF2. 動作謂賓動詞. VG. VG1, VG2. 分類動詞. VH. VH11,12,13,14,15,17,VH21. 狀態不及物動詞. VHC. VH16, VH22. 狀態使動動詞/. VI. VI1,2,3. 狀態類及物動詞. VJ. VJ1,2,3. 狀態及物動詞. VK. VK1,2. 狀態句賓動詞. VL. VL1,2,3,4. 狀態謂賓動詞. V_2. V_2. 有. DE SHI FW. /*的, 之, 得, 地*/ /*是*/ /*外文標記*/. 59.

(68) 附錄二、高中歷史題庫概況表表示方式：高中名稱年度學期第幾次考試(題數)。例如：小港高中 900202(39 題)為 90 年下學期第二次月考，共 39 題。小港高中 900202(39 題) 小港高中 910103(40 題). 北一女中 920101(39 題). 板橋高中 920101(40 題). 小港高中 910201(40 題). 北一女中 930101(24 題). 板橋高中 920102(33 題). 小港高中 910203(48 題). 台中二中 930203(45 題). 板橋高中 920103(50 題). 小港高中 910203(40 題). 再興高中 930203(58 題). 板橋高中 920201(40 題). 小港高中 920101(38 題). 板僑高中 890102(39 題). 板橋高中 930102(36 題). 小港高中 920102(40 題). 板僑高中 890201(40 題). 板橋高中 930103(50 題). 小港高中 920103(35 題). 板橋高中 880201(50 題). 板橋高中 940102(35 題). 小港高中 920201(40 題). 板橋高中 880202(50 題). 板橋高中 940103(49 題). 小港高中 920202(39 題). 板橋高中 880203(50 題). 板橋高中 940201(38 題). 小港高中 920203(48 題). 板橋高中 890101(50 題). 師大附中 880203(50 題). 小港高中 930101(44 題). 板橋高中 890102(35 題). 師大附中 900101(50 題). 小港高中 930102(40 題). 板橋高中 890203(40 題). 師大附中 900203(50 題). 小港高中 930103(40 題). 板橋高中 900101(41 題). 師大附中 910101(49 題). 小港高中 930201(39 題). 板橋高中 900102(40 題). 基隆女中 930101(37 題). 小港高中 930202(40 題). 板橋高中 900103(50 題). 基隆女中 930102(37 題). 小港高中 930203(50 題). 板橋高中 900201(40 題). 基隆女中 930103(50 題). 小港高中 930203(50 題). 板橋高中 900202(38 題). 基隆女中 930201(45 題). 小港高中 940101(38 題). 板橋高中 900203(47 題). 基隆女中 930203(40 題). 小港高中 940102(40 題). 板橋高中 910101(40 題). 華岡藝校 910203(41 題). 小港高中 940103(40 題). 板橋高中 910102(40 題). 華岡藝校 930203(30 題). 小港高中 940103(50 題). 板橋高中 910203(35 題). 臺中二中 920101(47 題). 小港高中 940201(40 題). 板橋高中 910203(49 題). 臺中二中 930101(40 題). 60.

(69) 附錄三、潛在語意分析系統介面. 61.

(70) 附錄四、評鑑所使用的試題範例一、新試題. 英國學者柴爾德稱「新石器革命」為「第一次革命」，這是因為人類文化上出現怎樣突破性的發展?(北一女 94 高一第一次月考) (A)人類從自然界的寄生者成為生產者，使食物來源穩定 (B)人類群居生活日久，基於需要出現國家組織 (C)出現夯土城牆，說明社會階層分化、戰爭頻繁 (D)開始出現大型公共建築如宮殿、神廟，加速文化發展. 二、欲比對的舊試題. 1.「新石器革命」在人類文明的演進上有什麼突破性的發展？ (A)對自然界依賴減少，產食經濟使食源穩定 (B)群居生活日久，國家組織出現 (C)謀生的活動更為忙碌，生活餘暇明顯減少 (D)大型公共建築如宮殿、神廟開始出現，加速文化發展。 2.「新石器革命」在人類文明的演進上具有重要的意義，其所以稱為革命，原因在於下列那些史實? (A)技術的突破對生活發生重大的影響 (B)對自然界依賴減少，以生產代替採集來取得食物 (C)居住型態改變，群居生活形成，長期性聚落出現 (D)謀生的活動更為忙碌，生活餘暇明顯減少 (E)開始農業與畜牧兩種新型態的的經濟生活，加速文化發展的步伐 3.「新石器革命」在人類文明的演進上有那些突破性的發展？ (A)生產技術的改進使社會走向分工 (B)對自然界依賴減少，產食經濟使食源穩定 (C)群居生活形成，長期性聚落出現 (D)謀生的活動更為忙碌，生活餘暇明顯減少 (E)大型公共建築如宮殿、神廟開始出現，加速文化發展的步伐. 62.

(71) 4.人類歷史演進的過程是經過漫長的歲月，由舊石器時代進入新石器時代，有許多重大的改革，在人類文明史上意義重大，謂之「新石器革命」。請問，這個過程中有哪些顯著的變革，請選出正確者？ (A）技術的突破，對生活發生重大的影響 (B）群居生活形成，出現村落 (C）開始農業與畜牧兩種新型態的經濟生活 (D）文字普遍使用，尤其是占卜方面保留最多 (E）對自然界的依賴降低，以生產方式取得食物 5.所謂革命，通常指政治體制或社會結構的激烈變革，但有時也指經濟的重大發展。例如，人類從採集、狩獵的生活方式，轉變成農 6.耕、畜牧的生產方式，被稱為新石器革命。十七、十八世紀之交的農業進步，也有人稱為農業革命。十八世紀以來，人類大量應用非動植物能源於生產活動上的一連串變革，則被稱為： (A)商業革命(B)價格革命(C)工業革命(D)資訊革命。 7.李濟在《中國文明的誕生》一文中指出：中國早期的文明應自新石器時代開始，是因該時代具有哪些特徵？ (A)以磨製的方式製造石器，便於人們使用 (B)經濟形態已進步至畜牧，甚至已出現農耕 (C)有村落及防禦壕溝出現 (D)開始使用火，使人們進入熟食階段 (E)陶器上已出現「六書」俱備的文字。 8.新石器時代農業的產生對人類文明影響甚多，故有農業革命之稱，請問以下何者不是其影響？ (A）人類可能有多餘糧食 (B）人類有多餘時間進行文明創造 (C）大規模的生產與製造促進人類物質生活的富足 (D）人類定居，形成聚落，進而形成城市和國家 9.新石器時代之所以被稱為「新石器革命」是取決於該時代哪一項重要發展 (A)由採集食物到產食的變遷 (B)冶金技術的肇始 (C)城市出現成為文明的發源地 (D)已能用簡單文字來表達語言. 63.

(72) 10.新石器時代人類的生活不同於舊石器時代，因而有「新石器革命」之說，主要在於新石器時代已有 (A)懂得縫製衣服 (B)已有宗教觀念，相信人死後有靈魂存在 (C)發明農業，減少對自然食物的依賴 (D)飼養家畜，穩定肉食來源 (E)製作陶器。. 64.

(73) 附錄五、相似度評鑑系統介面. 65.

(74) 附錄六、評鑑系統說明手冊 1.. 請登入網址: http://140.122.107.253/yamol3/lsa_login.php. 2.. 操作畫面如下. a.評鑑說明區. b.試題區. c.選題區. d.評鑑區 (1).. 評鑑說明區：請判別「舊試題」與「新試題」是否有所相似，相似程度由０分～５分，５. 分表示非常相似，０分表示完全不相似。. (2).. 試題區：左邊試題為新試題；右邊試題為舊試題，1~10 題為新試題一的相似題，11~20. 為新試題二的相似題….以此類推。. 66.

(75) (3).. 選題區：直接點選題號就可以跳題作答，題號旁邊數字為您所做評鑑的分數。. (4).. 評鑑區：相似程度給分為 0~5 分，請根據試題區的相似度給予適當的分數。. 3.. 注意事項：由於本系統僅採用 IP 認證，因此專家學者如果使用浮動ＩＰ登入(如 ADSL、. DHCP)，請勿分兩次以上評鑑，因為ＩＰ變動將無法顯示之前已經評鑑過的資料。. 67.