緒論 - 應用潛在語意分析於試題相似度比較之可行性

本研究旨在應用資訊檢索模型-潛在語意分析(latent semantic analysis，

LSA)，以判斷試題間的相似度，並且探討影響判斷精確度的因素，其因素為使用不同評分函式的差異、相關文件做為訓練文件與否和關鍵字選取不同對於判斷結果的影響，詳細說明將於實驗設計做介紹。以下玆就本研究之動機、目的及相關名詞敘述如下。

第一節研究動機與目的

近幾年來，大學入學學科能力測驗以及指定考科，一直被大眾質疑有數題命題出自坊間試題，或是以往的研究用試題，例如 91 學年度指定考科國文和社會，

被質疑取材於龍騰版教科書的練習題；92 學年度指定考科英文試題，發現與坊間補習班複習考題一模一樣；93 學年度學科能力測驗國文試題，遭人檢舉四題出自大考中心 91 年研究試題。

考試的公正、公平及兼顧試題的水準，是目前最迫切的課題，但是坊間試題數以萬計，如果於審題時一一比對新試題與舊試題的相似度，將會耗費相當的人力資源，既不經濟也不科學。

然而隨著資訊檢索（information retrieval）、資料探勘（data mining）技術的發展與進步，在比對文件間的相似性、文件的自動分類等，已有不少的研究成果，

目前資訊檢索研究中，所使用的文件種類相當多，包含網路 HTML 文件、新聞文件、一般文件、以及電子郵件等，應用領域十分廣泛。

因此研究者覺得可利用資訊檢索技術於試題相似度比對，以協助專家學者於命題後，檢驗是否為坊間已經出現的舊試題，提升命題的品質。

資訊檢索中常見的資訊檢索模型，大致可分為逐字比對(Literal Term

Matching)與概念比對(Concept Matching)二種方式(陳柏琳，2005)，分別以向量空間模型(Vector Space Model, VSM)及潛在語意分析(Latent Semantic Analysis, LSA) 為代表，而潛在語意分析可藉由分析一個龐大的語料庫，來解決同義詞的問題

(Landauer，1998)，因此應用上較為廣泛，成效也獲得肯定。除此之外，在資訊檢索領域中，新的資訊檢索模型產生，也常使用潛在語意分析做優劣比較，因此潛在語意分析可以說是資訊檢索模型的最低標準，本文旨在探討資訊檢索模型用於試題相似度比對之可行性，而研究者也以潛在語意分析做為探討的模型。

第二節研究目的

潛在語意分析應用於試題相似度分析，已有部分良好的研究結果(郭榮芳,2005):1.關鍵字選取方面，使用去除冗詞較原始試題佳。2.關鍵字權重方面，判斷試題非常相似、部分相似與些微相似試題情況時，使用 log-entropy 的效果較佳。

因此研究者更進一步探討影響系統判斷相似度的其他原因，如評分函式

(score function)、使用關鍵字詞性做選取、使用相關文件訓練有無的差異。故本研究之目的可具體臚列如下：

1. 不同評分評分函式對於試題相似度判斷的影響如何？

2. 關鍵字選取時，使用詞性選取是否優於冗詞去除？

3. 訓練潛在語意分析模型時，僅使用試題是否恰當？是否應當使用其他相關文件做為訓練？

在文檔中應用潛在語意分析於試題相似度比較之可行性 (頁 9-12)

緒論

第一節 研究動機與目的

第二節 研究目的

第一節研究動機與目的

第二節研究目的