• 沒有找到結果。

本研究旨在應用資訊檢索模型-潛在語意分析(latent semantic analysis,

LSA),以判斷試題間的相似度,並且探討影響判斷精確度的因素,其因素為使用 不同評分函式的差異、相關文件做為訓練文件與否和關鍵字選取不同對於判斷結 果的影響,詳細說明將於實驗設計做介紹。以下玆就本研究之動機、目的及相關 名詞敘述如下。

第一節 研究動機與目的

近幾年來,大學入學學科能力測驗以及指定考科,一直被大眾質疑有數題命 題出自坊間試題,或是以往的研究用試題,例如 91 學年度指定考科國文和社會,

被質疑取材於龍騰版教科書的練習題;92 學年度指定考科英文試題,發現與坊間 補習班複習考題一模一樣;93 學年度學科能力測驗國文試題,遭人檢舉四題出自 大考中心 91 年研究試題。

考試的公正、公平及兼顧試題的水準,是目前最迫切的課題,但是坊間試題 數以萬計,如果於審題時一一比對新試題與舊試題的相似度,將會耗費相當的人 力資源,既不經濟也不科學。

然而隨著資訊檢索(information retrieval)、資料探勘(data mining)技術的 發展與進步,在比對文件間的相似性、文件的自動分類等,已有不少的研究成果,

目前資訊檢索研究中,所使用的文件種類相當多,包含網路 HTML 文件、新聞文 件、一般文件、以及電子郵件等,應用領域十分廣泛。

因此研究者覺得可利用資訊檢索技術於試題相似度比對,以協助專家學者於 命題後,檢驗是否為坊間已經出現的舊試題,提升命題的品質。

資訊檢索中常見的資訊檢索模型,大致可分為逐字比對(Literal Term

Matching)與概念比對(Concept Matching)二種方式(陳柏琳,2005),分別以向量空 間模型(Vector Space Model, VSM)及潛在語意分析(Latent Semantic Analysis, LSA) 為代表,而潛在語意分析可藉由分析一個龐大的語料庫,來解決同義詞的問題

(Landauer,1998),因此應用上較為廣泛,成效也獲得肯定。除此之外,在資訊 檢索領域中,新的資訊檢索模型產生,也常使用潛在語意分析做優劣比較,因此 潛在語意分析可以說是資訊檢索模型的最低標準,本文旨在探討資訊檢索模型用 於試題相似度比對之可行性,而研究者也以潛在語意分析做為探討的模型。

第二節 研究目的

潛在語意分析應用於試題相似度分析,已有部分良好的研究結果(郭榮 芳,2005):1.關鍵字選取方面,使用去除冗詞較原始試題佳。2.關鍵字權重方面,判 斷試題非常相似、部分相似與些微相似試題情況時,使用 log-entropy 的效果較佳。

因此研究者更進一步探討影響系統判斷相似度的其他原因,如評分函式

(score function)、使用關鍵字詞性做選取、使用相關文件訓練有無的差異。故本研 究之目的可具體臚列如下:

1. 不同評分評分函式對於試題相似度判斷的影響如何?

2. 關鍵字選取時,使用詞性選取是否優於冗詞去除?

3. 訓練潛在語意分析模型時,僅使用試題是否恰當?是否應當使用其他相關文 件做為訓練?

相關文件