• 沒有找到結果。

第三章 研究方法與步驟

第三節 實驗設計

tf-entropy

20 維度 餘弦

一、 評分函式的影響

評分函式是影響系統判斷試題相似度最重要的一環,也是影響評分結果最大 的部份,不同的評分函式擁有不同的特性,本研究中主要利用外在效標,找出最 適合用於判斷試題相似度的評分函式。

二、 使用相關文件訓練有無

以往使用 LSA 模型做試題相似性(郭榮芳,2005)以及試題分類(鄭淑玲,葉 瑞峰,鄭雙慧,2003)的研究,皆直接使用試題充當空間訓練用的文件,本研究者 認為並不適宜,因此以試題和 LSA 模型的特性提出另外的看法:

1. LSA 模型的最大的功能是利用詞彙共現來偵測同義詞的存在,以達到不同文 件中的同義詞,也能給於相同的分數,藉此增加判斷文件相似度的精確度。

2. 根據試題命題的原則-題幹長度應適中(以 20 字或不超過一行為原則),導致 擁有相同意義的名詞極少在同一題內出現,例如:孫中山、孫逸仙、孫文、

中山樵、中山先生等名詞,皆為同一人,但在試題命題時,這些名詞同時出 現在同一試題內的機率相當低,而在介紹孫中山事蹟的文件中,上列諸名詞 出現在同一份文件中的機率便較出現在同一試題中高。

因此直接使用試題充當訓練用的文件,並不能完全發揮 LSA 模型的功效,

研究者認為研究試題的相似性,除了使用試題來做訓練,同時必須使用相關文件 來訓練空間模型。

三、 關鍵字選取方法不同對於判斷試題相似度的影響

在潛在語意分析流程中(圖 7),前置處理中的關鍵字選取如果選取的適當,

除了降低系統運算量外,更可增加判斷相似度的精確率,郭榮芳(2005)指出評分 函式為餘弦時,使用冗詞去除方法優於原始試題,因此本實驗中探討關鍵字選取 使用詞性選取與冗詞去除,對於系統判斷試題相似度的影響。

以上研究者所提出的三個改進之處,以評分函式的特性影響判斷試題相似度 的結果最為重要,因此本研究主要探討各種評分函式在不同條件下的優劣,分為 下列三個部份做探討:

一、評分函式在判斷不同相似程度下的優劣

各評分函式判斷相似度的優劣並不相同,或許有些評鑑高相似度特別準確,

或許有些對於專家評鑑較一致性的試題特別準確,因此為了探討這些問題,研究 者將 50 組建利外在校標所使用的試題,區分為以下四組實驗:

1. 去除無相似度後的題組

僅挑選專家認定新、舊試題有相似度的題組來做驗證。

2. 高相似度的題組

僅挑選專家給予相似度較高的新、舊試題題組來做驗證。

3. 高一致性的題組

僅挑選專家給予的分數一致性較高的新、舊試題題組來做驗證。

4. 所有試題組

全部 50 組新、舊試題題組,不做任何過慮。

二、關鍵字選取的差異,對於評分函式的影響

本實驗中將探討關鍵字選取對於判斷試題相似度的差異,是否使用詞性選取 關鍵字優於冗詞去除,並且將各評分函式分開討論,其中所探討的關鍵字選取的 方法有以下四種:

1. 使用原始試題,並不做任何關鍵字選取。

2. 使用冗詞表去除不重要的詞彙,剩餘詞彙即是關鍵字。

3. 使用詞性選取,僅選取名詞為關鍵字。

4. 使用詞性選取,選取名詞、動詞為關鍵字。

三、使用相關文件訓練有無對於評分函式的影響

本實驗中採用的相關文件,僅做潛在語意空間建立使用,增加判別試題相似 度的精確度,以往的研究本研究中稱為純試題組,由研究者提出的改進方法稱為 混合相關文件,不同的差異如圖 8:

圖 8 純試題與混合相關文件的差異 題庫

潛在語意空間

題庫

潛在語意空間

相關文件

以往研究(純試題)

改進(混合相關文件)

新試題

本研究所提出的混合相關文件,是根據新試題的關鍵字搜尋相關文件,然後 與題庫一起導入到潛在語意分析模型訊練,不過相關文件的選取差異會影響整個 潛在語意空間模型建置的完整性,因此本研究採用資訊檢索的技術-搜尋引擎,以 及限制其搜尋範圍於各大百科全書中,避免搜尋到其他不相干的資訊,演算法如 下:

1. 將新試題做中文斷詞。

2. 選取出名詞、動詞為關鍵字。

3. 將關鍵字導入搜尋引擎,並限制搜尋範圍。

4. 如果無相關文件,依照關鍵字權重調整 L(i,j)xG(i),剔除權重最低的關鍵 字。

5. 重複步驟 3-4,直到選取出 n 個文件。

所挑選出的相關文件將與所有舊試題一同訓練,由於相關文件是根據新試題 所挑選出,且相關文件內包含的資訊較試題內的資訊豐富,因此可以彌補新試題 資訊不足的缺失,以增加系統判斷相似度的精確度,本實驗中將探討使用相關文 件與舊試題一起做為訓練文件,是否優於僅使用舊試題。

各評分函式在不同保留維度下,可能也有所不同的結果,例如有些評分函式 低維度時判斷特別精確,有些則是高維度時判斷特別精確,因此本研究將維度約 化視為依變項,觀察各評分函式在不同保留維度下的表現,實驗結果中顯示保留

維度大於 1000 時,評鑑結果無太大改變,而且保留維度過大也會大幅增加系統 運算量,因此各實驗中的統計圖表將僅呈現保留維度於 0~1000 中的變化情形。

相關文件