• 沒有找到結果。

第六節 試題相似度之分析

在文檔中 第一節 中文斷詞之分析 (頁 42-48)

分析行政院勞工委員會所編製的「電腦軟體應用技能檢定丙級學科」92 年度與 93

年度試題共 1000 題選擇題,其試題組合共有 C(1000,2)= 499500 組,經研究者判斷後,

其中有 399 組相同的試題組合,7880 組相似的試題組合,分析利用潛在語意分析是否能

判斷出相同與相似的試題,得到的結果如下:

(一)相同的試題

92 年度和 93 年度「電腦軟體應用技能檢定丙級學科」共有 399 組完全相同的試題組

合,利用潛在語意分析判斷的相似度皆大於 0.9,其中有 295 組系統判斷之相似度為 1,

由表 4-24 可知,取相似度最大的前 500 組試題,召回率以可達 0.7744,表示 399 組完全

的相同試題組已可找出 309 組。

表 4-24 92 年度與 93 年度相似試題的數量精確率、召回率的關係(在判斷相同

試題的情況時) 系統判斷 出的相似 試題數量

召回率 精確率

50 0.1253 1.0000 100 0.2506 1.0000 150 0.3759 1.0000 200 0.5013 1.0000 250 0.6266 1.0000 300 0.7393 0.9833 350 0.7519 0.8571 400 0.7544 0.7525 450 0.7644 0.6778 500 0.7744 0.6180

550 0.7970 0.5782 600 0.8045 0.5350 650 0.8120 0.4985 700 0.8221 0.4686 750 0.8346 0.4440 800 0.8346 0.4163 850 0.8396 0.3941 900 0.8421 0.3733 950 0.8446 0.3547 1000 0.8521 0.3400 1500 0.8872 0.2360 2000 0.8897 0.1775 2500 0.8947 0.1428 3000 0.9298 0.1237 3500 0.9323 0.1063 4000 0.9399 0.0938 4500 0.9499 0.0842 5000 0.9549 0.0762 5500 0.9549 0.0693 6000 0.9574 0.0637 6500 0.9574 0.0588 7000 0.9574 0.0546 7500 0.9624 0.0512 8000 0.9724 0.0485 8500 0.9724 0.0456 9000 0.9724 0.0431 9500 0.9724 0.0408 10000 0.9850 0.0393 15000 0.9900 0.0263 20000 1.0000 0.0200 25000 1.0000 0.0160 30000 1.0000 0.0133 35000 1.0000 0.0114 40000 1.0000 0.0100

(二)部份辭彙不同的相似試題

而在相似的試題組合方面,經過改版後的試題,若只將 Windows98 修改為 WindowsXP

者,如

92 年度第 732 題:

「使用 Windows98 的網路上的芳鄰,無法分享下列那一項?」

93 年度第 731 題:

「使用 WindowsXP 的「網路上的芳鄰」,無法分享下列那一項」,

或是

92 年度第 733 題:

「以下那一個不是 Windows98 提供的通訊協定?」

93 年度第 732 題:

「以下那一個不是 WindowsXP 提供的通訊協定」

相似度皆在 0.9999 以上,表示經過改版後的試題,若只是修改軟體的名稱,系統可

將這類的試題組合找出。

(三)敘述方式不同的相同試題

題意相同,但敘述方式不同的試題,如

92 年度第 591 題:

「電腦執行數值運算的速度受到下列何者影響?」

93 年度第 590 題:

「下列何者會影響電腦執行數值運算的速度?」

92 年度第 634 題:

「一般編寫程式的流程為」

93 年度第 633 題:

「編寫程式的一般流程為何?」

相似度皆為 1,表示系統可判別題意相同,但敘述方式不同的試題。

(四)辭彙不同,但意義相同的相同試題,如

93 年度第 895 題:

「關於「電腦病毒」的敘述中,下列何者有誤? 」

93 年度第 898 題:

「關於「電腦病毒」的敘述中,下列何者不正確?」

其相似度為 0.9959

92 年度第 876 題:

「預防電腦病毒,下列敘述何者有誤?」

92 年度第 940 題:

「避免電腦中毒的方法,下列何者不正確?」

其相似度為 0.9817

92 年度第 576 題:

「二進制 1011,1001,1100,0011 以十六進制表示為」

92 年度第 615 題:

「二進制數值 1101001 轉換為十六進制時,其值為」

這兩題的相似度為 0.9941。

由以上的例子可知,系統能判別試題內辭彙不同、但意義相同的試題。

兩年度的試題,由研究者判斷其相似的試題組合共有 7880 組,計算其召回率與精確

率,得到表 4-25,由表 4-25 可知,取前 10000 組相似試題,召回率為 0.6098,表示已有

4806 組相似試題被找出。

表 4-25 92 年度與 93 年度相似試題的數量與精確率、召回率的關係(在判斷相似試

題的情況時)

系統判斷 出的相似 試題數量

召回率 精確率

50 0.0063 1.0000

100 0.0127 1.0000 150 0.0190 1.0000 200 0.0254 1.0000 250 0.0317 1.0000 300 0.0381 1.0000 350 0.0438 0.9857 400 0.0499 0.9825 450 0.0562 0.9844 500 0.0626 0.9860 550 0.0689 0.9873 600 0.0752 0.9883 650 0.0816 0.9892 700 0.0874 0.9843 750 0.0935 0.9827 800 0.0986 0.9713 850 0.1039 0.9635 900 0.1103 0.9656 950 0.1165 0.9663 1000 0.1221 0.9620 1500 0.1729 0.9087 2000 0.2217 0.8735 2500 0.2589 0.8160 3000 0.2970 0.7803 3500 0.3233 0.7280 4000 0.3531 0.6958 4500 0.3807 0.6667 5000 0.4109 0.6476 5500 0.4352 0.6236 6000 0.4581 0.6017 6500 0.4815 0.5838

7000 0.5040 0.5674 7500 0.5279 0.5547 8000 0.5471 0.5390 8500 0.5634 0.5224 9000 0.5806 0.5084 9500 0.5975 0.4957 10000 0.6098 0.4806 15000 0.7165 0.3765 20000 0.7894 0.3111 25000 0.8461 0.2667 30000 0.8957 0.2353 35000 0.9401 0.2117 40000 0.9727 0.1917

在文檔中 第一節 中文斷詞之分析 (頁 42-48)

相關文件