成語電腦適性測驗建置過程與結果

第四章結果與討論

第一節成語電腦適性測驗建置過程與結果

首先，題庫測驗的建置，必須要有具代表性的成語題目來提供使用者線上施測。因此，本節旨在呈現題庫建置的過程，並進一步利用 Tester 2.0 的軟體來進行篩選分析，最後再與適性測驗整合，成為符合學生能力的適性測驗題庫。

壹、預試題庫建置過程

從文獻上可知，試題品質的良窳決定題庫建置品質的優與劣。因此，在建立題庫的試題方面，研究者以本身所整理的一至六年級翰林版國語課本中的成語及坊間可收集到的成語題庫等資料來作為試題來源之參考，且為對試題及適合施測的年級有更精確的掌握，本研究有先進行預試，茲將過程與結果說明如下：

本研究最初所建立的題庫是依國小一至六年級學生而建立，測驗內容為成語。故在建立紙筆題庫時，試題來源參考包括研究者所整理的一至六年級翰林版國語課本中的成語及坊間可收集的成語題庫等。

由於本研究一開始設定的對象為國小一至六年級的學生，故根據一至六年級翰林版國語課本中的成語及坊間可收集的成語題庫等試題中，剔除較為艱深冷門不常見的成語內容，以常用常見能應用的成語為主要挑選內容。所選試題如有題目敘述不清、誘答選項不佳等情形，則進行逐題修正。修正後，共選擇五十題。

貳、紙筆題庫預試結果分析

分為以下「受試樣本」、「分析軟體」及「分析結果」等三部分，說明如下：

一、受試樣本

紙筆題庫預試的樣本為研究者立意抽取，高雄縣鳳山市文山國民小學人文藝術暨雙語實驗學校一至六年級，每個年級各抽取一班，共選取一年五班，計 33 名；

二年一班，計 35 名；三年三班，計 28 名；四年三班，計 31 名、五年三班，計 31 名及六年四班，計 31 名，共計六個班級，189 名學生。每班皆做相同的試卷，施測時間為一節課，計四十分鐘。

二、分析軟體

TESTER for Windows 程式 2.0 版主要用來執行古典測驗理論下的試題分析、

測驗分析、和學生問題表分析等各種方法，以落實各種實證指標的建立工作。

本程式使用的最大容量範圍限制：學生數在 10000 人以內、試題數在 250 題以內、5 個選項以內的單選之選擇型試題、且每題的輸入資料格式必須是數值型

（numerical）的作答反應資料（例如：即使選項為 A、B、C、D 的文字格式，也必須轉成 1、2、3、4 的數學格式來輸入）。此外，本程式的 S-P 表繪圖功能，僅限於學生數在 60 人、試題數在 50 題以內的資料，才能啟動使用。

三、分析結果

（一）年級分析

在測驗初步建立之後，製成五十題的預試測驗如附錄一。研究者立意抽取高雄縣鳳山市文山國民小學人文藝術暨雙語實驗學校共六個班級，189 名學生為預試對象，本預試分析結果作為適性題庫題目修改及刪除的依據。

預試結果採用 Tester 2.0 軟體進行試題難度、鑑別度、優劣率等相關的分析。

茲將分析結果整理如表 4-1 所示：

表 4-1：國小成語測驗題庫分析一覽表

良質試題

（A 和 B）

劣質試題

（A'和 B'）試題良質率

一年級 16 34 32％

二年級 21 29 42％

三年級 25 25 50％

四年級 29 21 58％

五年級 35 15 70％

六年級 36 14 72％

由 Tester 2.0 軟體執行後的報表中，被標註為 A 和 B 的題目，我們歸類為良質試題，表示可以藉由這些題目測出學生的能力；反之被標註 A'和 B'的題目，我們歸類為劣質試題，表示這些題目無法測出學生的成語能力。其中的試題良質率為良質試題佔全部試題的百分比。所以由表 4-1 可知這份試卷，施測於一年級時，約有 32％的良質試題；施測於二年級時，約有 42％的良質試題；施測於三年級時，

約有 50％的良質試題；施測於四年級時，約有 58％的良質試題；施測於五年級時，

約有 70％的良質試題；施測於六年級時，約有 72％的良質試題。

良質試題率，隨著年級的增加而增加，代表這份試卷對於中低年級的小朋友來說，有些試題可能過難還未學過，以致於缺乏鑑別度。但對於高年級的小朋友，

這份試卷都約有七成的良質率，所以這份試卷對於高年級的小朋友來說是較具有鑑別度的。因此本研究的正式施測對象便設定為以國小高年級的五、六年級小朋友為主。

（二）試題分析

五、六年級預試利用 Tester 2.0 的施測結果分析整理表如附錄二及附錄三。其中內部一致性係數和差異係數整理如表 4-2 所示：

表 4-2：五、六年級預試之內部一致性係數和差異係數整理表

內部一致性係數差異係數

五年級 0.85 0.38

六年級 0.91 0.35

信度係數在 .70 至 .93 之間，斂聚效度及區辨效度在文獻上是相當肯定的。

所以這份試卷施測於五、六年級上是具有顯著性的。差異係數> .40 及< .60 是最好的（余民寧，2002）。不過施測結果出來的差異係數分離程度較小，代表學生的學習成就差異過於明顯，而造成此一現象最大的原因，便是試題有待修改的空間，

因為 Tester 2.0 的分析結果，也能顯示出試題的難度及鑑別度，因此有些鑑別度< .20 的題目，便需要加以修改或刪除。

參、 Flash 題庫與適性測驗的整合

依據 Tester 2.0 對五、六年級預試施測的分析，首先扣除劣質試題（A'和 B'）

及鑑別度低於 .20 的題目，再修改題意不清或調整較缺乏誘答力的選項，最後按難度由易而難的排列後共 28 題如表 4-3，所完成正式施測的傳統紙筆測驗如附錄四。

表 4-3：正式施測題庫按難易度排列及編號表

（續表 4-3）

如圖 4.1 所示，此一線上 Flash 題庫共分為七個階層。階層一：Q15，共 1 題；

階層二：Q12、Q18，共 2 題；階層三：Q9、Q16、Q21，共 3 題；階層四：Q6、

Q11、Q19、Q24，共 4 題；階層五：Q3、Q8、Q14、Q20、Q26，共五題；階層六：

Q2、Q5、Q10、Q17、Q23、Q27，共六題；階層七：Q1、Q4、Q7、Q13、Q22、

Q25、Q28，共 7 題，總計 28 題。Q15 為初始題，難度為 .50 的中等試題，試題答對往左邊，反之往右邊繼續作答，其餘試題以此類推，直到測出最後的級分為止。

一般傳統紙筆測驗需將 28 題的題目完全做完才能得到分數，本研究中的成語電腦適性測驗，學生只需做 7 題，即能測出學生的成語能力。因此若傳統紙筆測驗測出的分數能與成語電腦適性測驗所測出的級分得到高度相關，那麼本研究的成語電腦適性測驗即達成目標。而施測的結果與討論則留待第三節繼續探討。

在文檔中國小高年級成語電腦適性測驗之發展研究 (頁 48-55)

第四章 結果與討論

第一節 成語電腦適性測驗建置過程與結果

壹、 預試題庫建置過程

貳、 紙筆題庫預試結果分析

一、 受試樣本

二、 分析軟體

三、 分析結果