• 沒有找到結果。

以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發

N/A
N/A
Protected

Academic year: 2021

Share "以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發"

Copied!
62
0
0

加載中.... (立即查看全文)

全文

(1)

國立台中教育大學教育測驗統計研究所理學碩士論文

指 導 教 授:郭伯臣 教授

以知識結構為基礎之電腦化適性

數學測驗線上更新結構機制之研發

研 究 生:林婉星 撰

中 華 民 國 九 十 七 年 六 月

(2)

摘要

當教材內容的新增、重組或版本更新時,將會牽涉到題庫的試題需要重新建 立試題結構的問題。重新建立試題結構時,需收集學生在新試題的作答情形,但 一般施測的成本都很高,所以要如何節省施測成本將是件需要面臨的問題。 本研究所提出的更新法首先是將所需新增之試題分成三個部份,模擬利用線 上作答的受試者,當他們適性作答完舊試題後再分別分配一部分新的試題讓他們 一起作答,而後收集他們在線上作答的資料來更新試題結構。 之後將會建立出三個部份的試題結構,評估在設定個別試題結構之預測精準 度下更新後的試題結構,在各種樣本分配上的成效。且評估當學生只作答部份新 試題時和原始完整作答反應的資料,在更新知識結構上,他們二者間的預測精準 度、平均施測題數、節省試題比率的成效差異。 本研究結果發現: 一、利用線上收集樣本的方式,來節省預試的成本,及節省在資料整理的時間成 本,達到更新試題結構的效果。 二、在相同的精準度和節省題數比率下,當個別結構預測精準度高時,只需要少 量樣本就能有良好的結果。 三、在個別精準度較高時,樣本數越多便能越接近完整作答資料的效果。 關鍵字:順序理論、知識結構、電腦化適性測驗。

(3)

Abstract

When the teaching material content adds, reorganization or edition renew, it will

concern with items of item bank and have a problem that rebuilds up to structure.

While rebuilding up to structure need to collect students’ response as new items, the

cost of test is very expensive. Then how to save the cost of testing will be a problem.

In our designed method, in the first, we need to add items and divide them into three

parts.

The simulation makes use of the on-line test tested by examinee. And after

finished the adaptive test of old items, we assign a part of test with new items again.

Then we collect the data of online test to renew structure.

After above, we will build up the structure of each part and evaluate the sets of

the individual structure accuracy that the renewed structure is in different sample. We

also evaluate the difference of the renewing results with knowledge structure between

a student test only part and complete new items.

The results with our research are listed as follow:

1. Make use of the way of on-line collected sample to save the cost and the

testing time in data processing and renew structure.

2. In the same accuracy and economical item of ratio and when the separate

structure accuracy is higher, we only need a little amount of samples and

have the better results.

3. When the separate accuracy is higher, more number of samples can more

approach the result to complete response.

(4)

目錄

第一章 緒論... 1 第一節 研究動機... 2 第二節 研究目的... 3 第三節 名詞解釋... 4 第四節 研究範圍與限制... ... 5 第二章 文獻探討... 6 第一節 電腦化適性測驗... 6 第二節 試題結構建立方式... 7 第三節 以知識或試題結構為主的電腦適性測驗... 11 第四節 KSAT 選題策略... 12 第五節 題庫的更新機制... 14 第三章 研究方法與步驟... 16 第一節 研究流程... 16 第二節 研究方法... 17 第三節 研究步驟... 22 第四節 更新試題結構之系統流... 31 第五節 研究對象與工具... 33 第四章 研究結果... 37 第一節 設定個別結構精準度之試題結構... 37 第二節 評估線上更新試題結果策略之成效差異... 39

(5)

第五章 結論與建議... 44 第一節 研究結論... 44 第二節 研究建議... 45 參考文獻... 47 附錄一 專家知識結構... 51 附錄二 設定個別結構預測精準度之 OT 圖形... 53

(6)

表目錄

表 2-1 試題 j 與試題 k 之聯合邊際機率... 8 表 2-2 OT、IRS 與 Diagnosys 順序性定義... 10 表 3-1 作答反應次數列聯表... 19 表 3-2 答題情形及信度分析表... 36 表 4-1 不同 threshold 之預測精準度對照表... 39 表 4-2 95%精準度建立試題結構後,部份作答和完整作答之比較表... 40 表 4-3 98%精準度建立試題結構後,部份作答和完整作答之比較表... 42

(7)

圖目錄

圖 2-1 適性測驗流程圖... 12 圖 2-2 試題結構圖... 13 圖 3-1 研究流程圖……... 16 圖 3-2 受試者作答反應之矩陣圖... 17 圖 3-3 5-fold-c.v 法之實驗設計圖... 18 圖 3-4 評估電腦適性測驗之成效圖... 20 圖 3-5 研究步驟流程圖... 23 圖 3-6 作答反應矩陣列表... 24 圖 3-7 試題結構圖... 25 圖 3-8 試題關聯矩陣圖... 25 圖 3-9 A 部份試題結構矩陣………... 26 圖 3-10 B 部份試題結構矩陣... 27 圖 3-11 C 結構試題關連矩陣圖... 28 圖 3-12 遞移性演算法... 28 圖 3-13 A 部份試題結構圖... 29 圖 3-14 B 部份試題結構圖... 30 圖 3-15 結合 A、B 部份試題結構圖... 30 圖 3-16 更新試題結構之系統流程圖... 32 圖 3-17 能力指標「6-n-01」部分結構圖... 34 圖 3-15 能力指標「6-n-02」部分結構圖... 35 圖 3-15 能力指標「6-n-02」部分結構圖... 35 圖 4-1 個別結構預測精準度為 95%之 OT 圖... 37 圖 4-2 個別結構預測精準度為 98%之 OT 圖... 38

(8)

圖 4-3 95%精準度建立試題結構後之完整結構預測精準度... 41

圖 4-4 95%精準度建立試題結構後之完整結構施測題數... 41

圖 4-5 98%精準度建立試題結構後之完整結構預測精準度... 43

(9)

第一章 緒論

本研究研發的是以知識結構為基礎之電腦化適性測驗線上更新試題結構的 方法,而此知識結構則是利用順序理論(ordering theory,OT)的概念來建立出 試題和試題間的關連,本研究首先利用線上作答的受試者,當受試者適性作答完 舊試題後再分別新增新的試題讓他們一起作測驗,而後蒐集他們在線上作答的資 料後來更新試題結構,這樣不但能有效率的進行測驗,且又能達到節省預試成本 而更新試題結構的效果。本研究將模擬利用適性測驗的預測作答資料和完整作答 反應的資料,在更新知識結構上,他們二者間的預測精準度、平均施測題數、節 省試題比率的成效差異。 本篇論文架構共有五個章節,第一章為「緒論」;第二章為「文獻探討」;第 三章為「研究方法與步驟」;第四章為「研究結果」;第五章為「結論與建議」。 本研究主要目的在於建置以知識結構為基礎之電腦化適性測驗線上更新結 構機制之研發,本章緒論將針對研究動機、研究目的、名詞解釋、研究範圍與限 制等四節進行闡述。

(10)

第一節 研究動機

隨著現今資訊及網際網路的蓬勃發展,將資訊融入教育研究也逐漸受到許多 學科專家的重視,數位學習突破了傳統授課在空間及時間上的限制,使學生可以 無所不在的學習,也可利用網路搜尋原本教材以外的資源,增加更多相關的知 識,學生也可重覆利用線上學習的系統,重點式的學習自己較不懂的單元,且電 腦學習介面更可以配戴許多圖片、影像、聲音等,讓學習系統的介面更加生動活 潑始學生更樂於學習。 除了教學之外,測驗和評量也是教學過程中非常重要的一環,透過測驗結果 不但可以反應出學生對學習內容了解的程度,提供學生自行參考或者讓教學者掌 握學生的學習狀況,可以利用測驗的結果達到能力的判定。電腦化測驗的興起, 大約在 70 年代(廖元偉、趙銘,2006)。國內亦有許多有關電腦化適性測驗相關 的研究,透過適性測驗的方式,學生可以不用再重覆測試自己已經學會的試題, 從中也可以瞭解到學生的在學完每個單元時自己的能力及所欠缺的觀念有哪 些;且一般老師在教學過後都需透過測驗來瞭解所教導的學生們在這個單元中吸 收到的知識有多少,但往往一位老師所要檢視的是一個班級每位學生們在學習上 不同的迷思,但在時間上是無法兼顧的,所以,在測驗上要如何能有效率又能夠 即時的掌握學生學習的脈動,將是個值得重視的議題。 近年來由於適性測驗理論的發展,且電腦化的適性測驗能夠在固定的測驗時 間內有效的節省測驗的題數和測驗的時間,亦可偵測到學生的錯誤概念,有效率 的達到測驗的目的,更能實踐「因材施測」的原則(劉育隆,2007)。 在國科會專題研究「國小數學科電腦化適性診斷測驗(I)(II)(III)」(郭伯臣,

2003,2004,2005)中的「以知識結構為基礎之適性測驗」(knowledge structure based

(11)

提供學生一個適性測驗和立即的成績回饋,而達到「因材施測」的效果。國內亦 有相關研究顯示這樣的電腦化適性測驗確實可以節省施測題數、時間,並且有不 錯的精準度(蔡昆穎,2004;許志毅,2004;黃珮璇、王暄博、郭伯臣、劉湘川, 2006;楊智為、張雅媛、郭伯臣、許天維,2006)。 本研究探討的是當新學期一開始,經常會遇到教材內容的新增、重組或版本 更新時,將會牽涉到題庫的試題需要重新建立試題結構的問題,此時,以知識結 構為基礎的適性測驗將會有新的試題需要新增於題庫中,而原先的知識結構將會 因這些新增加的試題,使得結構間的關係有所變動,所以為了要更新試題結構, 就會需要再重新蒐集學生在新試題的資料,才能建立更新試題結構,但一般預試 的成本都很高,如果每新的學期因單元或版本的變動,就需要重新預試獲得新試 題和舊試題間的作答反應再跑出試題結構間的關係,將會浪費許多不必要的成 本,所以要如何節省預試成本而能更新試題結構將是件必要面臨的問題。

第二節 研究目的

基於以上的敘述,本研究之研究目的歸類如下: 一、 開發以知識結構為基礎之電腦化適性測驗線上更新試題結構的方法。 二、 比較線上更新結構的方法和實際完整作答在建立試題結構上的成效。

(12)

第三節 名詞解釋

壹、 以知識結構為基礎之電腦適性化測驗

本研究之電腦化適性測驗採用電腦介面的測驗方式,結合知識結構理論做為 選題的策略。依據學生的答題情形予以選擇適合的題目作答,若受試者正確作答 最上層概念的試題,代表已具備此概念和其以下之下位概念,則進行下一試題施 測;若受試者答錯,則下一題將選取其下位概念的施測試題,透過這樣的選題方 式,快速而精確的進行適性測驗,在最短時間內以最少的施測題數找出受試者的 迷思概念。

貳、 結構理論

建立結構的方式有很多種,常見的有專家結構、順序理論、試題關聯結構法 (Item Relationship Structure analysis,IRS)、Dignosys 等建立方法,而本研究所 稱之結構理論是由 Bart & Krus(1973)所提出順序理論,利用 OT 分析學生的作答 反應,瞭解學生知識的上下位關係。

參、 知識結構

知識結構(knowledge structure)可分為專家知識結構、學生知識結構。專家 知識結構是由擁有教學經驗的數位學科專家根據教學理論與教學現場的真實經 驗,分析不同施測範圍內之知識概念,並根據學生的學習歷程、概念發展順序及 概念間的上位、下位關係,統整而成的知識概念結構關係。 學生知識結構是運用專家知識結構編製而成的紙筆測驗,進行施測,根據得 到的資料以順序理論估計而得,學生知識結構亦可稱為學生試題結構。

(13)

肆、 定錨試題

在不同部份的測驗當中,每個受試者將會共同作一部份相同的試題,此試題 稱為定錨試題(anchor item),本研究利用定錨試題將每個部份受試者作答完試題 後所建立出的學生試題結構做連結。

伍、 因數與倍數

針對國小六年級階段,因數與倍數之內容涵括了二個能力指標,包含因數、 倍數、因數與倍數的關係、公倍數、質數、合數、質因數分解、最大公因數和最 小公倍數等,因此在本研究中所言之因數與倍數,即包括公因數與公倍數等部分。

第四節 研究範圍與限制

壹、 研究內容

教育部(2003)九年一貫數學領域課程綱要中,一年級到九年級學習階段中 與因數、倍數主題相關的分年細目共有九個項目,本研究探討六年級階段相關項 目,內容包括因數、倍數、因數與倍數的關係、公倍數、質數、合數、質因數分 解、最大公因數、最小公倍數等數學知識,測驗的題目則包括了定義題、計算題 與包含情境的應用題。

貳、 研究樣本

本研究之研究樣本採用莊惠萍(2007)針對九十五學年度六年級學生,包括 中部四縣市共 17 個班級,有效樣本共計 530 人;題目皆為選擇題,取其中 35 題 試題,來進行模擬研究。 樣本對象僅為中部縣市學校,由於研究對象區域的限制,在此將不多做推論。

(14)

第二章 文獻探討

本章文獻探討將分成四節來加以說明:第一節為電腦化適性測驗;第二節為 估計試題結構建立方式;第三節為以知識結構為基礎之選題策略;第四節為題庫 的建立。

第一節 電腦化適性測驗

1960年代末期,由在教育測驗服務社(Educational Testing Service)的F. Lord

感覺到,對於不同能力的考生而言,在傳統上固定長度的測驗無法有效的滿足這 些考生能力估計的需求,因此才極力投入適性化測驗的研究(余民寧,1991)。 而在當今電腦科技的興起,電腦化的適性測驗中,將可以利用電腦的強大運算功 能,依據學生在上一個作答反應的情形來給予下一題適合考生的試題。例如:當 學生能力低時,無法作答困難的題目,電腦將會評估呈現適當的試題,讓學生不 會一直鑽研在不懂的題目上,而使學生在學習上面的感到挫折;而當面對能力較 好的學生時,也不用一直將時間浪費在已經學會的題目上面,電腦將會依據他們 的能力來呈現所需要試題,這將可以使學生進而往更高的程度發展和學習。 電腦化適性測驗依理論基礎大致可分為二大類:一類是以試題反應理論(Item Response Theory,IRT)為基礎;另一類則是以知識或試題結構為基礎(郭伯臣, 2004)。 一些相關研究論文提出以試題反應理論為基礎的電腦化適性測驗(Wainer, 2000),此理論是將施測後受試者成績視為一「能力值」(ability)或「量尺分數」 (scale score),較適合用於教育資源分配情境,例如:基本學力測驗、大學入學 測驗等。使用以IRT為基礎的電腦適性測驗來進行學習診斷,所提供的訊息並不 適用於錯誤類型診斷(郭伯臣、謝友振、張峻豪、蔡坤穎,2005;劉育隆、曾筱

(15)

Samuels, & Treasure-Jones, 1997;Brown & Burton, 1978;Chang, Liu, & Chen, 1998;VanLehn, 1988;Wenger, 1987),須先建立試題之知識結構,再依據知識結 構中的順序理論關係作為此適性測驗的選題策略,根據不同作答情形的受試者呈 現出適當難度的題目,此方式將可節省施測題數也可以節省測驗的時間且能診斷 出各個學生不同的錯誤概念,具有適性化的功能(莊惠萍,2007)。

第二節 試題結構建立方式

一般常看到用來定義試題間的結構關係的理論有 Airasian & Bart(1973)的「順 序 理 論 」、 Takaya (1991) 的 「 試 題 關 聯 結 構 法 」 及 Appleby et al. (1997)的 「Diagnosys」,利用這些方法來來分析比較,在不同的教學方法上,是否會造成 學生知識結構上的差異。詳細內容分述如下:

壹、 順序理論

Airasian & Bart (1973)的「順序理論」是常用來定義試題間的結構。將此理論

敘述於下: 假設X =(X1,X2,L,Xn)表示一個向量包含 n 個二元試題成績變數,每一個受 試者作答 n 題後會得到一個 0 與 1 的向量

X

v =

(

X

1

,

X

2

,

L

,

X

n

)

,則兩試題 j 和 k 的聯合邊際機率可用表 2-1 表示。 在順序理論中,試題 j 和試題 k間產生順序關係,且試題 j 遠比試題 k 容 易時,將表示試題 j 答錯而試題 k 對的情況應該不會發生,其定義為:令 ) 1 , 0 ( * = = = k j jk PX X ε 表示違反了順序理論的定義,當試題 j 做錯而試題 k 做對的機 率在ε* <ε jk 時,則表示當試題 j 做錯而試題 k 做對的機率低於所設定的值時,試題 j 和試題 k 則有順序關係可以表示為XjXk,即試題 j 是試題 k 的下位試題,其

(16)

中ε為一閾值(threshold),常設定為0.02≤ε ≤0.04。 表 2-1 試題 j 與試題 k 之聯合邊際機率 試題 k 1 = k X Xk =0 總和 1 = j X p(Xj =1,Xk =1) p(Xj =1,Xk =0) P(Xj =1) 0 = j X p(Xj =0,Xk =1) p(Xj =0,Xk =0) P(Xj =0) 試題 j 總和 P(Xk =1) P(Xk =0) 1 ) 1 (Xj = P 表示試題 j 答對人數的機率。 ) 0 (Xj = P 表示試題 j 答錯人數的機率。 ) 1 (Xk = P 表示試題 k 答對人數的機率。 ) 0 (Xk = P 表示試題 k 答錯人數的機率。 ) 1 , 1 (Xj = Xk = p 表示試題 j 與試題 k 都答對的機率。 ) 0 , 1 (Xj = Xk = p 表示試題 j 答對而試題 k 錯的機率。 ) 1 , 0 (Xj = Xk = p 表示試題 j 答錯而試題 k 對的機率。 ) 0 , 0 (Xj = Xk = p 表示試題 j 與試題 k 都答錯的機率。

(17)

貳、 試題關聯結構法

試題關聯結構法是由 Takeya(1991)提出的,希望透過 * jk r 測量試題順序結構之 係數來定義試題 j 到試題 k 之間的順序關係: r X P X P X X P r k j k j jk = = ≥ = = − = ) 1 ( ) 0 ( ) 1 , 0 ( 1 * 若 rjkr * ,則設定試題 j 為試題 k 之下位試題,紀錄為XjXk,其中 r 為一閾 值(threshold),常設定為 0.5。在 OT 及 IRS 中,若XjXkXkXj,則兩 者的關係可以表示成XjXk,而且這樣表示試題 j 跟試題 k 是等價的(吳慧 珉,2006)。

參、 Diagnosys

Appleby et al.(1997)開發出Diagnosys,此方法是一種基於知識結構為基礎的 數學概念電腦診斷測驗,其中應用了專家及學生的知識結構。為了考慮到學生的 結構,透過事先基於專家知識結構的紙筆測驗,來進行預測(郭伯臣、何政翰, 2004)。 Diagnosys 定義為f

(

xj =1,xk =0

)

>> f

(

xj =0,xk =1

)

XjXk,若

(

xj =1,xk =1

) (

+ f xj =0,xk =0

)

>> f f

(

xj =0,xk =1

) (

+ f xj =1,xk =0

)

XjXk

(Appleby, Samuel, & Treasure-Jones,1997)。

表 2-2 為 OT、IRS 與 Diagnosys 三者之順序性定義的比較,在該表中,IRS 裡的閾值 r 一般是被設定在 0.02≦ r ≦0.04 的。至於在 OT 之中,利用ε來代表閾 值,且建議大小為 0.5(郭伯臣,2003)。

(18)

表 2-2 OT、IRS 與 Diagnosys 順序性定義 順序性定義 XjXk Diagnosys

(

(

==10,, ==01

)

)

k j k j x x f x x f IRS r X P X P X X P r k j k j jk = = ≥ = = − = ) 1 ( ) 0 ( ) 1 , 0 ( 1 * OT ε* = ( =0, =1)<ε k j jk P X X

在郭伯臣、何政翰(2004);郭伯臣(2003,2004);Kuo, Liu, Sheu, Pai, Ko, Yang & Lin(2004)的研究中使用專家知識結構與 OT、IRS、Diagnosys 試題結構四

種方法來建立學生試題結構,並評估所建立結構之成效,得到下列四個結論: ㄧ、使用專家結構之電腦適性測驗演算法預測精確度較難控制,使用學生試題結 構之電腦適性測驗演算法,由於可藉由閾值控制結構,可獲得較令人滿意預 測精確度。 二、以 IRS 結構而言,閾值的增加,可以提升預測的精準度,但受測試題亦會增 加。 三、Diagnosys 演算法需要更多樣本來達到令人滿意的預測精確度,適性測驗速 度也比較慢。 四、OT 的演算法對樣本大小較不敏感,以試題順序結構為基礎的適性測驗來說, OT 似乎是一個較好的選擇。 順序理論的適性測驗演算法在節省試題和預測精準度兩方面都有最佳的表 現。本研究將採用 OT 分析法將學生預試的資料來建立學生試題結構,作為電腦 適性測驗選題策略。

(19)

第三節 以知識或試題結構為主的電腦適性測驗

Chang, Liu, & Chen (1998)曾以直流電路為例,設計一個診斷迷思概念之測驗

系統,做為教師補救教學之參考。在題庫建立方面,該研究參考相關文獻,訂出 9 個關於直流電路的迷思概念 ,再根據這 9 個迷思概念,請專家們出了 20 個題 目,每一題目之錯誤選項被要求盡可能跟迷思概念有所關連。 該研究的重點在於假設有一份試卷,每題的選項除正確選項之外,其餘選項 皆被設計成與某一種迷思概念有關,如圖 2-1 所示。因此,今天若學生 A 作答第 4 題時,選擇 4a 即可判斷學生可能擁有某一迷思概念且與第 6 題有關,故必須 再進行第 6 題的測驗來繼續作答。此時若學生面對的選項為 6a、6b、6c,且這三 者分別代表不同的迷思概念 M1、M2、M3,因此即可判斷出學生所擁有的迷思 概念為何。若學生選擇的是 4b,則可對應到迷思概念 M4,唯有選擇到 c 時才能 確定學生沒有 M1 至 M4 這四種迷思概念(曾彥鈞,2007)。 此方法優點為: 1. 根據受試者作答之選項來決定下一題試題,可達到適性化之效果。 2. 由受試者作答之選項來推論迷思概念,如果題目夠多,將可精確診斷出每 一位受試者之迷思概念,達到個別化之需求。 儘管優點是很明顯的,不過也發現幾個問題,例如: 1. 每條適性測驗路徑皆須精心設計以避免重複,而無法精確診斷出相對應之 迷思概念。 2. 出題時需考慮選項及迷思概念間關係,困難度高。 3. 當試題具有可猜測性時,不易達成精確診斷。

(20)

圖 2-1 適性測驗流程(Chang et al, 1998)

第四節 KSAT 選題策略

在國科會專題研究「國小數學科電腦化適性診斷測驗(I)(II)(III)」(郭伯臣, 2003,2004,2005)中根據學生的知識結構來自動選題,以知識結構為基礎之電 腦化適性測驗首先會先擁有如圖 2-2 的知識結構,而本研究知識結構建立方式是 以順序理論為基礎來建立試題和試題之間的上下位關係。圖中上層的 A 表示 B 跟 C 的上位試題,則 B 跟 C 就是 A 的下位試題,舉例來說:A 試題是四則運算 的題目,而 B 跟 C 是加減乘除的題目,當學生四則運算的題目會了,則就能表示 加減乘除的概念已經學會了,所以此結構的定義就是:上位的試題會了,就表示 下位試題已經學會,當受試者答對了上位試題時,電腦將會自動預測下位試題是

(21)

此電腦化適性測驗的選題策略,將以圖 2-2 為例詳細說明,假設老師想要瞭 解學生學習某單元後真正學習到的知識有多少或是還有哪些概念還不懂時,需要 以試題 A 到 F 來進行測驗,傳統的紙筆測驗受試者要作答完整的一份試題,而利 用適性測驗的方式時,首先讓受試者先作答試題 A,如果作錯時就表示試題 B 跟 試題 C 要繼續作答,再往下測驗試題 B 跟試題 C 時,如果發現試題 B 答錯而試 題 C 答對時,電腦將會判定受試者對試題 E 和試題 F 的概念是已經學會了將可不 必再作答,而省下這二題的作答時間,但受試者必需再繼續作答試題 D,完成此 電腦化適性測驗後老師也可以清楚瞭解學生的迷思概念是什麼,再予以補救。 由此方式將可以有效的節省測驗題數,因而縮短學生在測驗的時間,有效率 的完成測驗且同時又能達到測驗的目的,更能符合「因材施測」的原則。 A B C F D E 圖 2-2 試題結構圖

(22)

第五節 題庫的更新機制

題庫(item bank 或 item pool)不光只是一堆題目的集合體而已,而是一堆經 過校準(calibration)、分析、歸類、與評鑑後,貯存起來的測驗試題組合體。 題庫具有下列的優勢(余民寧,1991): 1. 可使測驗編製者(也許是教師或專業機構)隨心所欲地編製能夠符合各種 目標的測驗。 2. 可使測驗編製者就題庫的範圍內,編製出每個目標都有適當題數的試題來 測量到它的測驗。 3. 如果題庫能夠包含內容有效且編題技巧純熟的試題在內的話,則測驗品質 通常會比測驗編製者自己編的測驗品質還好。 由此可見,題庫具有改進測驗品質的潛能,在可預期的將來,它對測驗編製 者的重要性將日益增加,同時對節省編製測驗所花的時間,亦將無可限量 (Hambleton & Swaminathan, 1985)。

壹、 發展題庫的時機

Millman & Arter(1984)建議在至少滿足下列條件之一的情況下,才需要著手

建立題庫,並充份發揮題庫的價值。

1. 現存測驗無法廣被接受,並且客觀環境需求編製屬於自己的測驗時。

2. 經常需要進行測驗時。

3. 需求具有多份複本測驗時。

4. 實施個別化適性測驗(individualized adaptive testing)時。

5. 許多測驗使用者願一致建立滿足自己所需的題庫時。

(23)

貳、 題庫的類型

題庫的類型係指題庫中試題組織的形式。常見的類型有結構化題庫(structured item bank)與非結構化題庫(unstructured item bank),茲簡述如下。

1. 結構化題庫 結構化題庫係指題庫中之試題在被選用前即已依照試題之類別或特質加以安 排成結構化形式。傳統的測驗通常使用結構化題庫來編製或施測。 2. 非結構化題庫 非結構化題庫係指題庫中之試題雖有試題之類別或特質等參數(如難度、鑑 別度及猜測度等)伴隨其中,但在選用前毋須事先加以安排,而是在組成測驗或 施測時,以統計的方法(如貝氏統計法、最大訊息法等)機動性(dynamic)加 以選題。適性測驗(Ho, 1989;何榮桂,2000)通常使用非結構化題庫(何榮桂, 1991c,1991d)進行線上測驗。 一般言之,非結構化題庫在使用時之效率優於結構化題庫,因此,目前大部 分題庫均以非結構化方式設計。就題庫之規模而言,一般人皆以為題庫中之題數 愈多愈好(通常在數百題以上),此看法未必全然正確,題庫品質之優劣,除了 規模之外,也須視試題的品質而定(何榮桂,2005)。

(24)

第三章 研究方法與步驟

本章研究方法與步驟將分成五節來加以說明:第一節為研究流程;第二節為 研究方法;第三節為研究步驟;第四節為更新試題結構之系統流程;第五節為研 究對象與工具。

第一節 研究流程

本研究之研究架構與流程圖如圖3-1 所示。 資料分析及驗證成效 撰寫更新試題程式 探討與蒐集相關資料文獻 確立研究目的 將紙筆測驗資料 進行模擬實驗 撰寫研究報告 評估更新試題 結構方法之成效 圖 3-1 研究流程圖

(25)

第二節 研究方法

壹、 在「評估連結方法成效」方面

圖 3-2 為受試者作答反應之矩陣圖,S1~Sn表示受試者人數;而 I1~Ij表示正 式施測之舊試題題目;Ij+1~Ik表示所需新增試題題目;而在傳統的資料蒐集方式, 是需要每位受試者在作答完I1~Ij之舊試題題目後,又要額外繼續作答Ij+1~Ik新試 題題目,但實際的情況下這種方式是不可行的,因為受試者在固定的時間內作答 舊試題後又要完成新試題,這樣受試者的答題題數將會過於冗長,以至所蒐集來 的作答反應資訊不夠準確,所以依本研究之實驗設計先將新試題題目分別分成 A、B、C 三個部份分配給受試者一起作答,之後將評估只蒐集到受試者部份作答 的資料來建立的試題結構,和原始實際完整作答資料所建立的試題結構,二者之 間的成效。 I1 ……...……Ij Ij+1 ...…...……...… Ik S1 . . . . . . . Sn A B C 受試者 正式施測試題 新試題 圖 3-2 受試者作答反應之矩陣圖

(26)

貳、

5-fold c.v.法之實驗設計

此實驗將運用5-fold Cross Validation 的方法,將紙筆測驗後所蒐集來的所有

試題作答反應之樣本資料平均切割成五等分,把其中的四等分當成訓練樣本 (training samples)來模擬出更新後的試題結構,另一份測試樣本(testing sample) 將用來測試此更新後的試題結構的成效;其中訓練樣本在設定個別試題結構之預 測精準度的閾值下將會分別得到舊試題與 A 部份的試題結構、舊試題與 B 部份 的試題結構、舊試題與C 部份的試題結構,而在獲得此三個結構後,再利用遞移 性的關係,將此三個試題結構連結成一個完整新舊試題結構,再由測試的樣本來 計算出此試題結構之成效。如此重複循環五次實驗設計後,將會得到五個預測精 準度,最後的再將這五次的數值做平均,將可得到此實驗所需評估之平均預測精 準度。如圖3-3 所示。 (5-1)fold 1 fold 每卷新試題 結構 更新試題結 (5-1)fold 1 fold 平均預測 精準度 更新試題結 測試 測試 舊試題和 試題A 舊試題和 試題B 舊試題和 試題C 舊試題和 試題A 舊試題和 試題B 舊試題和 試題C 每卷新試題 結構

(27)

參、 評估電腦適性測驗之成效

本研究中預測精準度的計算方式為適性測驗的預測作答反應結果與全部實 際作答的結果互相比較二者之間符合的程度。如果精準度越高則就能表示適性作 答的結果越能符合實際作答的結果,表3-1 為適性測驗與實際作答反應次數分配 表。 表3-1 作答反應次數列聯表 表中的 f00為當實際作答反應是錯誤時,適性測驗作答反應的判斷結果也是 錯誤的個數; f01為當實際作答反應是錯誤時,適性測驗作答反應的判斷結果是 對的個數;f10為當實際作答反應為對時,適性測驗作答反應的判斷結果是錯的 個數; f11為當實際作答反應是對時,適性測驗作答反應的判斷結果也是對的個 數,所以,理想的情況下,會希望適性測驗作答反應的判斷結果和實際作答反應 是相同的,這將表示所建立的試題結構在適性測驗後的效果越能精準的判斷受試 者的實際作答情形。 預測精準度的公式為 N f f11+ 00 ,N 為該試卷的總共所需測驗的題數,當實際 作答是正確時適性測驗的判斷結果也是正確,而實際作答是錯誤時適性測驗的判 斷結果也是錯誤,將這二種結果相加後再除以總題數N 即可求得預測精準度。 由圖3-4 為例,以下為受試者作答十題題目後電腦適性測驗的預測作答情形 與實際的作答二相比較,可以發現預測的作答情形中有一題和實際作答情形不 適性測驗作答反應 錯(0) 對(1) 錯(0) f 00 f 01 實際作答反應 對(1) f 10 f 11

(28)

同,則表示電腦適性測驗的預測作答反應中有一題是誤判的,所以將正確預測的 題數去除以全部題數就可求得此實驗之預測精準度。 預測精準度= 10 9 = 全部題數 正確預測的題數 =90%

肆、 設定個別試題結構之預測精準度

依本研究之設計方式,將所需新增的試題分成 A、B、C 三個部份,當學生 試適作答完舊試題後就會分配作答某部份的新試題一起作答,之後蒐集學生在這 三個部份的作答反應後,來建立個別的試題結構。在完成所有試題的作答程序之 後,將會得到三個部份舊試題加新試題的作答反應,此時將設定個別試題結構的 預測精準度來建立起每個部份的試題結構,其中這每個部份的預測精準度都要是 相同的,之後再來評估不同的預測精準度下建立出來的結構其成效差異。 本研究設定個別試題結構的預測精準度之研究變項分別針對為 95%及 98% 來做分析。 預測作答情形: 實際作答情形: 1 1 1 1 0 1 1 1 0 1 10 題 1 1 1 1 1 1 1 1 0 1 圖 3-4 評估電腦適性測驗之成效圖

(29)

伍、 個別試題結構訓練樣本數

本研究探討個別試題結構訓練樣本數在多少人時建立的結構上的成效,每個 部份試題結構之樣本人數是從受試人數中採隨機抽取樣本方式來進行實驗,首先 將每個部份的新試題從樣本中抽取 10 人來建立更新後的試題結構,計算出平均 預測精準度、平均施測題數及節省題數比率,之後再依次每個部份新試題中多再 加入 10 個人來建立結構,每個新試題結構在各種樣本分配下所建立出來的結果 來評估。其抽取樣本數為10、20、30、40、50、60、70、80、90、100 人共十種。

陸、 新增試題所切割等份

本研究之實驗設計是模擬將所新增的試題分別切割成 A、B、C 三個等份, 而每個等份試題各為5 題,當學生正式施測完原來的試題後,再分別分配某一個 等份的試題讓學生完整作答,之後評估僅收集學生的部份作答反應所建立的試題 結構和完整作答反應所建立出的試題結構,這二者間的預測精準度、施測題數、 節省試題比率之成效。

(30)

第三節 研究步驟

本研究的目的是在於能夠在節省預試的成本之下更新試題結構,當舊的單元 需要新增試題時,以知識結構為基礎的電腦化適性測驗將會需要重新獲得新試題 和舊試題之間的完整結構關係圖,研究者利用線上正在測試的受試者來蒐集所需 新舊試題作答反應資料。 本研究將利用莊惠萍(2007)紙筆測驗蒐集而來所有試題作答反應資料來模 擬線上更新試題結構的方法成效。首先考慮到如果受試者在作答完舊試題後,又 要在固定的時間內多作其他新增加的試題,這將可能會因為答題過多導致疲憊或 煩躁,或是擔心題目作不完緊張而亂答,使得所蒐集到的新試題作答反應不夠可 靠,建出來的試題結構不夠準確,所以本研究設計方式是將所需新增的試題平均

分為A、B、C 各三個部份;再來利用 5-fold c.v.法將 training sample 來模擬受試

者在線上正在測驗舊試題題目時,當他們已經完成適性測驗的舊試題之後再分別 新增一部份的新試題讓他們完整作答,之後利用所蒐集而來的舊試題預測作答反 應和新試題的完整作答反應在設定每個結構之個別預測精準度下,建立出舊試題 與A 部份試題的結構、舊試題與 B 部份試題的結構、舊試題與 C 部份試題共三 個部份的個別學生試題結構,接著以受試者有共同作答的舊試題當成定錨題將三 個部份的試題結構連結起來,之後將舊試題與新試題的遞移性關係建立出來完成

整個更新後的試題結構,再將5-fold c.v.法中的 testing sample 來測試此試題結構

之平均預測精準度、平均施測題數及能節省試題的比率。

之後將評估由適性測驗後的預測作答反應及只有測試部份試題後所建立的 試題結構和原始整份試卷的完整作答資訊所建立的試題結構二者間,他們在各種

樣本分配上的平均預測精準度、平均施測題數及能節省試題的比率情形。如圖3-5

(31)

1-fold c.v.--testing sample 蒐集新舊試題完整 的作答反應 建立舊試題和A 部份試題的結構 舊試題和A 部份 試題作答反應 設定個別結構之預測精準度 4-fold c.v.--training sample

舊試題和B 部份 試題作答反應 舊試題和C 部份 試題作答反應 將testing sample 的資料做測試 使用5-fold c.v.法計算完整結構預 測精準度及節省題數比率 測試後得到的預 測作答反應 利用遞移性連結A、 B、 C 結構 建立舊試題和C 部份試題的結構 建立舊試題和B 部份試題的結構 圖 3-5 研究步驟流程圖

(32)

根據此研究步驟流程圖分為幾點細項加以舉例說明:

壹、 建立學生試題結構

圖3-6 為受試者在作答完試題後的作答反應矩陣列表,受試者人數為 8 人, 在5 個題目上的作答對錯情形,1 表示答對,0 表示答錯。 發現試題e 答對的人數最多,表示此題較為容易,所以它為最下位的試題, 反之;試題a 答對的人數最少,表示此題較為困難,則它為最上位的試題;而試 題b 跟試題 c 則為同位概念,而當試題 d 答對時試題 e 也答對,則判斷試題 e 為 試題d 的下位試題。圖 3-7 將依以上敘述,把試題跟試題間的上下位關係建立起 來,則為此試題結構圖。圖3-8 則是將試題結構圖運用關連矩陣的方式來表示。 試題 a b c d e 受 試 者 1 2 3 4 5 6 7 8 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 0 1 1 1 1 0 0 0 0 1 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 圖 3-6 作答反應矩陣列表

(33)

a b c d e a 0 0 0 0 0 b 1 0 0 0 0 c 1 0 0 0 0 d 1 0 0 0 0 e 0 0 0 1 0 圖 3-8 試題關聯矩陣圖

貳、 個別結構預測精準度

當所蒐集到的樣本數一多時,也表示將面臨各種不同的作答反應,這樣將會 遇到違反了順序理論定義的作答情形

ε

jk*

=

P

(

X

j

=

0

,

X

k

=

1

)

<

ε

,所以,要建立學生 試題結構時,當違反順序理論的機率小於本研究所設定的ε(threshold)ε* <ε jk , 則電腦將判定二試題間具有順序關係。首先程式會執行每種threshold 下所建立出 來的結構之預測精準度,再依所需之精準度的threshold 值去建立學生試題結構。 例如,當今天所要建立的試題結構預測精準度為95%時,系統將會去擷取預測精 準度在95%時的 threshold 值來建立此學生試題結構。 a b c e d 圖 3-7 試題結構圖

(34)

參、 利用遞移性連結結構

由「壹、建立學生試題結構」可以知道,如何應用學生作答反應來產生出學 生的試題關聯矩陣圖,而因為以本研究設計的關係會建立出三個部份的試題關聯 矩陣圖,該如何把這三個部份結構結合,將由下面例子敘述之。 試題關連矩陣是由(n 題×n 題)的陣列來表示,以陣列的內容值來表示節點 間的連線是否存在(以 1 表示連線存在;以 0 表示連線不存在)。其中試題分別 為舊試題m 題,舊試題是每個部份受試者需共同作答之定錨試題;新試題則均分 成二個部份為p 題及 q 題。 圖3-9 為 A 結構試題關連矩陣圖為(m+p)×(m+p)的矩陣分別表示:舊試

題 m 題;A 部份新試題 p 題。A11為舊試題和舊試題間的關聯矩陣;A12和 A21

舊試題和新試題間的關聯矩陣;A22為新試題和新試題間的關聯矩陣。其中 A11為 定錨試題。 A11 A12 A21 A22

A=

m p m q 圖 3-9 A 部份試題結構矩陣

(35)

3-10 為 B 結構試題關連矩陣圖為(m+q)×(m+q)的矩陣分別表示:舊 試題 m 題;B 部份新試題 q 題。B11為舊試題和舊試題間的關聯矩陣;B12和 B21 為舊試題和新試題間的關聯矩陣;B22為新試題和新試題間的關聯矩陣。其中 B11 為定錨試題。 圖3-9 及圖 3-10 中的 A11和 B11為 A 部份和 B 部份學生共同作答試題,將取 出作答此定錨試題 A 部份和 B 部份學生之作答反應來建立 C11的關連矩陣圖。 圖3-11 為 C 結構試題關連矩陣圖由 A 和 B 部份試題陣列結合,為(m+p+q) ×(m+p+q)的矩陣分別表示:舊試題 m 題;A 部份新試題 p 題;B 部份新試題 q 題。C11為 A 部份和 B 部份學生共同作答舊試題之陣列;C12為 A 部份試題結構 A12陣列;C21為 A 部份試題結構 A21陣列;C22為 A 部份試題結構 A22陣列;C13 為 B 部份試題結構 B12陣列;C31為 B 部份試題結構 B21陣列;C33為 B 部份試題 結構 B22陣列;C23為(p×q)的零矩陣;C32為(q×p)的零矩陣。 B11 B12 B21 B22

B=

m q m q 圖 3-10 B 部份試題結構矩陣

(36)

C 為(m+p+q)×(m+p+q)陣列,此遞移性之演算法如下:令 j=1~ n 行;i =1~ n 列;k=迴圈執行次數。本研究將搜尋每一行 ( )(:, ) j C k ,如果其中第i 列有 存在連線關係 (k) =1 ij C 將表示節點i 為節點 j 的下位試題,之後再搜尋節點 i 是否 存其他下位節點,將判定節點i 的下位試題也是節點 j 的下位試題 ) (:, ) (:, ( ) ) ( ) 1 ( i C j C C K+ = kk ,此迴圈重複搜尋直到所有的下位試題都尋找完畢,圖 3-12 為遞移性演算法。 C11 C12 C13 C21 C22 C23 C31 C32 C33

C

m p m q q p n 行 n 列 圖 3-11 C 結構試題關連矩陣圖 Procedure Transitivity Begin while ( (k 1) (k)) C C + ≠ { for i,j=1 to n { if ( (k) =1 ij C ) then { ) (:, ) (:, ( ) ) ( ) 1 ( i C j C C K+ = kk } } } End

(37)

範例: 令舊試題:1~3 題;新試題:4~7 題,將新試題分成 2 等份;A 部份試題: 舊試題1~3 題加新試題 4~5 題;B 部份試題:舊試題 1~3 題加新試題 6~7 題。之 後會建立出A 部份試題結構如圖 3-13 所示和 B 部份試題結構如圖 3-14 所示,利 用共同作答的舊試題為定錨試題將此二個結構做連結如圖3-15 所示,遞移性的定 義以試題4 為例,試題 4 之下位試題為試題 1,而試題 1 的下位節點又包括了試 題3、6、7、2,所以,將可以解釋成試題 3、6、7、2 都是試題 4 的下位節點, 由此方式執行每一題試題的遞移關係後,畫出此完整結構連結後的矩陣圖,而其 中灰底部份表示執行遞移性後的結果。 1 2 3 4 5 1 0 0 0 1 1 2 0 0 0 0 1 3 1 0 0 0 0 4 0 0 0 0 0 5 0 0 0 0 0 1 5 2 4 3 A 部份試題結構 關連矩陣圖 圖 3-13 A 部份試題結構圖

(38)

1 2 3 6 7 1 0 0 0 0 0 2 0 0 0 0 1 3 0 0 0 1 0 6 1 0 0 0 0 7 0 0 0 1 0 1 2 3 4 5 6 7 1 0 0 0 1 1 0 0 2 1 0 0 1 1 1 1 3 1 0 0 1 1 1 0 4 0 0 0 0 0 0 0 5 0 0 0 0 0 0 0 6 1 0 0 1 1 0 0 7 1 0 0 1 1 1 0 B 部份試題結構 關連矩陣圖 1 2 3 6 7 圖 3-14 B 部份試題結構圖 結合A、B 試題結構 關連矩陣圖 1 2 4 3 5 7 6 圖 3-15 結合 A、B 部份試題結構圖

(39)

第四節 更新試題結構之系統流程

本研究一開始使用 matlab 來撰寫此模擬研究程式,因為 matlab 擁有強大的 矩陣運算功能,因此可以將此程式執行後的數值結果用來作為一開始的評估依 據。之後因需將此功能架設於系統中,能夠實際在線上施測取得作答反應之資訊 來更新試題結構,所以將利用PHP 程式撰寫此功能模組之內部程式,但因研究時 間及人力等限制,此模組雖已經完成了內部更新試題結構功能,卻尚缺完整電腦 介面及實際操作情境,未來將可繼續將此模組完整建立於系統當中,實際施測及 蒐集更多樣本資料,將擴大此更新試題結構之結果成效。 圖 3-16 將為此更新試題結構系統之流程圖,開始時內部管理員將 A、B、C 三個部份的新試題分配於所需新增試題的單元中,當受試者適性作答完舊的試題 後再分別給於一份新的試題讓他完整作答,此時內部系統將會設定每個部份的試 題結構需由多少個樣本來建立,當蒐集到所需的樣本數量時,將可利用線上更新 試題結構模組來建立出新舊試題間的結構關係,而此更新過後的試題結構將會再 進一步的進行評估分析使此結構更加隱定及準確,藉此方式進而達到在能節省預 試的成本之條件下又能更新試題結構之研究目的。

(40)

開始 結束 將A、B、C 新試題分配於 所需新增試題的單元中 受試者適性答題舊試題後,分別再完 整作答所分配之A、B、C 新試題 設定A、B、C 新試 題所需蒐集樣本數 線上更新模組 建立更新後的試題結構 蒐集足 夠樣本 資料評估與分析 YES NO 圖 3-16 更新試題結構之系統流程圖

(41)

第五節 研究對象與工具

壹、 研究對象

採用莊惠萍(2007)所選定九年一貫課程綱要數學學習領域分年細目表中的 「6-n-01」和「6-n-02」二個能力指標所建立的因倍數相關單元做為測驗教材進行 紙筆測驗後的樣本來做模擬實驗,對象為九十五學年度六年級學生,包括中部四 縣市共17 個班級,有效樣本共計 530 人;題目皆為選擇題,當中取 35 題試題, 其中模擬舊試題有20 題,新試題有 15 題,而新試題再分成 A 卷 B 卷 C 卷三等 份各等份5 題。

貳、 研究工具

一、 MATLAB 7.1 MATLAB 是由美國 Mathworks 公司於 1984 年所推出的一套數學計算軟體, 他的名稱是由矩陣實驗室(Matrix Laboratory)縮寫而成的,他是一個在數值計 算上功能相當強大的高階科學運算語言,MATLAB 易於使用且功能齊備,可以節 省可觀的研究開發時間(洪維恩,2004)。 二、 PHP5(Hypertext Preprocessor 5) PHP在語法上混合了C、Java、Perl以及PHP的新語法,可用來快速開發動態 網頁。PHP不用像C或是VB需經過編譯才能執行,只要直接將PHP檔案寫好,放 在伺服器上就可以執行。PHP擁有跨平台的能力,無論Linux、Unix或Windows系 統上都可以運作。PHP可以結合多種資料庫,包括MySQL、PostgreSQL、dBase、 Informix、ODBC及Oracle等,在網路上常見的線上購物、會員服務等系統中,如 需要建立大量的資料,此時就要靠資料庫來分門別類的管理這些資料(吳權威, 2005)。

(42)

三、 「6-n-01」和「6-n-02」專家知識結構 專家知識結構的建立是由多年教學經驗的學科專家來編製的,分析測驗範圍 內應需具備的知識,再根據學生的學習歷程、概念發展順序及概念間上下位關係 整理而成的一種結構關係。在專家知識結構中,此單元中最難的概念將放在最上 層,下層的概念則表示為此單元較基礎的先備知識,圖3-17 及圖 3-18 為「6-n-01」 和「6-n-02」專家知識結構圖(完整專家知道結構由附錄一所示)。 質因數 的判別 質因數 分解 質因數 的定義 質數的 判別 質數的 定義 質數的 定義 圖3-17 能力指標「6-n-01」部分結構圖(莊惠萍,2007)

(43)

四、 「6-n-01」和「6-n-02」測驗試題 本研究選定九年一貫能力指標「6-n-01」和「6-n-02」兩單元進行實作,教材 內容試題化後,將試題編製成試卷,以進行紙筆測驗施測資料。 兩個單元試卷經施測後分析作答情形,分 析測驗內部一致性的數值, Cronbach α 係數值為 0.927,所以本份測驗顯示有良好的測驗信度,亦即本測驗 結果有良好的內部一致性及時間穩定性。 以BILOG-MG3.0 分析軟體進行此次施測試題參數分析,本測驗之古典試題 理論鑑別度為0.503,是具有相當的鑑別度;而古典試題理論之平均難度為 82.23, 算是中等偏易的試題,如表3-2 所示。 將分數約成最 簡分數 最大公因數 的應用問題 互質的判 別 求出最大公 因數 互質的 定義 了解最大公 因數的定義 圖 3-18 能力指標「6-n-02」部分結構圖(莊惠萍,2007)

(44)

表3-2 答題情形及信度分析表 古典理論模式 鑑別度 難度 項目刪除時的 Cronbach's Alpha 值 MATH01 0.554 83.4 0.924 MATH02 0.493 81.1 0.925 MATH03 0.467 82.8 0.925 MATH04 0.382 93.6 0.926 MATH05 0.474 85.8 0.925 MATH06 0.378 94 0.926 MATH07 0.431 86.6 0.926 MATH08 0.511 90.6 0.925 MATH09 0.54 90.9 0.925 MATH10 0.602 79.4 0.924 MATH11 0.506 70.9 0.925 MATH12 0.457 84.2 0.925 MATH13 0.358 87.5 0.926 MATH14 0.482 94.2 0.925 MATH15 0.517 82.5 0.925 MATH16 0.509 84.3 0.925 MATH17 0.374 67.7 0.927 MATH18 0.491 86.4 0.925 MATH19 0.518 86.4 0.925 MATH20 0.591 79.1 0.924 MATH21 0.45 66.8 0.926 MATH22 0.56 79.8 0.924 MATH23 0.453 83.2 0.925 MATH24 0.484 79.8 0.925 MATH25 0.596 74 0.924 MATH26 0.513 72.1 0.925 MATH27 0.565 77 0.924 MATH28 0.327 70.2 0.927 MATH29 0.555 71.7 0.924 MATH30 0.635 83.4 0.923 MATH31 0.521 92.5 0.925 MATH32 0.635 83.4 0.923 MATH33 0.521 92.5 0.925 MATH34 0.65 82.8 0.923 MATH35 0.496 77.4 0.925 平均 0.503 82.23 0.925

(45)

第四章 研究結果

本章研究結果將分成二節來加以說明:第一節為設定個別結構精準度之試題 結構;第二節為評估線上更新試題結果策略之成效差異。

第一節 設定個別結構預測精準度之試題結構差異

圖 4-1 為舊試題加 A 部份試題在個別結構預測精準度在 95%下由 OT 估計出 來的圖形。其中舊試題有 20 題,A 部份試題有 5 題,共有 25 題。在以知識結構 為基礎之電腦化適性測驗中,未連線的試題全都要施測。 圖 4-1 個別結構預測精準度為 95%之 OT 圖

(46)

圖 4-2 為舊試題加 A 部份試題在個別結構預測精準度在 98%下由 OT 估計出 來的圖形。可以發現當預測精準度越高時,結構連線數將會越少,所需測試的試

題也會越多(其餘試題結構如附錄一所示)。

(47)

第二節 評估線上更新試題結果策略之成效差異

壹、 threshold 之預測精準度對照

表 4-1 為針對部份作答資料的作答反應資訊在各種 threshold (0.01≦ε≦ 0.04)下建立出來的結構,所計算出來的個別結構預測精準度、平均施測題數和 節省題數比率的差異,首先本研究將會執行出各種 threshold 下預測精準度的情 形,當 threshold 越嚴謹時,表示所能違反順序理論的機率越小,則個別結構預測 精準度將隨之升高。其中新試題結構 A、B、C 三個部份每卷各有 100 個訓練樣 本人數來建立試題結構。 由以表 4-1 來看,當所需設定的個別試題結構之精準度為 95%,此時系統將 會取 threshold 為 0.0275 來建立此個別試題結構。而所需設定的個別試題結構之 精準度為 98%,此時系統將會設定 threshold 為 0.015 來建立此個別試題結構。 表 4-1 不同 threshold 之預測精準度對照表 資料蒐集方式 部份作答資料 threshold 個別結構預 測精準度 施測 題數 節省題 數比率 0.01 0.992 18 10.00% 0.0125 0.992 18 10.00% 0.015 0.98 12.6 37.00% 0.0175 0.98 12.6 37.00% 0.02 0.98 12.6 37.00% 0.0225 0.98 12.6 37.00% 0.025 0.98 12.6 37.00% 0.0275 0.95 6.85 65.75% 0.03 0.95 6.85 65.75% 0.0325 0.95 6.85 65.75% 0.035 0.95 6.85 65.75% 0.0375 0.95 6.85 65.75% 0.04 0.942 4.7 76.50%

(48)

貳、 個別結構預測精準度 95%和 98%建立結構成效

蒐集學生部份試題的作答反應和整份試卷完整的作答反應,這二種資訊下所 建立出的試題結構,分別在個別結構預測精準度 95%和 98%的下,當 testing 的資 料進來做適性測驗時,二者間的完整結構預測精準度、施測題數及節省題數比率 差異。 表 4-2 為探討個別預測精準度在 95%下時,部份作答資料和完整作答資料建 立出的更新試題結構,二者間的成效比較。部份作答資料在樣本數平均在 100 人 以上時,完整結構預測精準度在 92%以上,施測題數平均為 13 題,節省題數比 率為 61%。 表 4-2 95%精準度建立試題結構後,部份作答和完整作答之比較表 部份作答資料 完整作答資料 每個部份 試題的樣 本數 完整結構預測精準度 施測 題數 節省題 數比率 完整結構預測精準度 施測 題數 節省題 數比率 100 0.924 13.48 61.48% 0.957 19.65 43.85% 90 0.903 10.60 69.71% 0.955 19.01 45.68% 80 0.902 10.63 69.62% 0.946 17.10 51.15% 70 0.910 11.30 67.73% 0.947 17.11 51.12% 60 0.895 9.79 72.02% 0.943 16.70 52.29% 50 0.898 10.27 70.66% 0.943 16.33 53.34% 40 0.887 8.24 76.45% 0.942 16.92 51.66% 30 0.869 5.75 83.58% 0.939 16.94 51.59% 20 0.867 5.67 83.81% 0.940 17.07 51.23% 10 0.846 2.66 92.40% 0.925 14.48 58.64%

(49)

由圖 4-3 及圖 4-4 表示個別結構之預測精準度為 95%下,部份作答資料和完 整作答資料在不同訓練樣下來所建立出來的結構之完整結構預測精準度及施測 題數比較。部份作答資料所建立出試題結構的完整結構預測精準度,在各種訓練 樣本下遠比不上完整作答資料所建立的完整結構預測精準度。 圖 4-4 95%精準度建立試題結構後之完整結構施測題數 施測題數(95%) 0 5 10 15 20 25 100 90 80 70 60 50 40 30 20 10 樣本數 施測題數 完整作答資料 部份作答資料 圖 4-3 95%精準度建立試題結構後之完整結構預測精準度 95%精準度 0.75 0.8 0.85 0.9 0.95 1 100 90 80 70 60 50 40 30 20 10 樣本數 精準度 完整作答資料 部份作答資料

(50)

表 4-3 為探討個別預測精準度在 98%下時,部份作答資料和完整作答資料建 立出的更新試題結構,二者間的成效比較。部份作答資料在樣本數 30 人時,完 整結構預測精準度為 92%,施測題數平均為 13 題,節省題數比率為 61%。所以 在相同的完整結構預測精準度下,當個別結構預測精準度高時,只需要少量樣本 就能有良好的結果。 表 4-3 98%精準度建立試題結構後,部份作答和完整作答之比較表 部份作答資料 完整作答資料 每個部份 試題的樣 本數 完整結構預 測精準度 施測 題數 節省題 數比率 完整結構預 測精準度 施測 題數 節省題 數比率 100 0.975 24.56 29.83% 0.984 26.88 23.20% 90 0.971 23.36 33.27% 0.981 25.64 26.74% 80 0.970 23.52 32.80% 0.980 25.66 26.67% 70 0.968 22.66 35.25% 0.978 24.79 29.16% 60 0.965 22.03 37.05% 0.979 25.12 28.23% 50 0.961 21.09 39.75% 0.977 24.39 30.31% 40 0.951 18.72 46.51% 0.979 25.37 27.51% 30 0.920 13.33 61.92% 0.978 25.76 26.39% 20 0.888 8.70 75.13% 0.971 23.23 33.62% 10 0.847 2.70 92.29% 0.939 17.03 51.35%

(51)

由圖 4-5 及圖 4-6 表示個別結構之預測精準度為 98%下,部份作答資料和完 整作答資料在不同訓練樣下來所建立出來的結構之完整結構預測精準度及施測 題數比較。當個別試題結構預測精準度設定越高時,每個部份試題的訓練樣本人 數多,部份作答資料和完整作答資料之作答反應所建立出來的結構就越接近。 施測題數(98%) 0 5 10 15 20 25 30 100 90 80 70 60 50 40 30 20 10 樣本數 施測題數 完整作答資料 完整作答資料 圖 4-6 98%精準度建立試題結構後之完整結構施測題數 圖 4-5 98%精準度建立試題結構後之完整結構預測精準度 精準度98% 0.75 0.80 0.85 0.90 0.95 1.00 100 90 80 70 60 50 40 30 20 10 樣本數 精準度 完整作答資料 部份作答資料

(52)

第五章 結論與建議

本章結論與建議將分成二節來加以說明:第一節為研究結論;第二節為研究 建議。

第一章 研究結論

壹、 開發線上更新試題結構之適性測驗的方法

以知識結構為基礎之電腦化適性測驗是根據學生的知識結構來做為自動選 題的依據,當每學期教材內容的新增或變動時,則需要新增新的試題到題庫中, 而因新增的試題將會改變原來試題結構的關係,所以將會需要重新蒐集學生在新 舊試題的作答反應來更新試題結構。本研究模擬利用線上適性測驗的受試者,當 他們作答舊試題後再完整作答一部份新的試題,利用此線上收集新舊試題作答反 應樣本的方式,來節省傳統需重新預試蒐集資料的成本,亦可省下人力在資料整 理的時間成本,達到更新試題結構的效果。

貳、 比較設定個別預測精準度上更新試題結構成效

設定個別試題結構預測精準度 95%下所建立出的結構,部份作答資料在個別 結構訓練樣本數 100 人時,完整結構預測精準度為 92%,施測題數為 13 題,節 省題數比率為 61%。當個別試題結構預測精準度設定在 98%,樣本數在 30 人時, 完整結構預測精準度就能達到在 92%,施測題數平均為 13 題,節省題數比率為 61%。所以,在相同的精準度和節省題數比率下,當個別結構預測精準度高時, 只需要少量樣本就能有良好的結果。

(53)

參、 比較部份作答資料和完整作答資料的更新試題結構成效

個別結構預測精準度為 95%時,部份作答資料所建立出試題結構的完整結構 預測精準度,在各種訓練樣本下遠比不上完整作答資料所建立的完整結構預測精 準度。而當個別結構預測精準度為 98%時,每個部份試題的訓練樣本人數越多, 部份作答資料和完整作答資料之作答反應所建立出來的結構就越接近。所以,當 個別結構預測精準度高時,只需要少量樣本就能有良好的結果,且個別預測精準 度較設定越高時,樣本數越多便能越接近完整作答資料的效果。

第二章 研究建議

本研究所提出的利用線上收集的資料來更新試題結構確實有其成效,以下提 出幾點於未來能夠發展的建議。

壹、 施測對象

本研究是採用莊惠萍(2007)的紙筆測驗結果為模擬資料來進行。而研究的 對象以台中市、台中縣、彰化縣為主,將來可以利用不同區域的學生來做研究和 評估,這樣也能使得試題結構更加穩定且精確,而研究的範圍能更廣範。

(54)

貳、 新增試題所切割等份

本研究之實驗設計是將所需新增的試題切割成 A、B、C 三個部份,來分別 蒐集每個部份的作答反應,未來更可以評估將新的試題切割成不同等份項後各種 研究變項在建立更新試題結構的成果。

參、 線上更新試題結構系統

未來可將此研究套用在 KSAT 系統上面實際操作,發展出一套完整的以知識 結構為基礎之線上更新試題結構的系統,讓受試者能直接在線上做測驗,突破過 往死板的紙筆測驗型式。

肆、 多點計分或題組試題的方法來更新試題結構

本研究是以二元計分的方式來進行實驗模擬,後續也可利用多點計分的方式 或題組試題的方法來做研究,能更有效且多元的評估學生在學習上的迷思。

(55)

參考文獻

中文部份

何榮桂(1991a)。電腦化題庫設計的基本架構。教育研究雙月刊,20 輯,21-26。 何榮桂(1991b)。電腦化測驗概述。現代教育。18 期,121-129。 何榮桂(2000)。量身定製的測驗─適性測驗。測驗與輔導雙月刊,157 期, 3288-3293。 何榮桂(2005)。數位化題庫之概念架構。國家菁英季刊。第一卷第四期,151-152。 余民寧(1991)。試題反應理論的介紹(十一)題庫建立。檢索日期:06/01/2008。 http://www.edutest.com.tw/e-irt/irt11.htm。 余民寧(1991)。試題反應理論的介紹(十二)電腦化適性測驗。檢索日期: 06/01/2008。http://www.edutest.com.tw/e-irt/irt12.htm。 吳慧珉(2006)。以知識結構為基礎之適性測驗選題策略強韌性探究。測驗統計 年刊第14 輯下期。國立台中教育大學。 吳權威(2005)。PHP 5 與 MySQL 動態網頁實務。台北市:網奕資訊科技。 林立敏(2007)。連結不同知識結構之電腦適性學習系統研發。國立臺中教育大 學教育測驗統計研究所教學碩士論文,未出版,台中市。 洪恩維(2004)。Matlab7 程式設計。台北市:旗標出版股份有限公司。 莊惠萍(2007)。不同知識結構連結之適性測驗演算法成效。國立臺中教育大學 教育測驗統計研究所教學碩士論文,未出版,台中市。 許志毅(2004)。國小數學領域電腦化適性診斷測驗及補救教學系統之內容開發 及試用—以「扇形」單元為例。國立台中師範學院教育測驗統計研究所教學 碩士論文,未出版,台中市。 郭伯臣(2003)。國小數學科電腦化適性診斷測驗(I)。行政院國家科學委員會專 題研究計畫報告(NSC-91-2520-S-142-001),未出版。

(56)

郭伯臣(2004)。國小數學科電腦化適性診斷測驗(II)。行政院國家科學委員會專 題研究計畫成果報告(NSC-92-2521-S-142-003),未出版。 郭伯臣(2005)。電腦化適性診斷測驗之研究 (III)。行政院國家科學委員會專題 研究計畫成果報告(NSC-93-2521-S-142-004),未出版。 郭伯臣、何政翰(2004)。 國小數學領域電腦適性化測驗系統之建製。「二〇 〇 四數位生活與網際網路科技研討會」論文集。2004 年 6 月 24~26 日,成功大 學。 郭伯臣、何政翰(2004)。國小數學領域電腦適性化測驗系統之建製。國立臺中 教育大學數學教育學系碩士論文,未出版,台中市。 郭伯臣、謝友振、張峻豪、蔡坤穎(2005)。以結構理論為基礎之適性測驗與適 性補救教學線上系統。台灣數位學習發展研討會。國立台灣師範大學,2005 年 5 月 6-7 日。 曾彥鈞(2007)。以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發。 國立臺中教育大學數學教育學系碩士論文。未出版,台中市。 黃珮璇、王暄博、郭伯臣、劉湘川(2006)。國小數學科電腦化適性診斷測驗強 韌性探究。2006 年電腦與網路科技在教育上的應用研討會。國立新竹教育大 學。 楊智為、張雅媛、郭伯臣、許天維(2006)。以試題結構理論為基礎之適性測驗 選題策略強韌性探究。2006 數位科技與創新管理國際研討會。華梵大學。 廖元偉、趙銘(2006)。以 QTI 為標準引入 IRT 之試題編輯工具。逢甲大學資訊 工程學系碩士論文,未出版,台中市。 劉育隆(2007)。題組式適性診斷測驗系統之建置。國立臺中教育大學教育測驗 統計研究所教學碩士論文,未出版,台中市。 劉育隆、曾筱倩、郭伯臣(2006)。以知識結構為基礎之適性測驗系統建置。測

(57)

蔡昆穎(2004)。國小數學領域電腦化適性診斷測驗及補救教學系統之內容開發

及試用─以「擴分、約分」單元為例。國立台中師範學院教育測驗統計研究

所教學碩士論文,未出版,台中市。

外文部份

Airasian, P.W., & Bart, W.M.(1973). Ordering theory: A new and useful measurement

model. Journal of Educational Technology, 5, 56-60.

Appleby, J., Samuel, P.& Treasure-Jones, T. (1997). Diagnosys-A Knowledge-Based

Diagnostic Test of Basic Mathematical Skills. Computers Education, Vol. 28, No.

2, pp. 113-131.

Appleby, J., Samuels, P., & Treasure-Jones, T.(1997). Diagnosys--A knowledge-based

diagnostic test of basic mathematical skills. Computers & Education, 28(2),

113-131.

Appleby, J., Samules, P., &Treasure-Jones, T. (1997). Diagnosys: A knowledge-based

diagnostic test of basic mathematical skills. Computers & Education, Vol.28,

No.2, pp.113-131.

Brown, J.S. and Burton, R.(1978). “Diagnostic models for procedural bugs in basic

mathematical skills”, Cognitive Science, 2:155-192.

Chang, K-E., Liu, S-H., & Chen, S-W. (1998). A testing system for diagnosing

misconceptions in DC electric circuits. Computers & Education, 31, 195-210.

Chang,K.E.,Liu, & Chen, S.W. (1998). A testing system for diagnosing misconceptions

in DC electric circuits. Computers & Education,31, pp .195-210.

Hambleton, R. K., & Swaminathan, H. (1985). Item response theory: Principles and

(58)

Ho, R. G. (1989). Computerized adaptive testing. Psychological Testing, Vol. XXXVI,

117-130.

Millman, J., & Arter, J. A. (1984). Issues in item banking. Journal of Educational

Measurement, 21, 315-330.

Takeya (1991). New item structure theorem. Tokyo: Waseda University

VanLehn K.(1988).“Student models. In Polson M.C. & Richardson J.J. (eds.)”,

Foundations of intelligent tutoring systems. Lawrence Erlbaum. Hillsdale.

VanLehn, K. (1988). Student modeling. In M. C. Polson and J. J. Richardson (Eds.),

Intelligent tutoring systems. Lawrence Erlbaum Associates Publishers, New

Jersey.

Wainer, H., Dorans, N.J., & Flaugher, R.(Eds.) (2000). Computerized Adaptive Testing:

A Primer (2nd ed.). NJ: Lawrence Erlbaum Associates.

Wenger, E.(1987).“Artificial Intelligence and Tutoring Systems. Morgan Kaufmann”,

(59)

附錄一 專家知識結構

6-n-01 能認識質數、合數,並作質因數的分解(質數<20,質因數<10,被分解 數<100)。 合數的定 義 合數的 判別 質數的定 義 質數的判 別 質因數的 定義 質因數 的判別 質因數分 解 求出 20 以內質 數的倍 數 2 的倍數識 別方法 6 5 的倍數 識別方法 5 3 的倍數 識別方法 填數字使 之成為 2 的倍數 填數字使 之成為 3 的倍數 填數字使 之成為 5 的倍數

(60)

6-n-02 能認識兩數的最大公因數、最小公倍數與兩數互質的意義,理解最大公因 數、最小公倍數的計算方式,並能將分數約成最簡分數 求出最大公 因數 互質的定 義 互質的判 別 將分數 約成最 簡分數 最大公因 數的定義 最小公倍 數的定義 求出最小公 倍數 最大公因數 的應用問題 最小公倍數 的應用問題

(61)

附錄二 設定個別結構預測精準度之 OT 圖形

舊試題加 B 部份試題在個別結構預測精準度在 95%下由 OT 估計出來的圖形:

(62)

舊試題加 B 部份試題在個別結構預測精準度在 98%下由 OT 估計出來的圖形:

參考文獻

相關文件

1.本次分區競賽試題為公開試題。(試題內容將不做任何百分之三十的調整) 2.參加競賽選手應於競賽開始前 30

練習結束後,進入倒數 100 分鐘正式測試,正式測試 15 分鐘內不得提前結束測試。

第二十四條 學、術科測 試辦理單位應遴聘具有 下列資格之一者,擔任 學科測試及術科測試採 筆試非測驗題方式之監 場人員:. 一、

(一)初試:採筆試方式,題目類型為選擇題,每科目題數各 50 題(每題 2 分,各題未作 答不予計分,答錯倒扣 0.6 分) 。初試成績達參加複試標準(初試科目其中

八、 應檢人參加技術士技能檢定學科或術科採筆試非測驗題職類,測試使用計算器,除

七、 應試者對於試題若有疑義,應於甄試 結束次日起三個工作日內、以及對於

有考生認為閱讀能力中的長答題難以取得高分,細察原因,在於他們的答案沒有緊扣題

問題類型 非結構化問題 結構化問題 結構化問題 結構化問題 學習能力 不具學習能力 不具學習能力 自錯誤中學習 自錯誤中學習 學習能力 不具學習能力 不具學習能力