測驗與評量

(1)

國立台中師範學院九十四學年度研究所碩士班考試

測驗與評量科試題

第一大題、閱讀選擇題。每小題 2.5 分，共 12.5 分

如下圖所示：(a) Ga 圖表示教材之地位圖，(b) Gb、(c) Gc、(d) Gd 三圖分別表示三位學生在某位教學者的教學下之理解情形（即：概念圖）為了探討三位學生之得分問題，令G =(V,E)表示概念圖，其中V =

{

v1,v2,L,vn

}

表示G中所有頂點所成的集合， E 表示G中所有之有向邊所成的集合。以圖 Ga 而言，V =

{

1,2,3,4,5,6,7,8,9

}

，E=

{

21,52,31,41,53,54,65,76,86,96,97,98

}

。為探討三位學生之得分問題，令G =(V,E)表示概念圖，其中V =

{

v₁,v₂,_L,v_n

}

表示G中所有頂點所成的集合， E 表示G中所有之有向邊所成的集合。以圖 Ga 而言，V =

{

1,2,3,4,5,6,7,8,9

}

，E=

{

21,52,31,41,53,54,65,76,86,96,97,98

}

。令路徑[v₁,v₂,_K,v_i]表示由頂點v₁出發可以循著有向箭頭到達頂點v₂，接著由頂點v₂出發可以循著有向箭頭到達頂點v ，依此類推，最後由頂點₃ v_i₋₁出發可以循著有向箭頭到達頂點v 。例如，圖 Ga 中_i [9,6,5,4]為一路徑。又令P(v_i,v_j,G)為所有以頂點v 為起點，i v 為終點之所有路徑的集合。若j P(vi,vj,G)中存在路徑通過有向邊vkvl 的話，則稱有向邊vkvl 為P(vi,vj,G)之經由邊。例如，有向邊 54 , 65 , 96 等均為P(9,4,Ga)之經由邊。

{

( , ): 為 ( , , )之經由邊

}

) , , (v v G v v v v P v v G C k l = i j k l i j 。例如：

{

(9,1),(8,1),(7,1),(6,1),(5,1),(2,1)

}

) , 1 , 2 ( Ga = C

{

(9,6),(9,5),(9,4),(9,3),(9,2),(9,1)

}

) , 6 , 9 ( Ga = C 。測統所用

(2)

令

∑∑

= = ∪ ∩ = _n i n j j i j i n i n j j i j i G v v C G v v C G v v C G v v C G G S 1 1 )} ' , , ( ) , , ( { # )} ' , , ( ) , , ( { # ) ' , ( ， # 表示集合個數。例如： 6 ) , 1 , 2 ( #C Ga = ，T(G,G')=100⋅ S(G,G')。試根據代碼，回答下列問題 1. 試求#P(9,6,Ga)之值。 2. 試求#C(5,6,Ga)之值。 3. 試求T(Ga,Gb)之值。 4. 試求T(Ga,Gc)之值。 5. 試求T(Ga,Gd)之值。選項代碼選項代碼選項代碼 47 ① 12 ①② 81 ②③ 2 ② 16 ①③ 84 ②④ 3 ③ 18 ①④ 44 ②⑤ 4 ④ 20 ①⑤ 97 ③⑤

第二大題、單選題（五選一）。每小題 2.5 分，共 25 分

6. 理論上，一個測驗若具有良好的信度(reliability)係數，如 Cronbach α或折半信度，其所代表的實質意義是指這份測驗內部具有何種良好的特質？ (A)真實性(true) (B)可信性(trustful) (C)有效性(efficient) (D)一致性(consistent) (E)廣泛性(generalizable) 7. 理論上，檢驗一份測驗是否能具有良好的效度(validity)指標，如結構效度 (construct validity)或關聯效度(criterion-related validity)，是指研究者想檢驗該測驗與所預定的測驗目標之間的何種特質？ (A)真實性(true) (B)可信性(trustful) (C)有效性(efficient) (D)一致性(consistent) (E)廣泛性(generalizable)

(3)

8. 實務上，在多元化評量的實施情況裡，測驗的情境、測驗的評分等都必須具有因測驗目標不同而變異(varied)的多元設計，因此其測驗結果的信度(reliability) 與效度(validity)的關係，應該符合以下的何種關係？ (A)若有信度，一定沒有效度 (B)若有信度，一定有效度 (C)若有效度，一定沒有信度 (D)若有效度，一定有信度 (E)信度與效度沒有必然的關係 9. 概化理論(Generaliziability)不能用來檢測一個測驗結果的何種特質？ (A)評分者間的變異程度 (B)試題間的變異程度 (C)受試者間的變異程度 (D)評分者與試題間的變異程度 (E)測驗目標間的變異程度 10. 若某研究所的入學考試被定位於用來判斷來自不同科系的考生是否能有潛力於未來的研究工作表現優異，則這個入學考試最好是依以下何種測驗的編製原則來設計最符合此測驗目的？ (A)性向測驗(aptitude test) (B)成就測驗(achievement test) (C)興趣測驗(interest test) (D)人格測驗(personality test) (E)態度測驗(attitude test) 11. 某群受試者中彼此的文化差異相當大，但是，若研究者使用以下哪一個標準化測驗，所得的測驗結果比較不會受文化差異因素的影響？ (A)瑞文氏(Raven)測驗 (B)魏氏(Wechsler)測驗 (C)黃氏年級認字量表 (D)畢保德(Peabody)測驗 (E)多向度性向測驗(MAB) 12. 若以極端團體法(extreme-groups)與點二系列(point-biserial)相關法來計算測驗中的試題鑑別度指數，以下敘述何者錯誤？ (A)點二系列相關法較能反映出整體的狀況 (B)極端團體法的鑑別度指數會介於±1 之間 (C)點二系列相關法不適用於部分給分的試題 (D)兩者判定試題之鑑別度優劣時，標準是一致的 (E)點二系列相關法的鑑別度指數會介於±1 之間

(4)

13. 在具有李克氏量表(Likert Scale)風格的測驗設計中，受試者通常需要在一系列具有等第差別的文字描述中，選擇一個心目中最適當的選項，請問此類資料應被視為何種統計資料較適當？ (A)等距資料 (B)比例資料 (C)連續資料 (D)二元資料 (E)類別資料 14. 以下的測驗品質檢定計算中，何者的主要功能與其他不同？ (A)Spearman-Brown formula (B)KR-20 formula

(C)Discrimination index formula (D)Cronbach α formula (E)Kappa formula 15. 在古典測驗理論的架構下，若其他的條件皆相同，但 A 測驗的長度比 B 測驗的長度短，則對此兩測驗的信度計算的預估的描述，相對之下，下列何者比較正確？ (A)A 測驗的信度較低 (B)B 測驗的信度較低 (C)兩測驗的信度會相等 (D)兩測驗的信度沒有必然關係 (E)視效度大小的情況而定

第三大題、單選題（四選一）。每小題 2.5 分，共 25 分

在試題反應理論（Item Response Theory，簡稱 IRT）中，以答對機率 Pi(θj)

來表示受試者能力θj 以及試題 i 之特性間的關係。依據採用試題參數個數的不 同，可分為單參數、二參數以及三參數 Logistic 模式，分別表示如下：單參數 Logistic 模式（1PL）

(

)

(

)

(

)

(

i

)

i i b D b D P − + − = θ θ θ exp 1 exp ) ( 二參數 Logistic 模式（2PL）

(

)

(

)

(

)

(

i i

)

i i i b Da b Da P − + − = θ θ θ exp 1 exp ) ( 三參數 Logistic 模式（3PL）

(

)

(

)

(

)

(

i i

)

i i i i i b Da b Da c c P − + − ⋅ − + = θ θ θ exp 1 exp ) 1 ( ) ( 其中，ai,bi,ci分別表第 i 題的鑑別度參數、難度參數以及猜測度參數。 上述的模式均適用在二元計分（非對即錯）的資料中，但也有適用於多元計

(5)

分的模式，在此舉出以下兩種模式：

評分量尺模式（Rating Scale Model，簡稱 RSM）

(

)

(

)

∑

− = = =       + −       + − = 1 1 0 0 ) ( exp ) ( exp k x x j j i n x j j i n nix b b p τ θ τ θ

部分給分模式（Partial Credit Model，簡稱 PCM）

(

)

(

)

∑

− = = =       −       − = 1 1 0 0 exp exp k r r j ij n x j ij n nix b b p θ θ 其中，τ是指兩個選項間的閾值（Threshold）。請根據以上敘述回答下列各題：

16. 在 1PL 模式中，各試題的試題特徵曲線（Item Characteristic Curve，ICC）的差異在於下列何者？（A）能力值為負無限大者的答對機率（B）ICC 在θ量尺上的位置（C）ICC 的切線斜率（D）能力值為正無限大者的答對機率 17. 1PL、2PL 及 3PL 模式中，均有 D 這個符號，請問其代表的值為何？（A）-2.7 （B） 2.7 （C）-1.7 （D） 1.7 18. 一般所謂的 Rasch 模式是指下列何者？（A）1PL （B）2PL （C）3PL （D）PCM 19. 對於以選擇題為主的測驗而言，最適合用哪個模式來分析？（A）1PL （B）2PL （C）3PL （D）PCM

(6)

20. 下列哪個模式不屬於所謂的 Rasch 家族（Rasch family）？（A）1PL （B）RSM （C）PCM （D）以上皆屬於 Rasch family 21. RSM 模式最適合用來分析何種題型的資料？（A）數學科的應用題（B）國語科的作文題（C）李克特式量表（D）魏氏智力量表 22. PCM 模式最適合用來分析何種題型的資料？（A）數學科的應用題（B）國語科的作文題（C）李克特式量表（D）魏氏智力量表 23. 對於五點計分的試題而言，請問會有幾個閾值？（A）3 （B）4 （C）5 （D）6 24. 對一份有 10 題五點計分試題的測驗而言，採用 RSM 模式跟 PCM 模式，所估計的試題參數個數會相差幾個？（A）10 （B）16 （C）20 （D）26 25. 假設有一資料中受試者有 N 位，試題有 n 題，如以 3PL 模式來分析資料，有幾個參數需要估計？（A）N+n （B）N+3n （C）3N+3n （D）3N+n

第四大題、單選題（四選一）。每小題 2.5 分，共 25 分

學習單元就使用形成性評量而言，學習單元的挑選是十分重要的。課程或教育計畫的各個組成部分或章節，都是以可分離的方式存在的；至少為了進行分析的目的，這些部分或章節可以被認為處在跟其他部分相對隔絕的狀態。雖然這些部分可能

(7)

在不同的程度上互有關聯，致使某一部分的學習（或學習水準）對其他部分的學習會產生種種影響，但是對這些部分分別進行研究仍是可行的。單元的性質可能依不同的目的而互不相同。在編製課程時，最好把單元看作為一個單一的課時（Lesson）或學習段落。不過，為了達到教學和學習的實用目的，在我們看來，一個有用的單元似乎是大於單一課時的某種事物。在我們所作的一些研究中，我們曾經發現，一個學習單元就是教科書上某一章節所包括的內容，或者就是講授 1 至 2 個星期的教學材料。對單元作這樣的勾畫可能帶有武斷性；它最好應該取決於題材的自然分段，或者取決於構成有效整體的內容。單元的明細表一個學習單元不管它以何種方式表達，總是由將在一個特定的時間學習的科目內容組成。為了達到形成性評量的各個目的，有必要分析一下單元的組成部分。確定形成性評量各項規格（細目）的工作，這跟設置總結性評量規格的工作甚為相似。課程編製者在編製一個單元時，有可能以一整套的規格（細目表）為起點；在這些規格項目裡，既可比較詳細地概述單元所包括的內容，又可概述根據單元內容將要達到的各項行為或教學目標。課程編製者最好能按照他們的願望，確定在達到各項規格時所應符合的標準。如果有了一整套規格，教材編寫人員就可著手編寫教材，選定那些將使學生按特定方式得到發展的學習經驗。評量專家或教師，可使用相同類型的各項規格，編製各種形成性評量的測驗方式。這些測驗方法既可用來確定---學生在什麼時候已經獲得各項規格所規定的能力，也可用來表明，在各項規格的那些方面，學生的發展是令人滿意的，或者是令人失望的。內容我們在芝加哥大學進行有關形成性評量的研究時，首先以現行的教材為起點，並著手把一個學習單元分解成各個組成部分。第一個步驟，在一定程度上來說，是最簡單不過了，就是確定在新單元裡有什麼新內容或新題材被採用了。那些是在學習材料裡作了解釋、下了定義、作過圖解或以其他方式提出過的新術語、事實、關係以及程序？我們發現，對於在某一特定章節裡已被展開的新內容，普通教科書都比較清楚地作出標誌。不論在教科書裡，還是在教師指南裡，新內容是通過下列方式表達的：印刷字體或顏色的變換、在頁邊空白處作評注、在章節結尾處所寫的概要，還有索引。兩個或兩個以上熟悉學科領域的、能獨立工作的鑑定人，對於某一特定學習單元所包括的新內容或新題材的要素，難得會意見不一致。我們跟教師和研究人員一起工作時發現，各位鑑定人各自單獨對某一教科書章節或某一套教材所包含的內容細節列表編目時，他們之間意見一致性達到百分之九十或者更高。從事第二種類型的分析，是為了確定與新的內容要素有關的各種行為或各種學習成果。那就是說，如果有了一個新的概念、關係、事實真相的陳述或其他信息，那麼將要求學生學些什麼？記住什麼？在學了學習單元裡所介紹的特定題材後，又能夠做些什麼？我們已經見到，按照「教育目標分類方法」手冊的第一冊「認知領域」所規定的某些範疇，對題材或內容的各個新要素進行分類，是很有用的。進行這些分類是想試圖確定一個學習過程中各層難度和複雜程度有關的、包括各種行為的層次結構。我們使用下列各個層次：（一）術語的知識

(8)

「術語」是要求學生學習的某科目的特定詞彙。要求他們說出術語的定義，認出術語的各種釋例，決定術語的使用正不正確，或認出同義字。這個範疇代表了「分類方法」中最低級或最簡單的行為層次。（二）事實的知識「事實」即要求學生記住特定類型的資料。事實可能包括日期、人物或事件的名稱、各種描述。一般說來，事實就是人們應該熟知的各種特殊細節，無非是因為有人認為，事實本身是重要的，或者事實對其他類型的學習是必要的。要求學生把這些事實作為互不關聯的內容進行回憶或記憶。可能要求他們回憶某一小件特定資料，區分對資料所作的準確或不準確的陳述；當有人以比較直接的方式問及資料時，要能記得正確的事實。（三）規則和原則的知識本分類需要回憶那些在科目範圍內，把各種現象和概念組合在一起的主要概念、安排和格式。規則和原則把大量的事實匯合在一起，或對許多特定事物的相互關係扼要地進行描述，把大批資料非常簡練地組合在一起。人們要求學生熟知規則或原則，記憶教學中所用的有關規則或原則的各種例子，回憶能夠應用規則或原則的各種情境，記憶能夠應用或不能夠應用某規則或原則的各種條件。與特定術語和事實相比，規則與原則學起來可能更為抽象，更為困難。不過，本範疇只處理規則和原則的記憶，而不涉及它們的應用；確認這一點是很重要的。（四）使用過程與程序的技能本範疇並沒有包括在「分類方法」內。在審查了一系列課程，尤其審查了若干比較新穎的課程教材之後，我們發現，學生被頻繁地要求做到準確並迅速地使用某些程序和進行操作。這一些往往就是學生按適當順序進行學習的過程中的若干特殊步驟。有時候，學生們在會用名稱或規則來辨認一個過程之前，就可能會正確地說話；或者，在學習對運算進行「解釋」的規則或原則之前，就能夠按照正確的步驟，給一個數字開平方。在本範疇內，需要強調的重點就是學生能夠準確地使用這個過程或程序。也就是說，學生能夠按正確的次序實行程序中的步驟，用適當的方式進行運算，並能夠以盡可能熟練的或符合解題要求的動作，得出正確的結果。（五）進行轉換（翻譯）的能力本範疇涉及把一個術語、事實、規則或原則、過程或程序，從一個形式轉換成為另一個形式。學生在進行轉換時，可以是用自己的語言來表達概念；可以是選取某個以某種模式或形式提出的現象或事例，對它用一種等值的形式或模式來描述。例如，這種描述可能是從言語形式轉變為符號形式，從一個具體的形式轉變為比較抽象的形式，或者從一個一般化的釋例變為比較具體的釋例，反之亦然。學生將能夠使用有關一個術語、事實、規則或其他內容的新釋例，並確定那一次使用新釋例來說明問題是恰當的，那一次是不恰當的。一般來說，當學生用自己的言語表達一個概念，或使用已經學過的比較新的例證時，他們就是正在運用著轉換。（六）應用能力「應用」即使用各項規則和原則，以解決在各種情境中表現出來的問題；而對學生來說，這些情境是不熟悉的，或者陌生的。達到應用層次所需的基本行為，就是把在一個場合所學的一個規則或原則，用來解決在一個新的場合表現出來的問題。如果一個問題是學生早先多次遇到過的（除非換了新資料），那麼把有待進行的行為歸入應用層次，倒不如把它歸入轉換層次。如果對學習材料，或對學生最初遇到有關規則和原則的場合缺乏瞭解的話，那麼要辨認出那些代表著真正應

(9)

用的實例是有困難的。學生在應用過程中，必須認出問題的實質，確定各項規則、原則、通則以及其他有關內容，然後運用這些概念來解決一個問題----這個問題不同於以前在教學中或教材上所遇到的那些問題。這是諸範疇中最複雜的環節，因為它既依賴於以前的那些分類，但是又要求學生把這些概念應用於新的情境，或解決新的問題。按照這些行為範疇，把詳盡的內容進行分類，比辨識這些內容更為困難。然而，我們發現，在作了一些解釋以及把各種行為應用於特定教材的實踐之後，各位鑑定人（教師、心理學家、研究人員）對百分之八十五的分類以及大多數錯誤的來源取得了一致意見，並認為這些錯誤大多出自區分事實與規則或原則，或者區分轉換與應用時有所不當所致。顯然，比起那些從未講授過該科目的心理學家和研究人員，新任教師在進行這些區分時，困難要少得多。教師熟悉教學內容；他們比較清楚地了解教材所要達到的目的；對於學生在學完該學習單元後應該能夠做些什麼，他們有一個比較清楚的模式。一般說來，教師通過幾小時的實習，就能夠把這些範疇應用於一個特定的學習單元。問題 答案項 代碼建立雙向細目表是唯一的途徑 a 多種人員（教師、評量專家、學科專家）共同參與 b 只需學科專家參與 c 26.如欲鑑定學習單元的新內容或新題材，下列敘述哪一個最適當？鑑定結果不易獲得共識 d 學習單元是老師欲教的一個最基本內容或概念 a 學習單元是學生學習的一個最基本內容或概念 b 一個學習單元是一堂課所需用到的教材 c 27.有關學習單元，下列敘述哪一個最不適當？一個學習單元是教科書上某一章節 d 細目表是根據教材分析結果建立的 a 細目表必須指出學生學會什麼和能夠做什麼 b 細目表應該先由課程編製者建立 c 28.有關細目表，下列敘述哪一個最不適當？細目表應該先由評量專家建立 d 台灣教材根本不重視細目表 a 台灣教材是教師編製的 b 台灣教材是政府編製的 c 29.有關細目表，下列敘述哪一個最適當？台灣教材是全世界最優秀的 d 目錄 a 摘要 b 索引 c 30.有關教科書新內容標誌方式，下列敘述哪一個最不適當？紅色粗體列印 d Bloom a Cronbach b Wechsler c 31.「教育目標分類方法」的作者是哪一位？ Tayler d

(10)

事實 a 術語 b 規則和原則 c 32.國小國語科考試試題「名詞解釋」是屬於下列哪一種認知層次？程序 d 應用 a 程序 b 轉換 c 33.國小國語科考試試題「造句」是屬於下列哪一種認知層次？規則與原則 d 應用和轉換容易混淆 a 學生廣泛多次的練習，可將「應用」變成「轉換」。 b 對教材不熟悉，則無法判斷「應用」層次 c 34.有關應用能力，下列敘述哪一個最不適當？國小數學應用題是屬於應用能力 d 應用能力 a 規則和原則 b 程序能力 c 35.當老師批改學生的「成語造句」作業時，老師的認知層次是下列哪一種？轉換能力 d

第五大題、單選題（四選一）。每小題 2.5 分，共 12.5 分

設 ln 為自然對數且 logit 為定義於開區間(0,1)上的函數，若 x x x it − = 1 ln ) ( log ﹐

則稱 logit 為洛吉數函數(logistic function)。洛吉數函數在測驗統計學中扮演重要的角色。測驗統計學家 J.O.Ramsay 使用此函數來定義洛吉數高低鑑別指數如下：設 H P_α ， L P_α 分別表示前α 高分組受試者的試題答對率及後α ﹪低分組受試者﹪ 的試題答對率，則洛吉數α ﹪高低鑑別指數為D_α =logit(P_αH)−logit(P_αL)。現假設有 12 位受試者，參加一個 100 題的選擇題測驗，每題答對得 1 分，答錯得 0 分。若依測驗得分高低排列的受試者在其中的一題及總分反應情形如下：受試者 1 2 3 4 5 6 7 8 9 10 11 12 試題得分 1 1 0 1 1 1 0 0 0 1 0 0 測驗總分 100 96 88 84 72 68 64 56 48 32 20 12 試根據上面的內容知識，回答下列 1∼5 小題，將正確的選項寫在答案卷上。 36. 試求 12 位受試者的前 25﹪高分組的答對率P₂₅H=？（A） 2 1 （B） 3 2 （C） 4 3 （D） 5 4

(11)

37. 試求 12 位受試者的後 25﹪低分組的答對率P₂₅L=？（A） 6 1 （B） 5 1 （C） 4 1 （D） 3 1 38. 試求logit(P₅₀H)=？（A）ln2 （B）ln3 （C）ln5 （D）ln7 39. 試求logit(P₅₀L)=？（A）-ln2 （B）-ln3 （C）-ln5 （D）-ln7 40. 試求D =？ ₂₅ （A）2ln2 （B）2ln3 （C）2ln5 （D）2ln7

測驗與評量

國立台中師範學院九十四學年度研究所碩士班考試