• 沒有找到結果。

測驗與評量

N/A
N/A
Protected

Academic year: 2021

Share "測驗與評量"

Copied!
10
0
0

加載中.... (立即查看全文)

全文

(1)

國立臺中教育大學 96 學年度研究所碩士班招生考試

測驗與評量 科試題

一、閱讀選擇題(四選一,每題 2 %,共 46 %) 《第一大題》 在不同的測驗間,其測驗分數該如何比較?這是測驗理論中常提到的等化議題。要 將兩測驗等化前必須先收集資料,關於測驗等化收集資料的方法眾多,茲介紹兩種常用 的測驗等化設計: (一) 定錨不等組設計 定錨不等組(NEAT)設計為在兩個不同能力分佈的受試者母群體P和Q中,分別隨機抽 取受試者樣本P1、Q1。其中,P1受試者接受X測驗,Q1受試者接受Y測驗。P1、Q1兩樣 本受試者群另外需接受定錨試題(anchor items)A測驗的施測。定錨不等組設計如下表 (“V"為受試者接受的施測部份)。 受試者群 X測驗 Y測驗 定錨測驗A P1 V V Q1 V V (二) 平衡不完全區塊設計 平衡不完全區塊(BIB)設計是將試題分成若干試題區塊,區塊間與區塊內的試題皆不 重複,受試者只需接受若干試題區塊的試題,且不同受試者可能接受部分相同、完全相 同、或完全不同的試題區塊。最後,將所有受試者的作答反應資料堆疊進行等化分析, 以達到能力估計的目的。 此設計假設所有欲等化的試題被區分為數個區塊,並利用這些試題區塊編製成題 本。在區分試題區塊的過程不為隨機,但必須考量受試者可以有足夠的時間完成所有的 題目,且試題區塊數也要事先確定。最後題本根據最小單位,經由螺旋排序並束在一起 (spiraled and bundled)的方式確保每一試題區塊出現的次數均等,以減低順序因素。所以 施測時,必須依據排好的順序將題本循序發給考生。另外,根據美國國家教育進展評量 (NAEP) 1998年的技術性報告中指出,每一試題在施測時,大約需要500個測試樣本。 BIB設計有三項基本限制: 1. 每一個題本內的試題區塊數要相同; 2. 試題區塊作結合以求出最小題本數; 3. 每一個試題區塊在所有題本中出現的次數要相同。 然而,這只是BIB設計必須符合的三項基本限制,但在實際設計時,還需考慮試題 的內容、形式及作答時間。以下為一BIB設計範例,其中Ki代表區塊i、Bi代表題本i、“V" 為題本所組成之試題區塊: 試題區塊序號 試題區塊序號 題本序號 K1 K2 K3 K4 K5 K6 K7 題本序號 K1 K2 K3 K4 K5 K6 K7 B1 V V V B8 V V V B2 V V V B9 V V V B3 V V V B10 V V V B4 V V V B11 V V V B5 V V V B12 V V V 教育測驗統計研究所 測驗與評量組 用

(2)

1. 請問下列何種測驗沒有使用等化設計? (A) 台灣的大學學測 (B) 美國大學入學使用之 SAT 測驗 (C) 托福(TOEFL)測驗 (D) 台灣學生學習成就評量資料庫建製時使用之測驗 2. 請問下列何種情境較適用 BIB 設計? (A) 受試者眾多且題本數多 (B) 受試者眾多但題本數少 (C) 受試者眾少但題本數多 (D) 受試者眾少但題本數少 3. 下列有關 NEAT 設計的敘述何者錯誤? (A) 所有題本必需有共同的定錨試題才能進行等化 (B) 進行題本公佈時,將會公佈所有的定錨試題 (C) 題本與試題區塊的配置方式不易找尋 (D) 定錨試題的好壞會影響等化效果的估計 4. 下列有關 BIB 設計的敘述何者錯誤? (A) 所有題本不需有共同的定錨試題才能進行等化 (B) 進行題本公佈時,不會公佈所有的定錨試題 (C) 題本與試題區塊的配置方式不易找尋 (D) 定錨試題的好壞會影響等化效果的估計

5. 下列表格何者為 BIB 設計?(符號說明:Ki 代表區塊 i、Bi 代表題本 i、“V”為題本所組成 之試題區塊)

(3)

《第二大題》 1991 年 Ramsay 所提試題反應模式估計程序如下: (1)求秩(rank): 假設受試者有N人(s=1,2,L,N),試題有n題(i=1,2,...,n),試題選項有m項 ( j=2,...,m)。第s個受試者的加權總分 T ,定義如下式: s s T =

∑∑

= = n i m j s ij ijy W 1 1 s=1,2,…,N 其中 T :表受試者s之擴張高低鑑別指數加權總分值 s s ij y :表受試者s實際選答第 i 題第 j 選項之指示值 ij W =logit[pij( )75 ]-logit[ ( )25 ij p ]=ln ( ) ( ) ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ − 75 75 1 ij ij p p -ln ( ) ( ) ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ − 25 25 1 ij ij p p ) 75 ( ij ppij(25):分別表原始總分排序前 25%高分組、後 25%低分組受試 者中,實際選答第 i 題第 j 選項之選答率 i=1,2,…,n , j =1,2,…,m 藉由T 值之排序可估得受試者s之秩S (rank): rs (2)計算(Enumerate): 將上述r 藉由機率積分轉換,可得到對應分位數s (quantile;qs s=1,2,L,N) ,以標 準常態分配為例,r 與s q 的關係為s 1 ) Pr( ) 2 exp( 2 1 2 + = ≤ = −

−∞ N r r R dt t s s s qs π , (3)平滑化(Smooth): 將能力估計值(分位數)q1,…,q ,及試題選項的指示向量N yijs(0或1)代入下式進 行平滑化估計。

= = = − − = = N s s N s s ij s s ij n s s ij h q k y h q k y w p 1 1 1 ) ( ) ( ) ( ) ( θ θ θ θ 請依上文所述回答下列問題。 6. 有關 Ramsay 模式中 h 參數的敘述以下列何者最正確? (A) h 大時則曲線較平滑 (B) h 大時則曲線較不平滑 (C) h 大時則曲線較陡峭 (D) h 大時則曲線較不陡峭

(4)

7. 下列何者為 Ramsay 模式與一般參數型 logistic IRT 模式不同處?

(A) 不具局部獨立假設 (B) 試題特徵曲線估計較精確

(C) 沒有測驗時間限制 (D) 能力值估計較精確

8. 步驟(2) r 與s q 的機率積分轉換中是基於何種分配?s

(A) Chi-square (0, 1) (B) Normal (0, 1) (C) Beta (0, 1) (D) Gamma(0, 1) 9. 下列何者較適合作為核函數k

( )

• ? (A)

( )

otherwise 1 if 0 1 ≤ ⎩ ⎨ ⎧ = u u k (B)

( )

otherwise 1 if 0 ) 1 ( 2 ≤ ⎩ ⎨ ⎧ − = u u u k (C)

( )

−∞< <∞ ⎭ ⎬ ⎫ ⎩ ⎨ ⎧ − = u u u k 2 exp 2 (D)

( )

otherwise 1 if 0 ) 1 exp( 2 ≤ ⎩ ⎨ ⎧ − = u u u k 10.下列何者為 Ramsay 模式之缺點? (A) 不具單調性假設 (B) 不具局部獨立假設 (C) 沒有測驗時間限制 (D) 不利建立題庫 《第三大題》 以下是某位教授在上課中所述的內容,請根據其內容,回答第 11 題至第 15 題: 局部獨立性(local independence )是許多試題反應理論(item response theory)和潛 在類別模式(latent class model)的重要假設。這是一個因應參數估計所需而設 的,然而實際資料或施測情境中,局部獨立性有時很難存在。因此在使用測驗 分析模式之前,必須詳加檢查資料與假設的符合程度。當然,有些研究者直接 把假設去除而採用另類的模式分析資料,這也是一個可行的方式。 11.下列哪項是試題反應理論局部獨立性假設的公式? (A) P(Ui,Ujθ)=P(Uiθ)P(Ujθ) (B) PUi,Uj)=P(Uiθ)P(Ujθ) (C) P(Ui,Uj)=P(Ui)P(Uj) (D) P(Ui,Ujθ)=PUi)PUj) 12.下列哪種測驗最有可能不符合局部獨立性假設? (A) 適性測驗 (B) 認知診斷測驗 (C) 速度測驗 (D) 安置性測驗 13.下列哪種測驗情境下的行為,最有可能造成資料不符合局部獨立性假設? (A) 數學題目驗算 (B) 緊張但小心作答 (C) 前後題目有答題線索 (D) 改變作答題號順序

(5)

14.檢查局部獨立性的指標有多個,下列哪個指標並非用於檢定局部獨立性假設? (A) χ2 (B) G 2 (C) t (D) Q 3 15.如果研究者採用容許局部相依情形的分析模式,那麼他可以採取哪種模式? (A) 名義模式 (B) 廣義部分給分模式 (C) 等級反應模式 (D) 題組反應模式 《第四大題》 根據某位研究生的試題反應理論期中作業,此作業要求根據下表中的數據以及 Birnbaum 的三參數模式 ( ) 1 1 ) 1 ( ) ( i j i e c c

Pi θj = i + − i +α θβ ( Birnbaum’s three parameter model ),繪出測驗

特徵曲線 (test characteristic curve),此研究生所繪出的曲線如下圖。請根據其結果,回答第 16 題至第 20 題: Item αi βi ci 1 .4 -.50 .1 2 .6 -.25 .2 3 .6 .25 .2 4 .4 .50 .1

Test Characteristic Curve

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 -4.0 -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 4.0 Ability 16.在能力值θj =1時,則其測驗的真實分數 (true score) 約為 (A) .69 (B) 1.29 (C) 2.71 (D) 3.71 17.就理論上而言,在能力值θj →−∞時,則其測驗的真實分數約為 (A) .40 (B) .60 (C) .80 (D) 1.00 18.就理論上而言,在能力值θ →∞時,則其測驗的真實分數約為

(6)

19.就第一題的試題訊息函數 (item information function) 而言,假設在θmax時該題有最大訊息 量(maximum information ),則θmax值為何?

(A) 大於 -.50 (B) 大於 2.00 (C) 小於 -.50 (D) 小於 -1.00 20.當能力值θ =0,則該受試者在哪一題的答對率最高? (A) 第 1 題 (B) 第 2 題 (C) 第 3 題 (D) 第 4 題 《第五大題》 以下是某位教授在上課中所述的內容,請根據其內容,回答第 21 題至第 23 題: 一 份 測 驗 的 總 變 異 數 2 x S 可 以 分 成 三 個 部 分 , 這 三 個 部 分 是 共 同 變 異 數 2 co

S (common factor variance)、獨特變異數Ssp2 (specific factor variance)和誤差變異 數 2 e S (error variance)。根據這分割後的變異數,對於信度和效度的瞭解,有很 大的幫助。 21.根據上述的變異數分割的觀點,下列何者可用以表示效度? (A) 2 2 1 x sp S S − (B) 2 2 2 1 x sp e S S S + − (C) 2 2 x sp S S (D) 2 2 co sp S S 22.根據上述的變異數分割的觀點,下列何者可用以表示信度? (A) 2 2 1 x co S S − (B) 2 2 1 x e S S − (C) 2 2 2 x e sp S S S + (D) 2 2 2 x e co S S S + 23.假設該測驗的真正信度是 .80,則下列敘述何者正確? (A) 該測驗的特殊變異數佔總變異數的比率小於或等於 .80 (B) 該測驗的共同變異數佔總變異數的比率小於或等於 .64 (C) 該測驗的誤差變異數佔總變異數的比率是 .36 (D) 若以 Cronbach α 來估計信度,則 Cronbach α 必高於 .80 二、選擇題(四選一,每題 2 %,共 24 %) 24.關於徑路搜尋(pathfinder)在測驗評量的研究,下列敘述何者正確? (A) 以相似性評定獲得接近性矩陣 (proximity matrix)

(B) 採用統計學的徑路分析(path analysis)來分析資料 (C) 可獲得節點(node)之間的方向性階層關係

(D) 適用於二元計分(dichotomous)的原始資料

25. J. D. Novak 提出概念構圖(concept mapping )之方法,關於概念構圖的敘述,下列何者最為 正確?

(A) 概念之間連結之間以連結強度表示 (B) 只適用於評定生手(novice)的知識結構 (C) 聯結語不是評分的項目之一

(7)

26.一份測驗要具有良好的建構效度,必須具備下列哪二種效度? (A) 內在效度與外在效度 (B) 因素效度與內容效度 (C) 同時效度與預測效度 (D) 聚斂效度與區別效度 27.關於發展性常模的敘述,何者有誤? (A)比西量表的心理年齡屬於發展性常模 (B)可呈現個體在正常發展歷程中之成熟水準 (C)標準九並非發展性常模而是組內常模 (D)發展性常模可做精確的統計分析處理 28.某數學教育研究者新編了一套兒童數學學習動機量表,該研究者需提出下列哪一種指標來 驗證其量表所測得的特質的確是一般所謂的數學學習動機? (A)邏輯效度 (B)建構效度 (C)輻合效度 (D)預測效度 29.某心理測驗之信度為 0.84,標準差為 10,平均數為 75,已知小明的測驗成績為 70 分,則 下列哪一選項最接近小明在 95%信賴區間內的真實分數範圍? (A) 57≦小明的真實分數≦ 73 (B) 66≦小明的真實分數≦ 74 (C) 62≦小明的真實分數≦ 78 (D) 71≦小明的真實分數≦ 79 30.在效標參照測驗的測驗分析中,下列何者最適合用來偵測教學效能? (A)信度指標 (B)效度指標 (C)難易度指標 (D)鑑別度指標 31.在檔案評量中,根據教學或評量目標設計檔案內容,要求學生根據規定內容選擇或製作項 目而成的檔案,是屬於哪一種類型的學習檔案? (A) 展示檔案 (B) 評鑑檔案 (C) 紀錄檔案 (D) 歷程檔案 32.教師在命題時顧慮受試者的文化、社會地位是為了避免什麼? (A)降低學習動機 (B)提高測驗偏差 (C)促進盲目猜題 (D)降低施測品質。 33.欲測量學生是否具備複製三度空間立體圖的能力,最宜採用哪下列何種評量方式? (A)實作評量 (B)動態評量 (C)歷程評量 (D)變通評量 34.下列何種測驗較適合採用「年級當量」? (A)國語成就測驗 (B)學術性向測驗 (C)職業興趣測驗 (D)魏氏智力測驗 35.應用試題反應理論的方法來分析某份測驗資料的首要步驟,是估計我們所選用的試題反應 模式的參數,下列關於能力與試題參數的描述何者正確? (A)貝氏估計法之估計值在滿分或零分的情況下,理論上是無意義的。 (B) N 位受試者施測 n 個題目,每題三個參數,若以聯合最大概似法來估計,需估計的總 參數量為 N+3n-2 (C)條件最大概似法最大的優點是能力與試題參數的估計相互獨立,估計值較穩定,但一 般只適用於雙參數對數模式

(8)

三、選擇題(五選一,每題 2 %,共 30 %) 以下題目皆為五選一的單選題,但不代表有唯一的標準答案,請詳細比較五個選項之 後,選出一個相對的最佳答案。 36.若以 X 代表觀察結果,T 代表真實能力,E 代表誤差,來說明古典測驗理論,以下答案中, 相對之下,何者較錯誤? (A)X = T + E (B)X = T - E (C)E = X - E (D)T 與 E 相關係數為 0 (E)X 與 T 相關係數為 0

37.相對之下,以下資料比較適合用「人工的二元資料」(artificial dichotomous data)的假設來分 析?

(A) gender in binary coding (B) temperature in Celsius (C) weight in kilograms (D) below poverty or not (E) ordinal Likert scale 38.公式︰ 22 11 12 12 ˆ r r r r = 中,r11是測驗一的信度,r22是測驗二的信度,r12則是兩個測驗的相關 係數,所以ˆr12稱為?

(A) Correction for attenuation (B) Cronbach alpha

(C) KR-20 coefficient

(D) Standard error of measurement (E) Spearman-Brown Reliability

39.以下哪一個測驗執行時,「團體施測」的執行方法,是最主要的使用方式?

(A) WAIS-III (B) WPPSI-R

(C) Stanford-Binet Scale

(D) Raven Progressive Matrices (E) Peabody Picture Vocabulary Test

40.請詳細比較以下的敘述,選出相對之下,最不符合成就測驗與性向測驗的基本設計原理的 敘述。 (A) 成就測驗強調學習成果的檢測 (B) 性向測驗強調未來潛能的檢測 (C) 成就測驗強調教學成果的檢測 (D) 性向測驗屬於總結性評量 (E) 成就測驗與受測者過去經驗高度相關

(9)

41. 依照美國全國數學教師委員會(NCTM)1995 年所出版的教學評量標準,教學評量的標 準主要有六大項。請問下列哪一項,不屬於上述六項教學評量標準? (A)學習標準 (B)公平標準 (C)推論標準 (D)連貫標準 (E)效度標準 42. 依照美國全國數學教師委員會(NCTM)1995 年所出版的教學評量標準,教學評量的標 準主要有六大項。請問下列哪一項敘述,比較符合「公平標準」的定義? (A)各種評量過程必須具有相當高的一致性 (B)評量結果必須有助於學生、家長和教師精確暸解學生的學習成就 (C)各種評量方法都必須有助於提升學生的學習效率 (D)透過各種評量方法,讓各種不同的學生,都有適當的表現機會 (E)所有與評量有關的資訊和結果都應該讓學生、家長和教師知道 43. 請問下列哪一項最符合「學習日誌」(journals)的特徵? (A)作品 (B)反省 (C)結果 (D)正確 (E)效率 44. 請問下列哪一項最符合「實作評量」(performance)的特徵? (A)作品 (B)過程 (C)內容 (D)效率 (E)演出 45. 請問下列哪一項最常被用來形容測驗或評量的品質? (A)信度 (B)試題參數 (C)難度 (D)鑑別度 (E)試題特徵曲線 46. 請問下列哪一項最符合「信度」的特質? (A)各試題內容的一致性 (B)各試題得分的一致性 (C)各試題參數的一致性

(10)

47. 請問下列哪一項最符合「效度」的特質? (A)試題得分的分布情況 (B)試題曲線的一致性 (C)試題內容的代表性 (D)試題難度的分布情況 (E)試題曲線的代表性 48. 請問下列何者不是「建構效度」常用的考驗方法? (A)區分效度 (B)聚斂效度 (C)因素分析法 (D)與其他測驗分數的相關 (E)重測相關 49. 請問下列何者與「因素分析法」最無關聯? (A)因素變異量 (B)因素負荷量 (C)主軸旋轉 (D)顯著水準 (E)因素萃取 50. 請問最常採用的「信度」估計方法是下列何者? (A)KR20 (B)KR21 (C)alpha 係數 (D)折半相關 (E)複本相關

參考文獻

相關文件

為降低藥品安全性與有效性試驗的成本與其耗費的時間, 合併第一期

三、本試題共 4 站,每站皆需測試,必須達 3 站以上合格,總評方為合格。測試前應檢人依 術科編號順序各自抽出第一場應檢站別

第二十四條 學、術科測 試辦理單位應遴聘具有 下列資格之一者,擔任 學科測試及術科測試採 筆試非測驗題方式之監 場人員:. 一、

108 年度臺中市政府教育局所屬學校護理人員及營養師暨公 立幼兒園契約進用護理人員聯合甄選,綜合護理學題本,題本採 雙面印刷,共 100

(一)初試:採筆試方式,題目類型為選擇題,每科目題數各 50 題(每題 2 分,各題未作 答不予計分,答錯倒扣 0.6 分) 。初試成績達參加複試標準(初試科目其中

104 年臺中市政府教育局所屬學校護理人員甄選,綜合護理 學科題本,題本採雙面印刷,共 100 題,測驗時間 90

104 年臺中市政府教育局所屬學校護理人員甄選,緊急救護 學科題本,題本採雙面印刷,共 100 題,測驗時間 90

八、 應檢人參加技術士技能檢定學科或術科採筆試非測驗題職類,測試使用計算器,除