• 沒有找到結果。

測驗與評量

N/A
N/A
Protected

Academic year: 2021

Share "測驗與評量"

Copied!
11
0
0

加載中.... (立即查看全文)

全文

(1)

國立臺中教育大學九十七學年度研究所碩士班

招生考試

測驗與評量試題

適用學系:教育測驗統計研究所 測驗與評量組 一、 閱讀選擇題 <第一大題>(四選一,每題 2 分,共 10 分)

以證據為中心的設計(Evidence-Centered Design,簡稱 ECD)」是學者 Mislevy 等人所提出之一般化評量設計模式。所謂「以證據為中心」的主要概念是認為這 些我們欲觀察的資料都是屬於特定種類的證據,ECD 提供證據討論的架構,證據 中心的評量設計是一個以推論證據來編製教育評量的方法。其中包含五個模式: 學生模式(student model)是指在一份測驗中研究者欲測得的知識、技能、或態度。 作業模式(task model)是什麼樣的情境(如紙筆評量、口頭報告),可以幫助引出 這些知識、技能或態度。證據模式(evidence model)包含證據規則和測量模式。證 據規則描述如何利用量化的計分規則描述學生完成的作業成果的表現;測量模式 提供有關學生模式變數及證據規則的連結資訊,心理計量模式即應用在這樣的目 的上。組合模式(assembly model)是指將測驗設計者設計的各式各樣的作業組合成 一份試卷或一個活動。呈現模式(presentation model)是可透過相關的工具,如網 頁、問卷將作業呈現給學生。下圖為 ECD 評量系統中不同模式間的關係。 組合模式 證據模式 作業模式 呈現模式 學生模式 測量模式 特徵值 證據規則

(2)

1.當設計評量活動時,教師需根據能力指標決定評量之目標,請問評量目標之界 定是屬於 ECD 的哪一個模式? (A)學生模式 (B)作業模式 (C)證據模式 (D)組合模式 2.決定評量目標之後,教師設計一些選擇題題目、建構反應題題型題目和學習單 等評量,請問這些評量活動是屬於 ECD 的哪一個模式? (A)學生模式 (B)作業模式 (C)證據模式 (D)呈現模式 3.教師決定以一份包含 25 題選擇題和 5 題建構反應題之測驗卷評量學生,其中選 擇題採二元計分,建構反應題採部分給分,最高給 5 分,請問計分方式之決定 是屬於 ECD 的哪一個模式? (A)學生模式 (B)作業模式 (C)證據模式 (D)呈現模式 4.若教師以電腦測驗的方式實施評量活動,請問是屬於 ECD 的哪一個模式? (A)學生模式 (B)作業模式 (C)證據模式 (D)呈現模式

5.若教師以 IRT( Item Response Theory)模式進行資料分析,推論學生能力,請問是

屬於 ECD 的哪一個模式? (A)學生模式

(B)作業模式 (C)證據模式 (D)組合模式

(3)

<第二大題>(四選一,每題 3 分,共 18 分)

古典測驗理論(classical test theory;簡稱 CTT )以線性模式 為核心

架構,其中

E T X = +

X 代表觀察分數,T代表真實能力,E是誤差。CTT 對於測量精確度

評估是以測驗為單位計算而得,即測量標準誤(standard error of measurement, SEM),以下列公式表示: 2 / 1 ) 1 ( r SEM =σ − 其中σ 為群體分數標準差,r是測驗信度

試題反應理論(item response theory,簡稱 IRT)改進古典測驗理論,主要是以答

對機率Pi(θ)描述試題i的特性與受試者能力θ 之間的關係。常見的模式如下: 單參數 logistic 模式(1PL)

(

)

(

(

)

)

i i i i X θ β β θ β θ − + − = = Ρ exp 1 exp , | 1 雙參數 logistic 模式(2PL)

(

)

(

(

(

(

)

)

)

)

i i i i i i i X α θ β β θ α α β θ − + − = = Ρ exp 1 exp , , | 1 三參數 logistic 模式(3PL)

(

)

(

)

(

(

(

(

)

)

)

)

i i i i i i i i i i X α θ β β θ α γ γ γ α β θ − + − − + = = Ρ exp 1 exp 1 , , , | 1 :表示受試者在試題i的作答情形,1 代表答對,0 代表答錯。 X 其中, :受試者的真實能力。 θ :分別表示試題i的難度參數、鑑別度參數、參測度參數。 i β αi γi

IRT 對於測量精準度的評估是採用訊息函數(information function),訊息量也 反應試題在不同能力點的測量誤差(standard error,SE),公式分別如下:

( )

(

)

) ( 1 ) ( ) ( 2 * θ θ θ θ i i i i P P P I − =

( )

) ( 1 1 θ θ

= = I i i I SE 其中 *

( )

θ :對於特定 i P θ,Pi

( )

θ 的一階微分。 :試題總數。 I

(4)

6.下列哪一個模式是屬於 Rasch 家族(Rasch family)? (A)CTT (B)1PL (C)2PL (D)3PL 7.如果研究者希望能力量尺要符合等距之特性,則應該選擇哪一種模式進行分析? (A)CTT (B)1PL (C)2PL (D)3PL 8.如果研究者所編製之測驗是以選擇題為主,最適合用哪一種模式進行分析? (A)CTT (B)1PL (C)2PL (D)3PL 9.相較於 IRT,下列何者是 CTT 之優點? (A)模式簡單易理解 (B)具有能力估計不變性 (C)具有題目參數估計不變性 (D)適用於電腦適性測驗 10.對於同一份測驗,下列敘述何者是正確的? (A)以 CTT 而言,不同能力的人會有不同的測量標準誤。 (B)以 CTT 而言,不同能力的人會有不同的信度。 (C)以 IRT 而言,不同能力的人會有不同的測量標準誤。 (D)以 IRT 而言,不同能力的人會有相同的信度。 11.若以 1PL 模式分析,則第 i 題訊息函數應是下列何者?

( )

θ i(θ)(1 i(θ)) i P P I = − (A)

( )

θ i(θ)2(1 i(θ)) i P P I = − (B)

(5)

( )

2 )) ( 1 )( (θ θ θ i i i P P I = − (C)

( )

2 2 )) ( 1 ( ) (θ θ θ i i i P P I = − (D) <第三大題>(四選一,每題 2.5 分,共 20 分) 有一份測驗經施測後,依受試者的得分排序,並挑選總受試人數之前 25%的 受試者為高分組,後 25%的受試者為低分組,其中前 5 題之選項人數分布與試題 分析如下表所示,灰格處代表各題的正確答案,試根據此表回答第 12~19 題。

Response Alternatives Difficulty index Discrimination Index item group 未 作 答 △ A B C D P rpb D 高分組 0 36 39 23 2 1 .34 △1 .04 D1 0 32 46 18 4 低分組 高分組 22 12 10 48 8 2 P2 △2 -.12 D2 32 25 11 23 9 低分組 高分組 16 15 7 62 0 3 P3 △3 r 3 D3 低分組 36 28 7 26 3 高分組 2 1 96 1 0 4 P4 12.30 r 4 D4 低分組 31 24 18 27 0 高分組 2 1 95 2 0 5 .78 △5 .55 D5 低分組 18 12 54 16 0 12.受測總人數是多少人? (A)400 (B)300 (C)200 (D)100 13.請問P2=?

(6)

(A)0.54 (B)0.27 (C)0.25 (D)0.10 14.請問P3=? (A)0.88 (B)0.54 (C)0.44 (D)0.36 15.請問D1=? (A)0.05 (B)0.04 (C)0.03 (D)0.02 16.請問D5=? (A)0.55 (B)0.51 (C)0.45 (D)0.41 17.關於△值的敘述,下列何者正確? (A) △值愈大表示通過率愈大,難度愈低 (B) △值介於-13 到 13 之間 (C) △值較 P 值容易計算與使用 (D) △值是具有相等單位的等距量尺 18.哪一題難度最高? (A)第 2 題 (B)第 3 題 (C)第 4 題 (D)第 5 題 19.哪一題鑑別度最佳?

(7)

(A)第 5 題 (B)第 4 題 (C)第 2 題 (D)第 1 題 二、 選擇題(四選一,每題 2 分,共 52 分) 20.國中基本學力測驗於 95 年開始加考寫作測驗,此測驗適合使用下列何種方法 來計算信度? (A)重測法 (B)折半法 (C)Alpha 係數 (D)等級相關 21.學生以某種一致傾向的作答方式應付考試的行為稱之為下列何者? (A)應試技巧 (B)考試焦慮 (C)自我驗證 (D)反應心向 22.最大表現測驗與典型表現測驗之分類基礎在於下列何者? (A)測驗的本質 (B)測驗的形式 (C)測驗的時機 (D)結果的解釋 23.欲將二個或二個以上測量同一心理特質的測驗,用等化方法建立不同測驗得分 間的關係,須符合下列哪一項條件 (A)信度相等性 (B)團體對稱性 (C)測驗多向性 (D)分數同質性 24.在多向度電腦化適性測驗(MCAT)中,各因素對信度造成的影響,何者正確? (A)各能力之間的相關愈低,提昇了能力估計的訊息量,能力估計的信度也就 會愈高。 (B)題間多向度測驗型態比題內多向度測驗型態的測量信度較高。

(8)

(C)能力向度數量愈多,可以用來幫助進行能力估計的訊息就愈多,能力估計 信度也愈高。 (D) 施測時間愈長,測驗訊息量愈大,能力估計信度也愈高。 25.某研究生想了解「國中新生入學時所做的智力測驗成績對於學生於國三時參加 基本學力測驗的預測力如何?」若以迴歸方程式進行分析,則哪一敘述是正確 的? (A)智力測驗成績是預測變項(predictor variable) (B)智力測驗成績是效標變項(criterion variable) (C)基本學力測驗成績是預測變項(predictor variable) (D)基本學力測驗成績是獨立變項(independent variable) 26.由於測驗的實施對於教師教學和學生學習產生影響,例如「考試引導教學」, 此為下列哪一種現象? (A)回浪效應(washback effect) (B)霍桑效應(Hawthorne effect) (C)月暈效應 (Hallo effect) (D)強亨利(John Henry effect)

27.校務評鑑時,若受評學校在某個項目的表現非常優異,因而影響評鑑委員在其 他項目的評價或給分,此為下列哪一種現象?

(A)回浪效應(washback effect) (B)霍桑效應(Hawthorne effect) (C)月暈效應 (Hallo effect)

(D)強亨利效應(John Henry effect)

28.校務評鑑時,當評鑑委員實地進入學校觀察,全校師生為了自尊及校譽,因而 表現出比平常更佳的狀況,此為下列哪一種現象?

(A)回浪效應(washback effect) (B)霍桑效應(Hawthorne effect) (C)月暈效應 (Hallo effect)

(D)強亨利效應(John Henry effect)

29.某教師進行實驗時,將受試對象分為實驗組控制組,結果控制組學生為了跟實 驗組學生一較高下,而有一般水準之上的表現,此為下列哪一種現象? (A)回浪效應(washback effect)

(9)

(B)霍桑效應(Hawthorne effect) (C)月暈效應 (Hallo effect)

(D)強亨利效應(John Henry effect)

30.下列關於靜態評量之敘述,哪一項是正確的? (A)測量受試者目前的能力水準 (B)經濟性低,用途廣 (C)在教學互動與回饋中發生,屬於自然情境。 (D)受試者是主動的,施測者是協助的 31.編製測驗時建立雙向細目表,可以改進哪一項評量指標?? (A)同時效度 (B)預測效度 (C)建構效度 (D)內容效度 32.建立題庫需要花費大量的人力、物力與時間,故需謹慎評估,下面哪一種情況 不需要建立題庫? (A)需要經常性實施的測驗 (B)需要根據不同對象組合測驗 (C)需要篩選不良試題的測驗 (D)需要進行電腦化適性測驗 33.試題分析時,若研究者使用 Cronbach’s alpha 係數作為篩選試題之參考,對於 此係數之作用,請問下列何者的敘述比較正確? (A)檢定題本間的一致性 (B)檢定題本間的恆等性 (C)檢定試題間的真實性 (D)檢定試題間的一致性 34.建立題庫時,若以三參數 logistic 試題反應理論模式分析試題,則理想的試題 參數所應具備之特色為何? (A)難度指數越高越好 (B)難度指數越低越好 (C)鑑別度指數越高越好 (D)鑑別度指數越低越好

(10)

35.哪一種測量分析軟體不適合用來分析多點計分之試題? (A)BILOG (B)MUTILOG (C)PARSCALE (D)RUMM 36.教師欲探討個別指導之教學效果,實驗設計時以傳統團班教學為對照組,並對 於參加實驗之學生施以前測以排除起點行為之影響,請問適合以哪一種統計分 析方法瞭解其實驗成效? (A)共變數分析 (B)變異數分析 (C)因素分析 (D)迴歸分析 37.某研究生設計一份態度測驗,採用四點計分之李特克量表(Likert scale)題項, 請問宜採用何種信度分析資料? (A)庫李信度 (B)評分者信度 (C)再測信度 (D)Cronbach’sα 信度 38.四位學生參加測驗,甲生得分為 z=1.0,乙生得分為 T=55 ,丙生得分為標準 九 5 分 ,丁生得分為百分等級是 35,請問誰的分數表現最好? (A)甲生 (B)乙生 (C)丙生 (D)丁生 39.下列哪一種估計測驗信度的方法不是測得該測驗的內部一致性(internal consistency)? (A)折半信度 (B)再測信度 (C)庫李信度 (D)Cronbach’sα 係數

(11)

40.一份測驗中,信度與測量標準誤的關係如何? (A)信度越高,測量標準誤越高 (B)信度越高,測量標準誤越低 (C)信度與測量標準誤沒有關係 (D)信度與測量標準誤正比關係 41.某位研究生分別使用訪談法與紙筆測驗評量人格特質,結果呈現高相關,請問 此種方式是在測量哪一種效度? (A)內容效度(content validity) (B)預測效度(predictive validity) (C)區別效度(discriminant validity) (D)聚斂效度(convergent validity) ,請問其意義為何? 42.某生參加一份線上測驗後,診斷報告中列出P85 =78 (A)團體中,有 85%的人分數低於 78 分 (B)團體中,有 85%的人分數高於 78 分 (C)團體中,有 78%的人分數低於 85 分 (D)團體中,有 78%的人分數高於 85 分 43.某份測驗的信度是 0.64,平均數是 100,標準差是 15,請問此測驗的測量標 準誤是多少? (A)0.36 (B)6.7 (C)9 (D)10 44.下列的相關係數中,何者顯示資料間具有較密切的關係? (A)-0.77 (B)0.09 (C)0.20 (D)0.45 45.魏氏(Wechsler)智力測驗是屬於下列哪一種評量方式? (A)標準參照評量 (B)常模參照評量 (C)形成性評量 (D)總結性評量

參考文獻

相關文件

六大興趣類型的典型職業為基礎,結合 台灣區職場現況與 1111 人力銀行的職 務分類,發展並重新定義出 9 種以職能. 技巧

美國高中數學測驗 AMC 12 由 1950 年舉辦至今 (2009) 已有 60 年歷史, 為近幾年備 受 重視的世界性大型數學測驗。

在工程科學及測量輪胎壓力所使用的壓力單位為每平方 英吋磅(pounds per square inch),簡稱 psi。..  利用表 13.1 的數據,以P

 1932 年提出李克特量表( Likert Scale ),是一種 心理測量量表,通常用於問卷設計,為目前最受調查 研究者廣泛使用的測量方法.

科技教育 設計 模型 製作.

根據內政部統計,97 年底領有身心障礙手冊者達 104 萬人,領有手冊之身 心障礙人口占總人口比率 4.5%。其中,慢性精神疾患者(以下簡稱精障者)在所 有身心障礙者

• 測驗 (test),為評量形式的一種,是觀察或描述學 生特質的一種工具或系統化的方法。測驗一般指 的是紙筆測驗 (paper-and-pencil

The Hong Kong Musical Composition Ratings (HKMCR) 能力呎..