國
立
交
通
大
學
理學院網路學習學程
碩
士
論
文
以 IRT 理 論 和 S-P 表 理 論 來 分 析 試 題 屬 性 及 受
測 者 表 現 ─ ─ 以 多 媒 體 英 語 文 試 題 為 例
The analysis of the test item attributes and the testee
’
response behaviors based on the Item Response Theory (IRT)
and Student-Problem (S-P) Chart ― ― using multimedia
English test questions as example
研 究 生 : 詹 裕 偉
以 IRT 理 論 和 S-P 表 理 論 來 分 析 試 題 屬 性 及 受 測 者 表 現
─ ─ 以 多 媒 體 英 語 文 試 題 為 例
The analysis of the test item attributes and the testee’ response
behaviors based on the Item Response Theory (IRT) and
Student-Problem (S-P) Chart ―― using multimedia English test
questions as example
研
究 生 : 詹 裕 偉 Student: Yu-Wei Chan
指 導 教 授 : 陳 登 吉
Advisor: Deng-Jyi Chen
國
立 交 通 大 學
理 學 院 網 路 學 習 學 程
碩
士 論 文
A Thesis
Submitted to Degree Program of E-Learning
College of Science
National Chiao Tung University
in partial Fulfillment of the Requirements
for the Degree of
Master
in
Degree Program of E-Learning
July 2006
Hsinchu, Taiwan, Republic of China
以 IRT 理論和 S-P 表理論來分析試題屬性及受測者表現
──以多媒體英語文試題為例
學生:詹裕偉 指導教授:陳登吉 博士
國立交通大學理學院網路學習碩士在職專班
中文摘要
隨著資訊科技與網際網路的快速發展,有不少正式和非正式的測驗或檢定已漸漸改
為電腦化,TOEFL 及全民網路英檢就是一個例子。但現行的英語文能力檢定中,常以試
題反應理論(
Item Response Theory, IRT
)的鑑別度(a 值)、難易度(b 值)及猜測度(c
值)來分析受測者的能力與試題的優劣,這與 1970 年代由日本學者佐藤隆博博士
(Takahiro Sato)所創 S-P 表分析理論(
Student-Problem Chart
)的鑑別度、難易度、
答對率、試題注意係數是否有存在某種關係呢?而受測者的表現是否與這些變項存在什
麼樣的關係呢?本研究的目的是以試題反應理論(IRT)和學生-問題分析理論(
S-P Chart
)
來探討多媒體英語文試題的屬性及受測者表現。
本研究採用全民網路英檢(NETPAW)初級檢定的試題(聽力測驗 40 題、閱讀測驗 40
題),由系統計算出測驗後試題的鑑別度(a 值)、難易度(b 值)、猜測度(c 值)及作答時
間。再將學生的答題記錄及答題時間輸入 S-P-T 表分析器,得到(1)試題的鑑別度、難
易度、答對率、試題注意係數;(2)學生的解題能力、思考敏捷度、學生注意係數。接
著進行(一)試題屬性分析――藉由 Pearson 積差相關分析來探討 IRT 理論的鑑別度(a
值)、難易度(b 值)及猜測度(c 值)與 S-P 表分析的鑑別度、難易度、答對率、試題注意
係數及平均答題時間的相關性。(二)受測者表現分析──先以描述性統計分析來了解受
測者成績的分布情形,並藉由 Pearson 積差相關分析來探討受測者的成績表現與 S-P-T
表分析理論的解題能力、思考敏捷度、學生注意係數的相關性。再以廻歸分析來(1)探
討受測者的聽力成績及閱讀成績表現與學校英語段考成績表現的廻歸關係。(2)探討受
測者的聽力及閱讀成績表現與解題能力的廻歸關係。
由本研究可以歸納出下列幾項應用:
一、命題者可以運用 IRT 理論的鑑別度(a 值)、難易度(b 值)及猜測度(c 值)與 S-P 表分
析的鑑別度、難易度、答對率、試題注意係數及平均答題時間的交互相關分析來驗
證試題的品質,做為下次命題或改進試題的參考依據。
為補救教學及改進教學之參考。
三、學生可以藉由 S-P-T 表分析理論的學生注意係數、思考敏捷度及解題能力來了解自
己的弱點,找出自己應該加強的地方在哪裡。再透過學校英語段考成績與聽力成績
及閱讀成績的廻歸分析,推測是否有機會通過全民網路英檢初級檢定的初試。
The analysis of the test item attributes and the testee’ response behaviors
based on the Item Response Theory (IRT) and Student-Problem (S-P)
Chart ―― using multimedia English test questions as example
Student:Yu-Wei Chan
Advisor:Deng-Jyi Chen
Degree Program of E-Learning
National Chiao Tung University
英文摘要
Abstract
With the fast development of information science and internet network, many formal and
in-formal test or examination have already changed into the computerization gradually, such
as TOEFL and NETPAW. But in current English ability tests often use differentiation degree
(A value), difficulty degree (B value) and conjecture degree (C value) in Item Response
Theory (IRT). Is there existing any relation between IRT and the differentiation degree,
difficult degree, correct rate, and test notice coefficient in Student-Problem Chart created by
Dr. Takahiro in 1970s? What kind of relation does exist between the examinees’ performance
and these factors above? The purpose of this research wants to disscuss the multimedia
English test item attributes and the testee’ response behaviors based on the Item Response
Theory (IRT) and Student-Problem (S-P) Chart.
This research adopts the basic level test questions in NETPAW, “listening comperhension test
40 questions, reading test 40 questions.” The differentiation degree (A value), difficulty
degree (B value), conjecture degree (C value) and answering duration about the test are all
calculated by the system. And then we should input all the students’ answering record and
duration data into S-P-T Chart system, and get (1) the problems’ differentiation degree,
difficulty degree, correct rate, and item caution index, (2) the students’ problem-solving
ability, nimbleness of thinking, and student caution index. Next, proceed (Ⅰ) the attribute
analysis of examination question――Discuss the correctation between A value, B value, and
C value in IRT and differentiation degree, difficulty degree, correct rate, item caution index,
and average answering time in S-P Chart by Pearson Product-moment Correlation. (Ⅱ) the
analysis of the examinees’ response――First realize the distribution of the examinees’ grades
with the Describing Statistical analysis, and discuss the correctation between the examinees’
grades performance and the problem-solving ability, nimbleness of thinking, and student
caution index with Pearson Product-moment Correlation. Next with the Regressong anslysis
to discuss (1) the regressive relation between the examinees’ listening test and reading test
grades performance and English monthly test performance at school. (2) the regression
analysis between the exaninees’ listening and reading test grades performance and
problem-solving abibity.
(Ⅰ) The theorematic examiners can use the mutual relation between the differentiation degree
(A value), difficulty degree (B value), and conjecture degree (C value) in IRT and
differentiation degree, difficulty degree, correct rate, item caution index, and average
answering time in S-P Chart analysis to testify the quality of the test questions and
become the reference resources to formulate or improve questions for the test.
(Ⅱ) Teachers can understand students’ advantages or shortcomings by listening, reading,
Englist monthly test grades, and problem-solving ability, nimbleness of thinking, and
student caution index, and average answering time in S-P-T Chart as the reference of
improving or remedying teaching process.
(Ⅲ) Students can find out their own weakness and which part they should strengther by
student caution index, nimbleness of thinking, and problem-solving ability in S-P-T Chart
analysis theory. The examinees can infer whether they can pass the preliminary test for the
basic level in NETPAW or not by using the regressive analysis in listening, reading
grades and English monthly test at school.
Keywords: Item Response Theory、IRT、Student-Problem Chart、S-P、S-P-T、test item
attributes、multimedia English test questions
誌 謝
在交大兩年的生活終於接近尾聲,能順利完成學業,首先要感謝指導教授陳登吉老
師,在每個研究階段的瓶頸提供協助、建議和鼓勵,督促我一步步踏實往前走。陳老師
不僅在學術上給予我相當多的指導與鼓勵,在日常生活上也對我非常關心,常常會跟我
們聊天分享人生的經驗,也因此我的研究生生涯過的相當積極、充實。本論文亦在老師
不厭其煩的更正與協助下順利完成,在此向陳登吉老師致上無限的感激。
其次,感謝論文口試委員台灣師範大學何榮桂教授、台南大學孫光天教授、交通大
學葉義雄教授及班主任莊祚敏教授,謝謝你們細心指正論文謬誤及不妥之處,並提供修
正意見。
感謝賴阿福老師費心指導研究分析;感謝專班莊祚敏主任給予論文指導及建議;感
謝黃吉楠學長、劉奕樟學長的指導,並提供許多寶貴的意見,讓我的研究能順利完成;
感謝在生活上及課業上給予我協助的同學,尤其是實驗室同窗兩年的同學──明坤、掌
筆、靜芬、齡儀、芳華,謝謝你們。另外要感謝莊育源學長的費心幫忙,讓本研究的施
測得以順利進行。
研究所這兩年是我人生最忙碌且最充實的時光,在此我要特別感謝養育我、栽培我
的父母及我親愛的家人,因為有你們在背後的支持與鼓勵,使我得以專心完成論文無後
顧之憂,謝謝你們,有你們真好。
目 錄
中文摘要 ... I
英文摘要 ... III
誌 謝 ... V
目 錄 ... VI
表 目 錄 ... VIII
圖 目 錄 ... X
第一章 緒論 ... 1
1.1 研究背景與動機 ... 1
1.2 研究目的... 2
1.3 名詞解釋... 2
1.4 研究限制... 2
第二章 文獻探討 ... 3
2.1 試題反應理論 ... 3
2.1.1 試題特徵函數 ... 3
2.1.2 試題參數估計 ... 5
2.1.3 受試能力估計 ... 6
2.2 學生-問題分析理論(S-P Chart) ... 7
2.3 S-P-T 表分析理論 ... 10
2.3.1 試題分析 ... 11
2.3.2 思考敏捷度(nimbleness of thinking) ... 11
2.3.3 解題能力(problem-solving ability) ... 12
2.4 全民網路英檢初級檢定 ... 14
第三章 研究方法與設計 ... 16
3.1 研究架構... 16
3.2 研究對象... 18
3.2.1 試題樣本 ... 18
3.2.2 考生樣本 ... 18
3.2.3 線上施測系統需求 ... 19
3.3 研究工具... 20
3.4 資料分析及方法 ... 21
第四章 研究結果 ... 23
4.1 聽力測驗試題屬性相關分析及受測者表現 ... 23
4.1.1 聽力測驗學生表現之描述性統計 ... 23
4.1.2 聽力測驗試題屬性之相關分析 ... 26
4.1.3 聽力測驗受測者表現之相關分析 ... 28
4.2 閱讀測驗試題屬性相關分析及受測者表現 ... 38
4.2.1 閱讀測驗學生表現之描述性統計 ... 38
4.2.2 閱讀測驗試題屬性之相關分析 ... 40
4.2.3 閱讀測驗受測者表現之相關分析 ... 42
4.3 受測者表現之廻歸分析 ... 52
4.3.1 聽力測驗成績和閱讀測驗成績與英語段考成績之廻歸
分析 ... 52
4.3.2 聽力測驗成績和閱讀測驗成績與解題能力之廻歸分析
... 59
第五章 結論與未來展望 ... 65
5.1 結論... 65
5.2 未來展望與建議 ... 67
參考文獻 ... 68
附 錄 ... 70
附錄一:依段考成績分組名單 ... 70
A.受測者依段考成績分組表 ... 70
B.受測者依段考成績分組名單 ... 70
附錄二:試題屬性總表 ... 82
A.聽力測驗試題屬性總表 ... 82
B.閱讀測驗試題屬性總表 ... 83
附錄三:受測者表現總表 ... 85
A.聽力測驗受測者表現總表 ... 85
B.閱讀測驗受測者表現總表 ... 95
附錄四:聽力測驗及閱讀測驗試題屬性相關分析原表 ... 105
附錄五:聽力測驗及閱讀測驗受測者表現相關分析原表 ... 106
表 目 錄
表 1 全民網路英語能力檢定---各級綜合應用能力 ... 14
表 2 全民網路英語能力初級檢定---相對應分項能力指標 ... 15
表 3 全民網路英語能力初級檢定---試題類型 ... 15
表 4 全民網路英語能力初級檢定---成績通過標準 ... 15
表 5 施測時間、題型及題數... 18
表 6 聽力測驗學生表現之描述統計結果摘要表 ... 23
表 7 聽力測驗高分組學生表現之描述統計結果摘要表 ... 24
表 8 聽力測驗中分組學生表現之描述統計結果摘要表 ... 24
表 9 聽力測驗低分組學生表現之描述統計結果摘要表 ... 25
表 10 聽力測驗試題屬性 Pearson 積差相關 ... 26
表 11 聽力測驗受測者表現 Pearson 積差相關 ... 28
表 12 聽力測驗高分組受測者表現 Pearson 積差相關 ... 30
表 13 聽力測驗中分組受測者表現 Pearson 積差相關 ... 31
表 14 聽力測驗低分組受測者表現 Pearson 積差相關 ... 32
表 15 聽力測驗高、中、低三組受測者聽力成績與各變項的相關比較表 ... 32
表 16 答對聽力測驗第 5 題但得分不超過 30 分的學生名單 ... 34
表 17 答對聽力測驗第 20 題但得分不超過 30 分的學生名單 ... 35
表 18 答錯聽力測驗第 20 題但得分不低於 95 分的學生名單 ... 36
表 19 答錯聽力測驗第 28 題但得分不低於 95 分的學生名單 ... 37
表 20 閱讀測驗學生表現之描述統計結果摘要表 ... 38
表 21 閱讀測驗高分組學生表現之描述統計結果摘要表 ... 38
表 22 閱讀測驗中分組學生表現之描述統計結果摘要表 ... 39
表 23 閱讀測驗低分組學生表現之描述統計結果摘要表 ... 39
表 24 閱讀測驗試題屬性 Pearson 積差相關 ... 40
表 25 閱讀測驗受測者表現 Pearson 積差相關 ... 42
表 26 閱讀測驗高分組受測者表現 Pearson 積差相關 ... 44
表 27 閱讀測驗中分組受測者表現 Pearson 積差相關 ... 45
表 28 閱讀測驗低分組受測者表現 Pearson 積差相關 ... 46
表 29 閱讀測驗高、中、低三組學生閱讀成績與各變項的相關比較表 ... 46
表 30 答對閱讀測驗第 7 題但得分不超過 22.5 分的學生名單 ... 48
表 31 答對閱讀測驗第 39 題但得分不超過 20 分的學生名單 ... 49
表 32 答錯閱讀測驗第 34 題但得分不低於 80 分的學生名單 ... 50
表 33 聽力成績與段考成績廻歸分析 ... 52
表 34 閱讀成績與段考成績廻歸分析 ... 53
表 35 聽力測驗高分組學生聽力成績與段考成績廻歸分析 ... 54
表 36 聽力測驗中分組學生聽力成績與段考成績廻歸分析 ... 54
表 37 聽力測驗低分組學生聽力成績與段考成績廻歸分析 ... 55
表 38 閱讀測驗高分組學生閱讀成績與段考成績廻歸分析 ... 56
表 39 閱讀測驗中分組學生閱讀成績與段考成績廻歸分析 ... 56
表 40 閱讀測驗低分組學生閱讀成績與段考成績迴歸分析 ... 57
表 41 聽力成績與解題能力廻歸分析 ... 59
表 42 閱讀成績與解題能力廻歸分析 ... 60
表 43 聽力測驗高分組學生聽力成績與解題能力廻歸分析 ... 60
表 44 聽力測驗中分組學生聽力成績與解題能力廻歸分析 ... 61
表 45 聽力測驗低分組學生聽力成績與解題能力廻歸分析 ... 62
表 46 閱讀測驗高分組學生閱讀成績與解題能力廻歸分析 ... 63
表 47 閱讀測驗中分組學生閱讀成績與解題能力廻歸分析 ... 63
表 48 閱讀測驗低分組學生閱讀成績與解題能力廻歸分析 ... 64
表 49 聽力測驗與閱讀測驗試題屬性 Pearson 積差相關比較表 ... 65
表 50 全體受測者的聽力成績及閱讀成績與各變項的相關比較表 ... 66
表 51 全體受測者的解題能力與各變項的相關比較表 ... 66
表 52 高、中、低三組受測者聽力成績及閱讀成績與各變項的相關比較表 ... 66
圖 目 錄
圖 1 單參數模式之 IIC 圖 ... 4
圖 2 雙參數模式之 IIC 圖 ... 4
圖 3 三參數模式之 IIC 圖 ... 5
圖 4 試題診斷分析圖 ... 9
圖 5 學生診斷分析圖 ... 10
圖 6 S-P-T 分析表範例 ... 13
圖 7 研究架構圖 ... 16
圖 8 施測照片 ... 19
圖 9 施測電腦畫面 ... 20
圖 10 智勝先師學習平台 ... 21
圖 11 學生聽力成績、英語段考成績及解題能力直方圖 ... 23
圖 12 聽力測驗高分組學生聽力成績、英語段考成績及解題能力直方圖 ... 24
圖 13 聽力測驗中分組學生聽力成績、英語段考成績及解題能力直方圖 ... 24
圖 14 聽力測驗低分組學生聽力成績、英語段考成績及解題能力直方圖 ... 25
圖 15 聽力測驗第 5 題題目畫面及 ICC.IIC 圖 ... 34
圖 16 聽力測驗第 20 題題目畫面及 ICC.IIC 圖 ... 35
圖 17 聽力測驗第 28 題題目畫面及 ICC.IIC 圖 ... 37
圖 18 學生閱讀成績、英語段考成單及解題能力直方圖 ... 38
圖 19 閱讀測驗高分組學生閱讀成績、英語段考成績及解題能力直方圖 ... 39
圖 20 閱讀測驗中分組學生閱讀成績、英語段考成績及解題能力直方圖 ... 39
圖 21 閱讀測驗低分組學生閱讀成績、英語段考成績及解題能力直方圖 ... 40
圖 22 閱讀測驗第 7 題題目畫面及 ICC.IIC 圖 ... 48
圖 23 閱讀測驗第 39 題題目畫面及 ICC.IIC 圖 ... 49
圖 24 閱讀測驗第 34 題題目畫面及 ICC.IIC 圖 ... 50
圖 25 聽力成績與段考成績之線性廻歸圖形 ... 52
圖 26 閱讀成績與段考成績之線性廻歸圖形 ... 53
圖 27 高分組學生聽力成績與段考成績之線性廻歸圖形 ... 54
圖 28 中分組學生聽力成績與段考成績之線性廻歸圖形 ... 55
圖 29 低分組學生聽力成績與段考成績之線性廻歸圖形 ... 55
圖 30 高分組學生閱讀成績與段考成績之線性廻歸分析 ... 56
圖 31 中分組學生閱讀成績與段考成績之線性廻歸圖形 ... 56
圖 32 低分組學生閱讀成績與段考成績之線性廻歸圖形 ... 57
圖 33 聽力成績與解題能力之線性廻歸圖形 ... 59
圖 34 閱讀成績與解題能力之線性廻歸圖形 ... 60
圖 35 高分組學生聽力成績與解題能力之線性廻歸圖形 ... 61
圖 36 中分組學生聽力成績與解題能力之線性廻歸圖形 ... 61
圖 37 低分組學生聽力成績與解題能力之線性廻歸圖形 ... 62
圖 38 高分組學生閱讀成績與解題能力之線性廻歸圖形 ... 63
圖 39 中分組學生閱讀成績與解題能力之線性廻歸圖形 ... 63
圖 40 低分組學生閱讀成績與解題能力之線性廻歸圖形 ... 64
第一章 緒論
本章共分四小節,主要闡述研究背景與動機、研究目的、相關名詞解釋及研
究限制。
1.1 研究背景與動機
隨著資訊科技與網際網路的快速發展,有不少正式和非正式測驗或檢定已漸
漸改為電腦化,受測者於測驗後可以立刻得到測驗成績,這樣的測驗不但可以減
少紙張的浪費而達到環保的效果,更可以節省人力物力,全民網路英檢(NETPAW)
就是一個例子。日前行政院人事行政局已審查並核准全民網路英檢納入公務人員
英檢加分種類,可見全民網路英檢受重視的程度。在全民網路英語文能力檢定中,
以 IRT 理論的鑑別度(a 值)、難易度(b 值)及猜測度(c 值)來分析受測者的能力與
試題的優劣。
1970 年代,日本學者佐藤隆博博士(Takahiro Sato)所創 S-P 表分析理論,
使用測驗試題的鑑別度、難易度、答對率及試題注意係數來分析試題,並且以受
測者的答對率及學生注意係數來分析受測者的表現。企圖透過對學生作答反應組
型資料的分析,求出注意係數值的大小,以辨別異常的反應組型資料,並從中獲
得有用的診斷訊息,提供教師作為補救教學與改進教學的參考。
(余民寧,民 86)
在[1,2]中所探討的網路多媒體評量與學習診斷系統建置,其系統的特色是
在 S-P 分析表中加入學生每題的答題時間因素──S-P-T 分析表,計算出學生的
思考敏捷度,並以試題的難易度及鑑別度計算出解題能力,更能診斷學生作答情
況,並作為修正試題的參考。
如果同時以試題反應理論(IRT)和學生-問題分析理論(S-P Chart)來分析多
媒體英語文試題的屬性及受測者表現,是否可以更準確的得知試題的優劣及受測
者的成績表現?而以 IRT 理論分析的鑑別度(a 值)、難易度(b 值)及猜測度(c 值)
是否與 S-P 表分析的鑑別度、難易度、答對率及試題注意係數存在什麼樣的關係
呢?受測者的成績表現是否與 S-P-T 表分析理論的解題能力、思考敏捷度、學生
注意係數存在某種關係呢?受測者的成績表現是否與學校英語段考成績表現及解
題能力存在某種關係呢?這些都是本文想探討的問題。
1.2 研究目的
本研究的目的有四:
一、探討 IRT 理論的鑑別度(a 值)、難易度(b 值)及猜測度(c 值)與 S-P 表分析的
鑑別度、難易度、答對率、試題注意係數及平均答題時間的相關性。
二、探討受測者的成績表現與 S-P-T 表分析理論的解題能力、思考敏捷度、學生
注意係數的相關性。
三、探討受測者的聽力及閱讀成績表現與學校英語段考成績表現的廻歸關係。
四、探討受測者的聽力及閱讀成績表現與解題能力的廻歸關係。
1.3 名詞解釋
一、IRT 理論:
試題反應理論(Item Response Theory,IRT),是現代測驗理論的核心,
由 Lord 於 1980 年提出,是以機率來解釋考生能力與試題反應間的關係。
二、S-P 表分析理論:
學生-問題分析理論(Student-Problem Chart),由日本學者佐藤隆博博
士(Takahiro Sato)於 1970 年代所創,目的在於獲得每位學生的學習診斷
資料,以提供教師實施有效的補救教學及改進教學之參考。
1.4 研究限制
由於學校資源、時間及人力上因素的考量,本研究僅以台北市某國中八年級
全部學生共 392 位學生為研究對象,且假設受測學生均有操作電腦的基本能力,
測驗試題取自全民網路英檢初級檢定的部分試題,因為樣本的侷限性,故推論上
也有所限制。
第二章 文獻探討
基於本研究欲探討的問題,應對先前相關研究有所了解,因此,本章分別就
試題反應理論(IRT)、學生-問題分析理論(S-P Chart)、S-P-T 表分析理論、全民
網路英檢初級檢定等四單元的相關研究做探討。
2.1 試題反應理論
試題反應理論(IRT) 是由 Lord[3] 於 1980 年提出,是以機率來解釋考生能
力與試題反應間的關係;亦即以一數學模式,推估受試者的能力或潛在特質,此
數 學 模 式 稱 為 試 題 特 徵 函 數 (Item Characteristic Function, ICF) 余 民 寧 [4]
認為 IRT 建立於兩個基本概念上: (1) 考生在某一試題上的表現情形,可由一
組因素來加以預測或解釋,這組因素叫作潛在特質或能力(ability);(2) 考生的
表現情形與潛在特質間的關係,可透過一條連續性遞增的曲線來加以解釋,這個
曲線便叫作試題特徵曲線(Item Characteristic Curve, ICC)。
2.1.1 試題特徵函數
IRT 以 ICC 表達受試者能力和測驗反應間之關係,因函數中所採用的參數
個數不同,通常被分成單參數、雙參數以及三參數等三種模式。茲將各模式簡述
如下:
1. 難度參數又稱單參數模式
) ( 11
1
)
(
i b ie
P
− −+
=
θθ
i
=
1
,
2
,....
n
公式 2.1
•
P
i(θ)
表示任何一位能力為 θ的考生答對試題
i
或在試題
i
上正確
反應的機率
•
b
i表示試題難度(
difficulty
)參數
•
n
是該測驗的試題總數
•
e
代表以底為 2.718 的指數
•
P
i(θ)
是一種 S 形曲線,其值介於 0 與 1 之間。
圖 1 單參數模式之 IIC 圖
說明 : 根據公式 2.1 的定義,試題難度參數(
b
)正好落在正確反應機率為
0.5 時的能力量尺上的點(即能力值);即當能力值和試題難度相等時(
θ-b
i=0),
考生答對該試題的機率只有 50%。由此可知圖 1 中試題 3 的難度為-1,試題 4 的
難度為 0,試題 1 的難度為 1,試題 2 的難度為 2,曲線愈往右試題愈難。
2. 鑑別力參數又稱雙參數模式
) (1
1
)
(
i i b a ie
P
− −+
=
θθ
i
=
1
,
2
,....
n
公式 2.2
比公式 2.1 多了一個參數:試題鑑別度(item discrimination)
a
i,用來
描述試題
i
所具有的鑑別力。
比例。
a
值愈大,代表試題特徵曲線愈陡,試題愈有良好的鑑別度;故由圖 2 中
可看出試題 1,3,4 的鑑別度相似, 且比試題 2 高。
3. 猜測參數又稱三參數模式
) (1
1
)
1
(
)
(
i i b a i i ie
C
C
P
− −+
−
+
=
θθ
i
=
1
,
2
,....
n
公式 2.3
猜測參數(pseudo-chance parameter)
C
i。這個參數提供試題特徵曲線一
個大於零的下限,它代表著能力很低的考生答對某試題的機率。
圖 3 三參數模式之 IIC 圖說明 :參數 C 表示能力值很低的考生答對試題的機率,即猜測率。由圖 3 可
知,試題 1,2,4 當考生能力值低至-1,-2,-3 時,答對機率為 0,故可謂無猜測度。
2.1.2 試題參數估計
IRT 以試題為測量受試能力的基本單位,並以試題參數來描述試題的特質。
認為試題參數資料配合受試反應組型之函數運算後,即可估計出受試者之能力,
亦即試題參數估計之準確性,會直接影響受試能力估計。
引用劉長萱[5]所提試題參數之建立通常是先經傳統施測過程,收集受試者
的反應組型,再進行試題參數的推估。倘若受試者的能力值為已知時,可使用最
大 概 似 估 計 法 (maximum likelihood estimation; MLE)、 貝 氏 估 計 法 (Bayesian
parameter estimation)直接估計試題的
a
,
b
,
c
參數;當受試能力和試題參數
皆 未 知 的 情 況 時 , 則 可 使 用 聯 合 最 大 概 似 估 計 (joint maximum likelihood
estimation ; JMLE) 、 邊 際 最 大 概 似 估 計 (marginal maximum likelihood
estimation ; MMLE) 、 最 大 後 驗 估 計 (Bayesian modal or maximum a
posterioriestimation ; MAP) 、 期 望 後 驗 估 計 (Bayesian mean or expected
aposteriori estimation ; EAP) 等 方 法 , 對 試 題 和 能 力 參 數 進 行 同 時 推 估
(Hambleton & Swaminathan[6])。
目前已有許多軟體提供試題參數估計的程式,大多數的測驗編製者也使用它
們來進行試題分析和參數估計。這些軟體是由不同的學者所發展,所採用的參數
估 計 方 法 也 略 有 差 異 , 例 如 常 用 的 電 腦 程 式 , MicroCAT 所 發 展 的 估 計 軟 體
X-Calibrate 則使用貝氏估計法,另一估計軟體BILOG 則採用MLE、MAP、EAP。
2.1.3 受試能力估計
訊息函數(information function)在電腦適性測驗中,扮演一個重要的角
色,在測驗進行中,藉由試題訊息函數,挑選適合於受測者的試題,可求得最大
測驗訊息,使其能力估計的標準誤為最小,達到提高受測者能力估計的精確度,
並且能提高測驗的效率。
試題訊息函數可以應用到前面所談到的單參數、雙參數、三參數對數形試題
反應模式,這些模式都適合用於二元計分(dichotomously scored)的測驗資料。
例如,以三個參數對數形模式為例,公式為:[3]
2 ) ( ) ( 2]
1
][
[
)
1
(
)
(
i i i i b a b a j j i ie
e
C
C
a
L
− − −+
+
−
=
θ θθ
從此公式裡,很容易便可推知
a
,
b
,和
c
參數在試題訊息函數中所扮演的角
色:(1)當
b
值愈接近θ時,訊息量較大;(2)當
a
參數較高時,訊息量也會較大;
(3)當
c
參數接近 0 時,訊息量則會增加。
試題訊息函數能表示出試題對能力估計的正確性,而正確性的大小端受兩個
主要因素的決定:一為試題的鑑別度參數大小,亦即
a
值愈大,試題特徵曲線即
愈陡,
P
i(θ)的斜率愈大,所以訊息量愈高;另一為試題的難度參數,它的位置
會決定訊息量的高低。Birnbaum[7]指出,某個試題所提供的最大訊息量,剛好出
現在能力參數為θ
max的點上,θ
max的值為:
如果猜測機率為最小時(亦即,當
C
i=0 時),則θ
max=
b
i。一般而言,當
C
i>0
時,某個試題在能力水準比其難度值稍高的位置上,所提供的訊息量會達到最大。
訊息量愈大,能力估計標準誤就愈小;當信賴區間愈小,能力的估計即愈精確。
2.2 學生-問題分析理論(S-P Chart)
S-P 表(S-P Score Table 或 S-P Chart)分析技術,是由日本學者佐藤隆博博
士(Takahiro Sato)於 1970 年代所創(Sato, 1969, 1971),它是一種將學生在試
題上的作答反應情形予以「圖形化」分析的方法,其目的在於獲得每位學生的學
習診斷資料,以提供教師實施有效的學習輔導之參考。在日本的中、小學學校裡,
S-P 表的使用頗受重視,並且廣為流行。
S-P 表分析是依學生在測驗試題上的作答「反應組型」(response pattern),
嘗試以此做為診斷或判讀該反應組型是否為不尋常(unusual)或異常(aberrent)
的一種測驗分析方法,一種屬於不對母群體特性設定任何假設值的統計推論方法
--無母數統計方法(nonparametric method)。
所謂的 S-P 表分析,即是在分析每位學生及每個試題的作答反應組型的注意
係數,以及整份測驗的差異係數和同質性係數。這些指標都是用來協助教師診斷
學生表現、測驗品質及教學成果的有效工具,以作為改進教學、命題與輔導學生
之參考。
差異係數是指依據學生作答反應資料分析得到的 S-P 表(學生人數為 N,試題
數為 n,且平均答對率為 p )中,S 和 P 兩曲線之分離面積,佔隨機情況下之 S-P
曲線所圍成部份之面積期望值的比值,通常以 D*符號來表示。原來的統計公式難
以計算,佐藤隆博博士於是提出下列的公式來取代它:
)
(
)
1
(
4
*
M
D
p
p
Nn
C
D
B−
=
所謂的注意係數,即是指 S-P 表資料中的實際反應組型與完美反應組型間的
差異,佔完美反應組型之最大差異的一種比值(Sato,1975)。它的數學涵義可以下
列公式來表示:
⎥
⎦
⎤
⎢
⎣
⎡
⎥
⎦
⎤
⎢
⎣
⎡
⎥
⎦
⎤
⎢
⎣
⎡
⎥
⎦
⎤
⎢
⎣
⎡
=
準變量之共變數
隨機反應組型與基
變量之共變數
完美反應與基準
準變量之共變數
實際反應組型與基
變量之共變數
完美反應與基準
注意係數
(資料來源:余民寧所著教育測驗與評量,民國九十年)
注意係數的值通常都是介於 0 與 1 之間,注意係數值也有可能大於 1 之情形
發生,注意係數值愈大,即表示反應組型愈為異常;反之,注意係數值愈小,則
表示反應組型為比較正常,老師比較不需要注意。
學生注意係數
CS ,其定義如下:
i[ ]
[ ]
⎥
⎦
⎤
⎢
⎣
⎡
×
⎥
⎦
⎤
⎢
⎣
⎡
−
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎣
⎡
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎣
⎡
−
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎣
⎡
=
答對人數
試題之均
之總分
學生
對人數之和
左方個試題之答
曲線
在
學生
答對人數之和
的試題之
右方答
曲線
對應於
學生
答對人數之和
的試題之
左方答
曲線
對應於
學生
i
S
i
1
S
i
0
S
i
iCS
(資料來源:余民寧所著教育測驗與評量,民國九十年)
試題注意係數
CP ,其定義如下:
j[ ]
[ ]
j
j
P
0
1
j P
j
jP
CP
⎡
⎤ ⎡
⎤
−
⎢
⎥ ⎢
⎥
⎣
⎦ ⎣
⎦
=
⎡
⎤ ⎡
⎤ ⎡
⎤
−
×
⎢
⎥ ⎢
⎥ ⎢
⎥
⎣
⎦ ⎣
⎦ ⎣
⎦
試題 對應於 曲線上方
試題 對應於 曲線下方
答
的學生總分之和
答
的學生總分之和
試題 在 曲線上方
試題 之
學生之
各學生總分之和
答對人數
平均得分
(資料來源:余民寧所著教育測驗與評量,民國九十年)
S-P 表依據分析分別求出試題注意係數與答對率後,根據所提供的數據給予
學生判定類別,我們可以試題注意係數為橫軸,以答對試題的學生人數百分比(即
答對率)為縱軸,將學生學習上分成四個區塊,如圖 4 所示,即是試題診斷分析圖;
我們將借助它來說明如何利用測驗分析的訊息,幫助教師診斷試題。
圖 4 試題診斷分析圖
(資料來源:余民寧所著教育測驗與評量,民國九十年)
至於試題判定的類別,是以學生的注意係數為橫軸,以學生得分之百分比為
縱軸,座標圖即是學生診斷分析圖,如圖 5 所示。我們將借助它來說明如何利用
測驗分析的結果,幫助診斷學生的學習狀況及學習類型[8]。
A
試題相當適
當,可以用作區
別低成就者與
A’
試題恐含有異
質成份在內,需
要局部修正,或
試題中含有拙
劣的選項
100%
50%
答對試題的學生人
數
百分
試題注意係數
B
試題困難度
高,適合用作區
別高成就者的
B’
試題極為拙
劣,含有相當異
質成份在內,可
能資料登錄錯
誤或題意含糊
不清,必須加以
修改
0
0.5
1.0
圖 5 學生診斷分析圖
(資料來源:余民寧所著教育測驗與評量,民國九十年)
2.3 S-P-T 表分析理論
在[1,2]中所探討的網路多媒體評量與學習診斷系統建置,其系統特色是在
S-P 分析表中加入學生每題的答題時間因素──S-P-T 分析表,計算出學生的思考
敏捷度,並以試題的難易度及鑑別度計算出解題能力,更能診斷學生作答情況,
並作為修正試題的參考。
佐藤隆博(Takahiro Sato)博士的 S-P 分析表,是以全班對每一試題的答案
為分析唯一因素,這個系統除了以答案為分析因素外,更加入學生每題答題的時
間、試題的難度、試題的鑑別度等因素,來增強診斷的效度。
A
學習良好
穩定性高
A’
粗心大意,不細
心造成錯誤
B
學習尚稱穩
定,需要再用功
一點
B’
偶爾粗心,準備
不充分,需要再
努力
100%
75%
0
1.0
學
生
得
分
百
分
比
學生注意係數
C
學力不足,學習
不夠充分,需要
更加努力用功
C’
學習極不穩定,具
有隨興的讀書習
慣,對考試內容沒
有充分準備
50%
題時間,修正試題的作答時間。
而在學生診斷方面,舊有的
S-P 表分析系統,答案是診斷學生的唯一因素,
本系統加入作者新定義的學生思考敏捷度與解題能力兩個變項,加強診斷學生的
有效性。有關試題分析、思考敏捷度及解題能力重述如下(詳見[1]):
2.3.1 試題分析
試題的難度指標(P
i)是高分組群對試題的答對率與低分組群對試題的答對率
之和的平均值[3]
P
i=(P
iH+ P
iL)/2
P
iH=R
iH/N
iH, P
iL=R
iL/N
iLR
iH,R
iL分別表示高分組和低分組在第 i 個試題上的答對人數。
N
iH,N
iL分別表示高分組和低分組學生的總人數。
P
iH,P
iL分別表示高分組和低分組在第 i 個試題上的答對人數百分比值。
試題的鑑別度(D
i)是高分組群對試題的答對率與低分組群對試題的答對率之
差。
D
i= P
iH– P
iL2.3.2 思考敏捷度
(nimbleness of thinking)
利用網路線上測驗,收集學生每個題目作答的時間,利用統計的方法分
析,並計算出它的數值大小,以了解學生作答時,對於問題推理思考的快慢
程度。其定義如下:
設某一試題 j 全體受試者花費最長的時間為 Tmax(j),花費最少時間為
Tmin(j) , 將 其 最 大 差 距 Tmax(j)-Tmin(j) 區 分 為 五 等 分 當 作 單 位 權 重 值
Wun(j),其值將介於-0.5 到 0.5 之間。所以
Wun(j)=(Tmax(j)-Tmin(j))/5
某受試者 i 對於某一試題 j 的敏捷度權重值 W( i ,j ) 為該試題全體
受 試 者 平 均 作 答 時 間 Tavg(j)與 該 試 題 該 受 試 者 的 作 答 時 間 Tlen(i,j)之
差,再除以單位權重值。即
W( i ,j ) = (Tavg(j) - Tlen(i,j))/Wun(j)
某受試者 i 於某次測驗 N 個試題,其所有試題敏捷度權重值之和,與該次
測驗 N 個試題乘以最大單位權重值 5 的比值加上 0.5,我們稱之為某受試者 i
的思考敏捷度 Nim(i)。加上 0.5 是為了使其值介於 0 與 1 之間。
5
.
0
5
*
)
,
(
)
(
1
1
~
0
+
=
∑
=
N
j
i
W
i
Nim
N
j
2.3.3 解題能力(problem-solving ability)
能答對難度高且鑑別度高的試題的學生,他的能力應該是比較強的,試
題的難易度與鑑別度,是影響學生作答的重要因素,利用傳統測驗分析理論,
分別計算出試題的難度與鑑別度,以權重值的方法,定義出解題能力的量化
值。解題能力的定義如下:
設某試題 j 假設試題難度為 P(j),因為難度值愈大題目愈容易,所以
取其補數值 1-P(j),再乘以 5 當作難度權重值 Wp(j) ,使難度權重值的範圍
介於 1 至 5 之間。即
Wp(j)=(1-P(j))*5
同理,對於某試題 j 假設試題鑑別度為 D(j),鑑別度權重值為 Wd(j),
則
Wd(j)=D(j)*5
對於某一試題 j 的解題能力權重值 Ws(j),為該試題難度權重值 Wp(j)
與鑑別度權重值 Wd(j)之和。即
某受試者 i 於某次測驗 N 個試題中答對試題 Right(j)的 Ws(j)之和,除
以該次測驗 N 個題試題乘以最大權重值5之 2 倍,我們稱之為某受試者 i 的
解題能力 Sol(i)。
2
*
5
*
)
(
*
)
(
)
(
1
1
~
0
N
j
Right
j
Ws
i
Sol
N
j
∑
=
=
圖 6 S-P-T 分析表範例 座號 姓名 38 11 7 35 36 26 34 13 3 39 10 12 1 31 40 30 19 8 17 27 15 14 22 37 24 23 4 32 21 29 25 16 18 33 9 2 6 20 28 5 總分 學生 答對率 學生注 意係數 判定 類別 解題 能力 思考 敏捷度 7 林羿萱 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 39 0.98 0.23 A 0.43 0.55 35 鐘士傑 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 37 0.92 0.08 A 0.41 0.53 34 雷鵬融 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 37 0.92 0.51 A' 0.42 0.53 5 林廷容 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 0 1 1 37 0.92 0.68 A' 0.41 0.53 15 吳昕穎 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 0 1 0 1 0 1 36 0.9 0.36 A 0.41 0.49 23 張博崴 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 0 1 0 1 0 35 0.88 0.44 A 0.39 0.44 13 賴逸寧 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 0 1 1 0 0 0 34 0.85 0.31 A 0.38 0.46 3 吳芷萱 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 0 1 1 1 0 1 0 1 1 0 0 1 34 0.85 0.43 A 0.39 0.50 22 李名凱 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 0 1 0 0 1 1 0 34 0.85 0.44 A 0.37 0.51 21 李大尉 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 0 1 0 0 1 1 0 0 0 33 0.82 0.24 A 0.37 0.48 14 陳鈺婷 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 0 0 1 0 0 0 1 33 0.82 0.25 A 0.38 0.55 16 林品均 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 1 1 1 0 0 0 0 33 0.82 0.28 A 0.37 0.47 29 曾仲哲 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 0 0 1 0 1 1 1 1 1 0 0 0 1 33 0.82 0.44 A 0.38 0.55 10 陳逸芸 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 0 1 1 1 1 0 1 1 1 1 1 1 1 0 1 0 0 0 0 32 0.8 0.29 A 0.36 0.51 6 林佳儀 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 0 1 1 1 1 1 0 0 1 1 1 1 0 1 0 1 0 0 32 0.8 0.4 A 0.36 0.45 8 陳佳慧 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 1 0 1 0 0 0 0 0 31 0.78 0.07 A 0.33 0.45 27 陳柏翰 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1 0 0 0 1 1 1 0 1 0 0 31 0.78 0.38 A 0.33 0.48 1 田?君 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 0 1 1 1 1 1 1 1 0 0 1 0 0 1 1 0 1 1 0 0 31 0.78 0.42 A 0.33 0.40 12 黃品潔 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 0 1 1 0 0 1 1 0 0 0 0 0 1 0 30 0.75 0.24 A 0.32 0.43 11 陳筠雅 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 1 0 30 0.75 0.26 A 0.32 0.47 24 張皓勛 1 1 1 1 0 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 1 1 0 0 1 0 0 0 1 0 0 0 26 0.65 0.32 B 0.28 0.41 32 葉哲宏 1 1 1 1 1 1 1 1 1 0 1 1 0 1 0 1 1 1 1 0 0 1 0 1 1 0 0 0 1 1 1 0 0 1 0 0 0 1 0 1 25 0.62 0.57 B' 0.27 0.30 26 陳俊宇 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 0 1 1 0 0 1 0 1 0 0 0 1 0 1 1 0 0 0 1 1 0 0 1 0 0 23 0.57 0.45 B 0.22 0.49 30 黃鵬志 1 1 0 0 1 1 1 1 1 1 0 1 1 0 1 0 0 1 1 0 1 0 0 1 0 1 1 0 1 1 0 1 0 0 1 0 1 1 0 0 23 0.57 0.69 B' 0.22 0.37 28 陳晏群 1 1 1 1 1 0 1 1 1 0 1 0 1 0 0 1 0 1 1 0 0 1 1 0 0 1 1 1 1 0 0 0 1 1 1 0 0 0 0 0 22 0.55 0.46 B 0.22 0.58 31 葉柏廷 1 1 1 1 1 0 1 1 0 0 0 0 1 0 0 1 1 0 1 1 0 0 1 1 1 0 0 1 1 0 0 0 1 0 1 0 1 1 1 0 22 0.55 0.87 B' 0.21 0.40 9 陳彥汝 1 1 1 1 0 1 0 0 1 1 0 0 1 1 1 0 0 0 0 1 1 1 0 0 0 0 0 1 1 0 0 1 0 0 1 0 0 0 0 0 17 0.42 0.48 C 0.16 0.38 4 卓欣儀 1 0 0 1 1 1 1 1 0 0 1 0 1 1 1 0 0 0 0 0 0 1 0 0 0 0 0 1 1 0 0 1 0 0 0 0 1 0 1 0 16 0.4 0.73 C' 0.15 0.48 2 吳羽絃 1 1 1 0 0 1 0 0 0 1 1 1 0 1 0 0 0 0 0 0 0 0 1 0 0 1 0 1 0 0 1 0 0 0 0 0 1 1 0 0 14 0.35 0.79 C' 0.14 0.47 33 董祥聖 1 1 0 1 1 0 0 1 1 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 1 1 1 14 0.35 0.99 C' 0.12 0.63 25 郭昱昇 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 1 0 0 0 0 0 1 0 1 0 1 1 0 0 0 0 0 1 0 0 10 0.25 1.04 C' 0.09 0.59 30 29 28 28 28 27 27 27 26 25 25 25 25 24 24 24 24 24 24 23 23 23 23 23 22 22 22 21 21 20 19 19 18 17 16 14 13 12 10 9 884 1.0 0.9 0.9 0.9 0.9 0.9 0.9 0.9 0.8 0.8 0.8 0.8 0.8 0.8 0.8 0.8 0.8 0.8 0.8 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.6 0.6 0.6 0.6 0.5 0.5 0.4 0.4 0.3 0.3 0.0 0.1 0.3 0.2 0.4 0.2 0.0 0.4 0.4 0.3 0.2 0.1 0.5 0.4 0.5 0.0 0.3 0.1 0.1 0.5 0.4 0.3 0.4 0.1 0.0 0.3 0.4 0.7 1.3 0.3 0.5 0.6 0.5 0.3 0.7 0.1 0.9 1.6 0.9 0.5 0.9 0.8 0.8 0.8 0.8 0.7 0.7 0.7 0.7 0.7 0.7 0.6 0.7 0.6 0.7 0.6 0.6 0.6 0.6 0.7 0.7 0.6 0.6 0.6 0.6 0.6 0.7 0.7 0.6 0.6 0.6 0.6 0.5 0.5 0.5 0.4 0.5 0.4 0.4 0.3 0.3 0.4 0.5 0.5 0.4 0.6 0.6 0.4 0.5 0.6 0.6 0.7 0.3 0.7 0.6 0.8 0.6 0.7 0.7 0.6 0.6 0.7 0.6 0.8 0.9 0.6 0.6 0.5 ### 0.8 0.8 0.6 0.5 0.6 0.1 0.8 0.3-0.40.2 0.5 A A A A A A A A A A A A A' A A' A A A A A' A A A A A A A A' A' A A A' A' A A' B B' B' B' B' 平均得分 28.52 平均答對人數 學生---問題分析表 22.1 學生總數 31 問題總數 40 804 試題號碼 答對人數 試題答對率 試題注意係 1.216 難易度 鑑別度 判定類別 KR-20係數 0.908 差異係數DC*
2.4 全民網路英檢初級檢定
電腦多媒體在今日英語學習環境裡已扮演極為重要的角色。檢測各語文能力
的試題應該包括視訊、影像、歌曲、及動畫等多媒體,因為多媒體為人們日常溝
通的方式。而且有些受試者對於紙筆測驗的語意解讀能力較差,以文字模式為基
準的試題較不利於他們。因此,
「全民網路英語能力檢定」採用較合乎現代生活的
多媒體測驗試題。檢測能力包括聽、說、讀、寫四種,第一階段檢測包括聽力與
閱讀能力的檢測。第二階段包括口說與書寫能力的檢測。
「全民網路英語能力檢定」
採分級測驗,各級有明確的能力指標,包括綜合應用能力與分項能力指標。[9]
表 1 全民網路英語能力檢定---各級綜合應用能力級數
入門級
基礎級
初級
中級
中高級
英語綜合應用能
力
通 過 入 門 級 英
檢 者 , 英 語 能
力 相 當 於 國 小
中 高 年 級 , 能
聽 、 說 及 朗 讀
簡 單 句 子 及 對
話。
通 過 基 礎 級 英
檢 者 , 英 語 能
力 相 當 於 國 小
畢 業 至 國 中
一 、 二 年 級 ,
能 理 解 和 應 用
很 簡 易 的 日 常
用語。
通 過 初 級 英 檢
者 , 英 語 能 力
相 當 於 國 中 畢
業 至 高 中 , 能
理 解 和 應 用 簡
單日常用語。
通 過 中 級 英 檢
者 英 語 能 力 相
當 於 高 中 畢 業
至 大 學 , 能 理
解 和 使 用 英 語
進 行 日 常 生 活
溝通。
通 過 中 高 級 英
檢 者 英 語 能 力
相 當 於 大 學 非
英 語 主 修 科 系
畢 業 , 能 應 用
英 語 進 行 更 寬
廣 領 域 的 溝
通。
下列人員宜具有該級英語能力
各
行
各業適用對象
各 行 各 業 正 積
極 提 振 英 語 能
力 的 所 有 從 業
人 員 、 學 員 、
及學生。
百 貨 業 、 餐 飲
業 、 旅 館 業 或
觀 光 景 點 的 助
理 服 務 人 員 、
計 程 車 司 機 、
公車司機等。
維 修 人 員 、 行
政 助 理 、 百 貨
業 、 餐 飲 業 、
旅 館 業 或 觀 光
景 點 服 務 人 員
等。
業 務 、 技 術 、
行 政 、 銷 售 人
員 、 護 理 人
員 、 旅 館 接 待
人 員 、 飯 店 服
務 人 員 、 總 機
人 員 、 警 政 人
員 、 旅 遊 從 業
人員等。
航 空 機 師 、 航
管 人 員 、 海 關
人 員 、 導 遊 、
外 事 警 政 人
員 、 新 聞 從 業
人 員 、 商 務 、
企 劃 人 員 、 秘
書 、 工 程 師 、
研 究 助 理 、 空
表 2 全民網路英語能力初級檢定---相對應分項能力指標
檢測
能力
聽
說
讀
寫
分項能
力
指標
能 聽 懂 一 般 的 句
子 及 對 話 。 例
如 : 能 聽 懂 問 候
語 、 價 格 、 及 時
間等。
能 複 誦 一 般 的 句
子 、 朗 讀 簡 易 文
章 、 及 回 答 簡 短
對 話 。 例 如 : 能
於 購 物 及 問 路
時,進行對答。
能 看 懂 常 用 的 標
示 ; 以 及 讀 懂 簡
易 英 語 對 話 及 短
文 。 例 如 : 能 讀
懂 簡 易 路 標 、 菜
單 、 及 短 篇 故 事
等。
能 寫 簡 易 的 句
子 、 對 話 、 及 短
文 。 例 如 : 能 填
簡 易 表 格 、 寫 簡
短 賀 詞 、 及 撰 寫
簡短遊記。
表 3 全民網路英語能力初級檢定---試題類型初 試
複 試
測
驗
項
目
聽力測驗
閱讀能力測驗 寫作能力測驗 口說能力測驗
題
數
40
40
11
16
作 答 時 間 ( 分 鐘 )
35
35
40
20
測
驗
內
容
看圖辨義
問答
簡短對話
詞彙和句法
段落填空
閱讀理解
單句寫作
短文寫作
複誦
朗 讀 句 子 與 短
文
回答問題
表 4 全民網路英語能力初級檢定---成績通過標準級數
初 試
通過標準/滿分
複 試
通過標準/滿分
初級
閱讀能力測驗
聽力能力測驗
70/100 分
70/100 分
寫作能力測驗
口說能力測驗
75/100 分
75/100 分
第三章 研究方法與設計
本 研 究 主 要 目 的 是 以 試 題 反 應理 論(IRT)和學生-問題分析理論(
S-P Chart
)
來探討多媒體英語文試題的屬性及受測者表現,研究方法及設計如本章所述。本
章共分四節,主要闡述研究架構、研究對象、研究工具、資料分析及方法。
3.1 研究架構
線 上 施 測
從全民網路英檢(NETPAW)初級檢定的試題中,
挑選聽力測驗40題、閱讀測驗40題進行施測
施測完後,系統會計算出測驗後試 題的鑑別度(a值)、難易度(b值)、 猜測度(c值)、答題時間 將學生的答題記錄及答題時間輸入S-P-T表 分析器,得到(1)試題的鑑別度、難易度、 答對率、試題注意係數;(2)學生的答對率、 解題能力、思考敏捷度、學生注意係數分析試題屬性
分析受測者表現
Pearson積差相關
描述性統計分析
Pearson積差相關
廻歸分析
一、試題屬性分析
施測完後得到每一題試題的屬性,藉由Pearson積差相關分析來探討IRT理論
的鑑別度(a值)、難易度(b值)及猜測度(c值)與S-P表分析的鑑別度、難易度、答
對率、試題注意係數及平均答題時間的相關性。
二、受測者表現分析
1.描述性統計分析:
(1)分析聽力測驗成績、閱讀測驗成績、英語段考成績及解題能力的平均數、
標準差、直方圖。
(2)依英語段考成績分高、中、低三組(詳見附錄一),再作一次描述性統計分
析,探討各組間的差異。
2.Pearson積差相關:
(1)探討英語段考成績、聽力測驗成績、閱讀測驗成績、總成績、解題能力、
思考敏捷度、平均作答時間、學生注意係數的相關性。
(2)依英語段考成績分高、中、低三組,再作一次Pearson積差相關分析,探
討各組間相關性的差異。
3.廻歸分析:
(1)探討聽力成績、閱讀成績對英語段考成績的廻歸分析。
(2)探討聽力成績、閱讀成績對 SP 解題能力廻歸分析。
(3)依英語段考成績分高、中、低三組,再作一次廻歸分析,探討各組間廻歸
分析的差異。
3.2 研究對象
3.2.1 試題樣本
測驗試題選自全民網路英檢(NETPAW)初級檢定,請三位專家從聽力測驗及閱
讀測驗的題庫中各挑選 40 題,聽力能力測驗題型包括看圖辨義 8 題、問答 22 題、
簡短對話 10 題,閱讀能力測驗題型包括詞彙和句法 19 題、段落填空 10 題、閱讀
理解 11 題,測驗時間比照全民網路英檢(NETPAW)初級檢定各為 35 分鐘。
表 5 施測時間、題型及題數測驗項目
聽力能力測驗
閱讀能力測驗
題 數
40
40
作答時間(分鐘)
35
35
測驗題型
看圖辨義 8 題
問答 22 題
簡短對話 10 題
詞彙和句法 19 題
段落填空 10 題
閱讀理解 11 題
隨著資訊科技與網際網路的快速發展,有不少正式和非正式測驗或檢定已漸
漸改為電腦化,受測者於測驗後可以立刻得到測驗成績,這樣的測驗不但可以減
少紙張的浪費而達到環保的效果,更可以節省人力物力,全民網路英檢(NETPAW)
就是一個例子。日前行政院人事行政局已審查並核准全民網路英檢納入公務人員
英檢加分種類,可見全民網路英檢受重視的程度。在全民網路英語文能力檢定中,
以 IRT 理論的鑑別度(a 值)、難易度(b 值)及猜測度(c 值)來分析受測者的能力與
試題的優劣,目前試題累積的測驗人數足夠 IRT 的樣本使用。
3.2.2 考生樣本
考生樣本為研究者所任教之台北市某國中八年級全部學生共 392 人,由於施
測學校實施常態編班,教學正常化,並非所謂明星學校,學生英語程度較一般化。
施測地點為該校的電腦教室(36 台桌上型電腦)。為了讓學生重視此次的測驗,並
能認真作答,特地配合施測學校舉辦英語競賽,給予表現不錯的學生頒發獎狀及
獎品,以期學生能夠認真作答,增加本研究的效益。
圖 8 施測照片
3.2.3 線上施測系統需求
1、伺服器(Server)
(1)系統是 windows2000server+Apache2.0.50+PHP 4.3.8+ MySQL
4.0.20
(2)主機是 Pentium 4 3.0G CPU、1GB RAM、120GB HDD
2、學生電腦(Client)
(1)系統是 Windows XP professional(IE6.0)
(2)主機是 AMD K6-2800+(IE6.0)
3.3 研究工具
本研究所使用的研究工具包含多媒體英語能力檢定平台、網路多媒體測驗評
量與學習診斷系統。分述如下:
一、多媒體英語能力檢定平台[10]
圖 9 施測電腦畫面多媒體英語能力檢定平台結合適性化理論及網路技術,是一個多媒體英語文
能力檢定暨適性化網路評量的系統,其主要特色有:
(1) 符合聽、說、讀、寫能力檢測多媒體試題。
(2) 試題參數可隨不同樣本數作動態調整。
(3) 以即時視覺化圖形曲線表示試題特徵曲線(ICC&IIC) 。
(4) 以即時視覺化圖形曲線表現適性化施測流程與測驗訊息(TIC) 。
(5) 統整不同的 IRT 分析器進行適性測驗。
本研究是以多媒體英語能力檢定平台為測驗平台,測驗後系統會估算出每一
道試題的鑑別度(a 值)、難易度(b 值)及猜測度(c 值)。
二、網路多媒體測驗評量與學習診斷系統[1]
本系統目前已技術轉移給智勝國際股份有限公司,命名為智勝先師教學平
台,其特色是在 S-P 分析表中加入學生每題的答題時間因素──S-P-T 分析表,
計算出學生的思考敏捷度,並以試題的難易度及鑑別度計算出解題能力,更能診
斷學生作答情況,並作為修正試題的參考。
圖 10 智勝先師學習平台