國立臺灣師範大學教育心理與輔導學系 教育心理學報 ·2012·44 卷. 2 期 ·207-228 頁
模糊統計在試題難度上的應用*
謝名娟
國家教育研究院 測量與評量研究中川、吳柏林
國立政治大學 應用數學系 試題難度評量一直是許多人研究的課題。但傳統方法的五點墨表問卷只提供固定尺度的選擇, 似乎無法完整地表達受測者其質且複雜的思考。因此本研究將以模糊統計的角度進行試題難度 的探討。過去許多研究應用筷糊平均敏、恢約l眾數或技糊l中位敏等概念於試題難度評益。而本 文將以此為基礎,定義一種新的距離,再透過一些轉換取得試題的難度指標,進而比較各試題 之間難度的差異。本研究的另一個重點,是各個不同難度因子的向度來決定各試題的雖度。再 以模糊相對權葷的概念,對各向度的難度指標作加槽,進而比較、分析。在此研究中,模糊難 度的數值,和 IRT 的難度 b 值與試題通過率 P II直之相關達到一定水準。代表此方法所得出的結 果,已有相當程度的驗證﹒ 關鍵詞:試題難度評量、模糊統計、模糊相對權重 在中國自陪唐聞科取士以來,歷經宋、元、明、清諸朝不斷的改進,此一科舉取才的考試制 度,雖然源自中國,但中國卻一直沒有針對「考試」這門學問進行比較科學化的量化分析。在綿 延數千年後,世界各國爭相採用,以作為文官制度的選拔依據,致使近代的心理計量學 (psychometrics) 的發展卻起源於外圈,西風東漸後,才傳入中國(余民箏, 2002) 。雖然古今中 外對於人才的進用大多數是採用考試的方式產生,而施測單位女日欲拔躍適合需求的人才,試題之 設計即更顯重要,因為一份良好的試卷,可讓符合需求且真正有能力者出現,一般大小考試試卷 的型態不乏選擇題、是非題、填空題、申論題、計算題等等題型,因此試題分析其優劣適當是有 其重要性的。 但試題難度的評宣尚無一致的標準,每當學測或基測過後,總是在新聞或報紙上看到補習班 老師在對今年的試題難度作評論,但這樣的評論的依據為何?靠的是補教老師個人的經驗?或有 其他任何科學化的標準?如果說一份題目很難,是難在什麼地方?是難在計算過程很繁瑣,還是 難在題目敘述太長太複雜?是想不出解題的策略,或是因為創新的命題方式讓題目變得很難?了 解學生覺得困難的部分,是身為一個教師亟欲探究的部分,一旦了解這點,不但對教師的教學有 幫助,對學生的診斷性學習更有正確的切入點。 •--'-文通訊作者謝名娟;通訊方式 hm7523@hotmai l.com•· 208 . 教育心理學報
大多數的評量中,試題的難度採用答對百分比法來表示難度。答對百分比法,即是計算全體
學生中,答對的比例 P 值有多少。 p 值越高,代表答對的人數越多,也就是題目簡單 , p 值的範圍
在 0-1 之間。例如,若是某題數學題目,全班學生有 70%
(P
=
0. 7)的學生答對,則此題比男一題只有的 %
(P
= 0.15) 學生答對的題目來的簡單。 P=0.5 左右為較適中的題目,在此難度下比較能夠分別不同程度的學生
(Anastasi
&
Urbi 悶, 199 7)。另外一種計算試題難度的方法為採用現代測驗理論(Item
Response Theory
,簡稱 IRT)來計算試題參鎖,在IRT 的系統下,難度 b 值的範圍為+∞到一∞之間,但大多統計軟體所估計下的b 值之範圍在-3 到+3 '一般來說 'b 值小於 O 為簡單的試題,而 b 值大於 2 則為困難的題目,簡單的題目代表程度低的學生就可以答對,而難 的題目則需程度高的學生才能夠答對'b 值在 O 左右的題目為難易適中的題目 (de
Ayala
,
2009
)。 模糊理論為一種新興的研究方法,而近幾年也應用在不同的教育領域中 (胡悅倫、陳校眉、吳柏 林,2006
;汪慧瑜,2005
;胡悅倫、吳柏林,2002)
,但多著重在心理量表的應用,並沒有任何相 關文獻探討如何將模糊理論應用在計算試題難度上。因此,本研究想要應用模糊統計方法,發展 一種新的評量試題難度的方法,提供教師一種新工具,藉由這個方法來了解到底是數學題目是在 哪一個面向難度太高導致學生學習困難,或者有其他的原因,以作為教學參考,改進教學方法進 而幫助更多學生,期望能提高學生數學學習的動機、興趣及自信。此外,本研究所發展出的難度, 亦和傳統常用的難度與現代理論下的難度做比較。 文獻探討 一、難度 常用的難度有兩種,一種是指傳統的通過率,男一種則為現代測驗理論下的難度,以下分別 敘述之。 (一) 傳統通過率 難度為用來表示每個試題的難易程度,一般常用答對E分比法來表示。答對百分比法,即是 計算全體學生中,答對的比例有多少。難度的值越高,代表達對的人數越多,也就是題目越簡單。 難度計算公式如下﹒p= 主
N
其中 R 為答對人數 'N 為作答學生總人數。 例如,若全班人數有 50 人,答對某數學題的人數有 26 人,則此題的難度則為 26/50=0.泣,這 也代表有 52%的學生答對這一題。 (二) 試題反應理論的難度 教育測驗中,當試題反應只分成對或錯兩種可能性時,即可使用二元化計分的單向度 IRT 模 式來進行分析,而在不同的模式中,單參數為一種最簡單但應用非常廣泛的一種。就單參數的對 數模型來說,唯一考量的是試題的難度。此外,這個模組假設鑑別度對每一個題目而言都是相同 的,且猜測度都是不存在的。單參數的數學公式可以表達如下:月(θ)= 丹 (X; =11 θ)= 于」rn h 、
I+
e
,- -"糢糊統計在試題難度上的應用 209· 其中月(θ) 代表某一位受試者,他的能力值為θ' 而答對第 i 題題目的機率。這個式子也可 以用丹(Xi =11 θ) 來表示,這代表當受試者的能力值固定為θ ,他答對第 i 題題目的機率。至於 b 則是代表試題的難度。由這個公式可知,在單向度單參數對數模型中,難度值是唯一會影響受 試者答對題目機率的試題參數值。 此外,從這個式子可以看出。當受試者的能力值越高,代表這個學生的答對這題的機率越高。 而試題難度越高,代表這題題目越難,答對題目的機率就越低。在此有一個重點要注意,在IRT 的難度,和傳統把通過率當作難度指標的意義是截然不同的。在IRT 裡'難度越高,代表題目越 難,而傳統把通過率當作難度指標,則是數值越高,代表答對人數越多,題目越簡單。傳統的難 度值,會受到抽取樣本的影響。若是剛好所選擇的受試者程度都很好,通過率就會高,就顯得題 目很容易,但是若對相同的題目,給予一群程度比較差的學生來考,那這題通過率就會低,題目 變的很難。傳統的難度值,有這種依賴抽樣的問題。然而,在IRT 難度值估計上,卻可透過數學 模組的轉換,使難度估計不會受到樣本的影響。試題反應理論下的難度值很難直接計算,大多是 仰賴統計軟體,如Bilog 、 Winsteps 來輔助計算。 二、模糊理論 (一)模糊數 人類的感覺是模糊的。當有人說今天天氣很熱的時候,究竟他對於『熱』的定義為何?多少 度的溫度範圍可以稱為『熱』呢?對於這樣的問題,每個人的回答皆因其主觀性而有不同,即使 回答者為同一人,也會因為時地不同而有不同的回應。諸如此類很多的論點和問題,都不是能夠 用絕對的二元邏輯所可以界定的。原因則皆來自人類思維的模糊性。但人類卻常常被要求做出絕 對的判斷或選擇,以人性的觀點來看,這是十分不合理的。 模糊概念並不只侷限在研究人類的思維與情感而已。在以往嚴謹精確的原則要求下,許多技 術層面所衍生出來的灰色地帶,都必須耗費相當大的心力為複雜的系統寫下嚴密的定義與敘述, 灰色地帶中的每一個細微末節,都必須完全考慮到,盡全力使得其中的模糊變得明確,但若稍有 迫漏,則全盤皆墨,一切叉得從頭做起。而模糊理論確提供一種新的思維模式,只需要明瞭各種 屬性的狀況,利用軟計算方法建立大略性的處理模式,即可處理系統中灰色地帶的問題。所以我 們應該要了解到 灰色或是模糊不清的事件是層出不窮的,也是無法完全避免的,也因此才讓我 們體認到研究模糊理論的重要性。 隸屬度函數是模糊理論的基礎,它是從傳統集合中的特徵函數(characteristic function) 所衍 生出來的,用以表達元素對模糊集合的隸屬度(membership) ,其範圍介於O 到 l 之間。對於元素 和集合關係,古典集合將元素和集合之間的關係以特徵函數來說明,亦即r(已= l' 若 x 老人;
r(x)
=
0
'若 x f!.A。但是 Zadeh(1965
)在模糊集合論中提到,若一個元素屬於某一個集合 的程度越大,則其隸屬度值超接近I '反之則越接近o (王文俊,1997
;江彥聖, 2008 :吳柏林,2002
)。 隸屬度函數是模糊理論最基本的概念,它不僅可以描述模糊集合的性質,更可以對模糊集合 進行量化,並且利用精確的數學方法,來分析和處理模糊性資訊。然而,要建立一個足以表達模 糊概念的隸屬度函數,並不是一件容易的事。其原因在於隸屬度函數脫離不了個人的主觀意識, 故沒有通用的定理或公式,通常是根接經驗或統計來加以確定,很難像客觀事物一樣有很強的說 服力。因此,隸屬度函數的建立經常是具有爭議性的,也沒有一種隸屬度函數是可以被廣泛接受 而使用的。隸屬度函數可分為離散型(
discrete
type) 與連續型(continuous
l)仰)兩種。離散型的隸屬度·210·
教育心理學報 函數則有幾種常用的函數形式(s-函數、 z-函數、 π 函數、三角形函數、梯形函數、高斯(鐘形) 函數)來描述模糊集合。函數定義的表現,可以是無限模糊集合的元素及其隸屬度之間的關係, 也可以是有限模糊集合的元素及其隸屬度之問的關係(吳柏林,1997)。 傳統的統計方法透過一般的抽樣調查往往只能得到單一的數值資料、或是固定尺度的選擇, 但如此並不足以能夠完整地反應人類個體的想法。若能讓受訪者根據自己的意識,利用隸屬度函 數或區間值表達心中對於問項真正屬意的程度,則可更完整地傳達人類真實的思維。再考慮真有 模糊特性的問項時,資料本身便真有不確定性與模糊性。 模糊理論是將元素和集合之間的關係,以介於[0, 1]之間的隸屬度(membership) 描述,若元素 屬於集合的程度越大,則其隸屬度值就會越接近I' 反之,元素屬於集合程度越小,則其隸屬度值就越接近 0 。有關模糊集合的意義,可簡述如下:令Q 表示論域(universal set)' u:為一對應到
[0
,
1
]間的質數函數,即 u:0.
•
[0
,
1]
0 u 之模糊子集合 A 的隸屬度函數記為何 (x) , 表示元素 x 隸屬於模糊集合 A 的程度。則(
I
)在離散 (discrete) 的情形下,模糊集合 A 可表示成:A
=
UA(XI)+
U A (X2)+...+
UA(XIl)
一一一一一一+一一一一一一 .+一一一一 XI X2 XII UA(Xi)
一一
其中+代表或的意思,一一一表示兀素Xi 隸屬於模糊集合A 的程度。 (2) 當 U 為連續時,模 Xiru
A(X)
臨的可表示成 A= J~ (二)模糊權重 傳統分類方法常把各因子以相同權重看待,但質際上,論域因子的權重應該不間,因為樣本 的特徵因素未必同等重要。就像我們選購衣服時,先考慮衣服的價格、舒適度或顏色等等。可知 不同的因子有著不同的權重,而對各因子重視的程度,叉因人而異,不易評估。若以相同權重看 待各因子,或者以主觀的個人意識作判斷去定義因子權重,易產生不適當的分類結果。 模糊統計計算權重時,先將所有因子以模糊問卷的形式依重要程度收集資訊,並採用統計方 法轉換得到權重值。 假設論域集合 S= 柄,丸,. ..,
Sk}
, 偏好序列 r={ 門,弓,"',
I汁,且兵在行的隸屬度為μ$.1 。則 論域因子的模糊權重 定義為W
=
(FW"
, "',
FW
,,)
ιμ訓,此 I
P.. 、
J
F叭=予一二ι=-斗+~+...+:...:斗 , i=I,...,
k /·1'i
'i 弓 rj 模糊權重表示各因子的自我權重分佈'但模糊權重分析的主要目的是求得因子所代表的權重 值各是多少,亦即相對的權重(阮亨中、吳柏林, 2000) 。為了求論域因子的模糊相對權重,首先須設計一個模糊評鑑表(
fuzzy evaluation
table) 的問卷形式如下: 表 1 模糊評鑑表 A 在偏好序列 U 的一股隸屬度的
、〈\門也
佇
司 μS, IμSl2 ...的,fS2
PS, 1
μS, 2
...μS ,[
Sk
PS.l μS..2 μS,j模糊統計在試題難度上的應用 · 211 假設偏好程度為門最低, η 最高(例如非常不同意至非常同意的李克氏量表的偏好程度)
,
並以此間卷訪問專家對論域集合在各偏好序列下的隸屬程度。這些專家評分平均後的各因子之偏 好度,即為模糊權重集。則第 k 個因子的模糊權重則為F叭=各IS.J巧=峙.1 卅
再利用 m 等第評分標準法,分別計算論域中各因子的模糊相對權重 FRW 。所謂 m 等第評分標 準法,就是將 m 個偏好序列 r 視為f個等第,對此f個偏好序列取數量化。亦即,給定氏為一分, 給定 κ 為二分,如此繼續到給定 為 f 分。根據所得的隸屬度乘上其相對應的分數,分別求它們r
f
相對的模糊權重分佈,則為各因子的模糊相對權重 (吳柏林, 2005) 。則第 k 個因下的模糊相對 權重 FRW 為L"
PS
,
I叩門
=fT-LL/'Ps
,
1 研究則將以上的方法,為多變量分類考慮各因子的模糊相對權數法。 例如,考慮以模糊評鑑表訪問專家在評定試題難易度時,衡暈試題所採用的評價因素之重要 程度。假設訪問數位專家對模糊評鑑表評分,經過統計平均後的資料如下: 表 2 平均後之偏好度評鑑屬項好甘序\列
很不重要 不重要 普通 重要 很重要 題目敘述0.1
0
.3
7
0.7
0.77
0.67
解題策略。
0.1
0
.4
0.8
0.92
計算過程0.2
0
.4
7
0.8
0.7
0
.3
創新程度0
.3
0.7
0.6
0.2
。.92
我們可算出此四因子的模糊權重分別為F
t:
t....
=
0.11很不重要+ 0.37/不重要+ 0.7/普通+ 0.77/重要+ 0.67總重要 PH個個= 0/很不重要+ 0. 1//1'重要+ 0. 4/普通+ O. &,重要+ 0.9 2/體要fnita_
=
0. 2/很不重要+ 0 .47/不重要+ O. &,普通+ 0.7/重要 +O.~很重要· 212 .
教育心理學報 再利用五等第評分標準法,給定「很重要」為 5 分, r 重要」為 4 分, r 普通」為 3 分, r 不重 要」為 2 分,而「很不重要」則給定為 l 分。根據表 2 上的隸屬度分別乘以其相對偏好序列給定 的數量,各因子的模糊相對權重為. 句/ 句J ny --、 -F 7 , rhv nu ',.、 × ε 、d + 、 .J 7 , 勻 f nu , s ﹒、 × AUT+
、‘,/ 勻, AU , s ﹒、 × 令 J+
、‘』', 何/ 令 J AU ',‘、 × 吋/+
、‘ -J AU ra-、 × 一一組
RU 題 μ ', z5寸
--M
令 L QJ 一一 、‘ .J 吋/ ny AU 'SB 、 X F、 J +)
。 o nu(
× A 可+
、 BaF A 峙-nu ', 1 、 × 句J+
)
AU(
× 吋/』+
、 2 , J AU raE 、 × 一一 時 策 題 解 μ ', 25Tf-M
A 『 。。 勻, 一一)
吋、 d nu(
× '、 d + 、‘ SJ 寸 f nu rs ﹒、 × AU 可 + 、‘ .J 。 o nu ', .. 、 × 吋 J+
、‘ .J 勻, AUT hu r--、 × 勻, + 、, J 勻 J-nu rsE 、 ×l
一一 但 過 算 計 μ '',5寸
ι-M
OB AMy --、, J AU ra-、 × '、 J+
、‘', 吋/-AU r' ,、 × A斗+
)
ro
nu r' ,、 × 司、 J+
、‘, J 句/ nυ ',.、、 × 弓,但+
、 2/ 舟、 d nυ fs ﹒、 × 一一 度 刻, t zT 新 au μl
5ZM
因為主主/.
PSi=9.37 +9.2 + 7.84+4.8 =3
1.
21
'故此四個項目的模糊相對權重分別為
9.37
FRWfljf:U,/.>tt= 一一一 =0.30題目敘"'"3
1.
21
9.2
FRW~".~_= 一一一 =0.29解組策略31.21
7.84
FRW;lI L...:.lilR:l= 一一一 =0.25計算過程31.21
4.8
w. 新程度=一一一 =0.1631.21
故得「題目敘述」因子的權重為 0.30'
r 解題策略」因子的權重為 0.29'
r 計算過程」因子的 權重為 0.25'
r 創新程度」因子的權重為 0.16 。 (三)模糊集合的軟運算 軟計算的oft computing) 與傳統質數計算方法(硬計算)不同的是,軟計算乃基於模糊數或 模糊樣本,包括區間蝕,多值數,語言變數等的數學運算。舉例來說:某大學生每週運動 2-4 回每 回 1-2 小時,那一周運動幾小時?叉如某人出外旅遊 7-8 天,需攜帶若干胃腸藥,而胃腸藥標示 成人每日 3 -4回,每回 5-7 顆,請問他須攜帶多少顆。傳統數學並無法對此作一明確的計算,但 是一般人均會概略的計算。這實在應屬於軟計算過程。模糊集合之基本運算有以下幾點原則(吳 柏林,2005) :
設 A , S 為論域 U 中的兩個模糊集合,其隸屬度表徵為 μ A' 其'B'( 1
)補集 PAC(x)
=1 一的 (x)(2) 交集 :μAnB(X)
=
mineμA(X)' μB)= 內〈 μB
(3)聯集 :μAUB(X)
=
max(μA(X)' μB)= μA (X) VμB
(x)
模糊統計在試題難度上的應用 213 州州
d
2
(A, B) 哼 I{叫川
舉例來說,假設 A'B 兩國人民對宗教的隸屬度為A=~+~+~+~+
=一一一一+一一一一一一+--+一一一一一-+一一一一一一.0__1
佛教基督教 l 回教其他教未信教,B=~+~+~+_._O_._I_+ .0.2
=一一一+一一一一一+--+一一一一+一一一-佛教基督教回教其他教未信教 則可得以下之關係AC=~+~+~+~+
=一一一一+一一一一一一+-一一一+一一一一一一+-一一一一一-.O!
佛教基督教回教其他教未信教AnB=~+~+~+_O_._I_+~
r1B= 一一一一+一一一一一一+一一一一+一一一一一一+一一一-一-u 佛教基督教回教其他教未信教0.3
0
.4
0.2
0.3
0.2
AUB= 一一一+一一一一+一一一+一一一一+一一一 佛教基督教回教其他教未信教 ro 勻/-AU --、‘』 J 呵,-AU+
惰,. 吋/-nu+
、J-AU+
、,-AU+
勻,-nu(
l 叫 Vl-d
一一 、 .JB
A , sa 、 JUd
2
(A 片喜l{x,:1μ (Xi)一μ8(X,)[叫(Xj)=l
研究方法
Polya ( 1945
)提出解題活動的四個主要階段是:了解問題、擬定計畫、執行計畫、回顧過程 (驗算、檢討) 0 T 解問題可以讓我們清楚知道,什麼才是我們要尋找的解答,再根據問題中已知 數與未知數存在的各種關係,訂定解題計畫,然後就是耐心地進行數學計算,求得答案後,最好 能再逐步檢查、驗算,並討論其意義,才能在解題活動中得到最好的結果。 而在基測的考試過程中,七十分鐘的應答時間對大部分的學生來說僅是剛好足夠而己,甚至 部分學生連作答完全部的題目都有困難。鮮少有學生能夠利用多餘的時間去作回顧過程這個動 作。再者,回顧過程這個因素似乎沒有什麼難度的差別。所以,本研究把「回顧過程」這個因子 忽略。·214· 教育心理學報 從這幾年的基測試題發現,很多學生認為較難的題目,都有個共同的特徵,就是題目很創新。 學生對於沒有見過的題目,在作答的表現上往往都不是非常理想。在教學的過程中,我們也常常 跟學生灌輸一個概念﹒基測的題目在新不在難!所以,本研究亦將"創新"這個向度列為決定試題 難易的一個因子。 總合以上,將波利亞的解題的前三個步驟,再加上創新。決定出了四個因子:題目敘述、解 題策略、計算過程、創新程度。本研究將以模糊問卷調查的方法,去分析試題分別在這四個因子 上的難度。 本研究將以發專家問卷的方式,取得專家對98 學年度第一次閣中基本學力測驗的難度的模糊 問卷。而此間卷主要分為兩部分,第一部分為專家們對於題目敘述、解題策略、計算過程、創新 程度這四個決定難度的因子的重要性的看法。第二部分為專家對每道個別題目,分別以四個向度 去決定其隸屬度。這兩部份所得到的值將用來計算模糊難度。 以下先對本研究所發展的模糊難度進行說明。 一、模糊難度 在說明模糊難度之前,須先了解聚類點、聚類距離、聚額模糊數與聚類比例,以下分別定義 之。 (一) 緊想點(
clustering point)
設 U 為一論域,令 L= 仙, ι , , ι} 為佈於論域 U 的 k 個語言變數。則定義 |刊I j=
I ~__ ""..._一Lν= 丘且!.+.t丘
ι1
立主 +...+ι ,其中 μ=f
。稱屑對伊三唔吾吉變數 4 的聚類點 (ωcl圳lu沁帥
5
Lιl
L2LA
Jlo
j#ifu 口
例來說,考慮以模糊評鑑表訪問專家在評定試題難易度時 , L= 仙, ι , ι , ι ,L
s}
= {非常容易、容 易、中等、困難、非常困難}為五個語言變數,則L.
,
l
O
O
O O
=一一一一+一一+一一+一一+一一一 自 非常容易容易中等困難非常困難L ' O
l
O
O
O
2 =一一一一一一一+一一一+一一+一一一一+一一一一 非常容易容易中等困難非常困難LJ
O
O
l
O
O
.
可 =一一一一一一一+一一一-+一一一-+一一一+一一一一 -3 非常容易容易中等困難非常困難,LJ
O
O
O
l
O
.
=一一一一一一一+一一一+一一一+一一一一+一一一一.
啥 非常容易容易中等困難非常困難,LJ
O
O
O
O
l
=一一一一一一一-+一一一-+一一一-+一一一一+一一一一 J 非常容易容易中等困難非常困難 分別為對於五個語言變數的聚類點。(二) 緊類距離(
distance between sample and clustering point)
設 U 屑一論域,令 L= 帆, ι"', ι} 為佈於論域 u 的 k 個語言變數。 ι' 為對於語言變數毛的
聚類點。若 A 為一離散模糊數,且 A 對於語言變數 的隸屬度為 μ/A) , 則定義
模糊統計在試題難度上的應用 · 2'5 .
qμ)= 去
主川一j)2)(J.1/A)卅 4=(;;;j
為 A 對語言變數 L 的聚類距離。本文所定義的聚類距離是根據歐基里德距離 若 例如 易d州(例叫
A.S伴)←=土剖j品玄川
中等、困難、非常困難} ,含有偏好序列的成分o
0.3
0.6
0.1
0
A= 一一一一+一一+一一+一一+一一一弋?為一離散模糊數,若採用歐基里德距離的算法,分 容易中等困難 別去算 A 與非常容易和非常困難這兩個語言變數聚類點的距離d(A
,
L
,)
寸J(O一 1)2
+
(0.3- 川刊)2
+
(0.1 吋+川2
~0.54d(A
,
L
s)
=
去封J川2
+
(仰
0ω3 吋 +(附
0“6←叫叫一斗0仍)川
l
吋 +咐(仰0
=勾::;0.54 可以發現這兩個距離是一模一樣的。但是 A 這個模糊數的隸屬度很明顯的比較偏向中間偏左, 但對非常容易和非常困難的距離卻一樣,這就造成不合理的現象。為 7 修正這個不合理的情況,在原公式中多乘上了一個修正係敏:
(1
+
(i _
))2)
,讓聚類距離的公式變得合理化。這個修正係
數是假定樣本與聚類點的距離為I '而五個語言變數之間的距離也為I (如圓 I )。 非容常易
非困
常難
1
非容常易
容易
中等
困難
非自常難
圖 l 語言變數之間的距離 利用畢氏定理,我們可以得到 G 點到 A 、 B 、 C 、 D 、 E 五個點的距離分別是百五=J2 、 GB= I 、Gc= J2 、 GD= J5 、否=J1O。從原本距離公式 :-LJZ(灼的一的(X)2 觀察到
V 17 V,
:1· 216 . 教育心理學報 (μA(X
j
) 一的 (X;))2 代表樣本與聚類點在單一語言變項的距離的平方,所以在此公式前,我們嘗試乘上一個係數(1 +0-))2) ,此數代表距離倍數的平方,即(白r =2(高r 、(前r =2(古r 、
(GDr=s(c月2 、(古r
=1O(頁r 。如此便可修正原先公式造成帶有偏好序列性質的語言變項中
不合理的情況。以下為聚類距離的質例. L={ιι , ι , ι , ι}=
{非常容易、容易、中等、困難、非常困難}為五個語言變數,若o
0.3
0.6
0.1
0
A= 一一一一+一一+一一+一一+一一一一為一離散模糊數,則 非常容易容易中等困難非常困難 q 仲 AU P、 d nu~~
2 、‘,', AU AU(
AU+
2)
nU AU ft 、 '、 J+
2 、lj nu rb nu ', 1 、 吋/但+
2)
司J AU rs' 、+
2)
nU AU f-、 勻, h ltvl-d
= 、‘, J A rs-、 ZD
/O 吋 L AU~~
2)
AU nu r •. 、 '、 J+
2 、 -J AU AU(
吋/-+
2 、‘,/ rb nu , s' 、+
2)
nu 句J AU ,t 、 吋 4+
2 、‘ EF AU nu /a 、 '、 Jlv
l
一而
一一 、‘ .J A r-、 3D
吋 4ro
nu~~
2)
nu nu ',.、 令r-+
、,)
nu r--、+
2 、./ nuro
nu(
司 4+
)
nu 、、 J AU re--、 '、 J+
9. 、..
', nU AU ra-、 AU ftvl
一占
一一 、 .J A r--、 4D
D 冉削5(卅(μ仲A 分別爵對於五個語言變數的聚類距離。 此時得到的聚類距離,代表一個模糊樣本與五個語言變數的聚類點之間的距離。此距離值越 短,表示此樣本越接近該語言變數。而為了表示此樣本對於各個語言變數的隸屬度,我們利用倒 數轉換,將此距離轉化成另外一個數值,即以下定義的聚類比例。(三) 緊頹比例(
clustering
ratio) 和軍類模糊數(clustering fuzzy number)
設 U 為一論域,令L= 仙 , L
2
,.· "ι} 為佈於論域U 的 k 個語言變數。 ι' 為對於語言變數ι 的聚 類點。若A 為一離散模糊數,且Di(A) 為對於語言變數4 的聚類距離,則定義μ)=叫)J
為 A 對語言變數4 的聚類比例。 定義 尺i(A)R(A)
= 三;τ于
為 A 對於對語言變數毛的聚類模糊數糢糊統計在試題難度上的應用 . 217
舉例來說 , L= 仙, ι , ι , ι , ι}={非常容易、容易、中等、困難、非常困難}為五個語言變
o
0.3
0.6
0.1
0
數,若 A= 一一一一+一一+一一+一一+一一一一為一離散模糊數,可算出 D
1
(A) ;::, 0.78 、非常容易容易中等困難非常困難
D
2(A)
;::,
0.50 、 D3
(A) ;::, 0.26 、 D4
(A) ;::, 0.62 、 D5
(A) ;::,0.86
'則用(加 l
l
o f 8 l
lzO l3
一一一+一一+一一+一一一+0.78
0.50
0.26
0.62
0.86
0.50
R(A)=l
l
l
l
lz0.2l
一一一-+一一一+一-一一+-一一一+一一一一0.78
0.50
0.26
0.62
0.86
見(A)
1
1
0.~6
1
I;::' 0.38
一一一+一一一+一一一+一一-+0.78
0.50
0.26
0.62
0.86
0.62
凡 (A)= ,,
v.~.<.,
,;::,
0.16
茍 11
I
I
I
一一一一+--+一一一-+一一一一+一一一0.78
0.50
0.26
0.62
0.86
見(A)=l
l
op
l
lzOl2
一一一+一一一+一一+一一+一一-0.78
0.50
0.26
0.62
0.86
分別為對於五個語言變數的聚類比例。0.16
0.12
而 R(A) = 一一一一+一一+一一+一一+一一一 非常容易容易中等困難非常困難 為 A 對於對語言變數 L 的聚類模糊數。 之前定義的聚類模糊數本身已經是具有相當程度參考價值的資料,也具有相當程度的解釋能 力。但大泉較習慣難度為一個單一的數值,而非一組模糊數,因此,在此進一步定義難度指標如下。
(四) 難易度指標(difficulty index)
設 A 為一代表試題難度之離散模糊敏•R
(A) 爵 A 之聚類模糊數 , L= 佑, ι"', ι} 為佈於論域 U的 k 個語言變數。 R;(A) 為對於語言變數 4 的聚類比例, LRj(A)=1
0m; 為被賦予毛的難
度權重值。則稱 DI(A)
=Lm;R;(A) 為模糊數 A 的難易度指標。
· 218
.
教育心理學報 舉例來說 , L= 仙, ι , ι , ι , ι}={非常容易、容易、中等、困難、非常困難}為五個語言變數,若
o
0.3
0.6
0.1
0
A= 一一一一+一一+一一+一一+一一一一為一離散模糊數,而聚類比例 非常容易容易中等困難非常困難0.38
0.16
0.12
R(A)
= 一一一一+一一+一一+一一+一一一一 。若分別賦予五個語言變數的權重為: 非常容易容易中等困難非常困難 非常容易 =0 '容易 =0.25 '普通 =0.5 '困難 =0.75 '非常困難 =1 則 A 的難易度指標 DI (A) 為0.13
x0
+
0.21
x0.25
+
0.38
x0.5
+
0.16
x0.75
+
0.12
xI
=
0
.4
8
總結來說,本文將以歐基里德距離為基礎,定義出另一種新的距離,稱之為聚類距離。此距 離由問卷中所得到的模糊樣本值加以平均,而其基本概念是,距離越短,代表越偏向該語言變數; 反之,距離越長,則代表越偏離該語言變數。按著再將聚類距離轉換成聚類比例,以此比例當成 原模糊數對於五個語言變數的隸屬度,而得到一個新的模糊數 聚類模糊數。 其賞這時所得到的聚類模糊敏,其本身即具備一定程度的解釋能力。但若要比較各題之間難 易度,則可利用反模糊化的概念,最後將每一個聚類距離模糊數的反模糊化值求出,即可以此數 代表原樣本所代表的題目在某個向度的難度指標。依照此難易度指標,我們除了可以分向度來比 較各題之間的難度順序之外,甚至可以將各項度的難度指數分別乘上模糊相對權重值,即得到各 題目的綜合加權難易度指標。 二、研究工真 (一)抽樣調查與問卷設計 本研究利用軟統計方法來進行問卷調查之解析,期以更接近人類思維模式來反應專家們對於 98 學年度第一次國中基本學力測驗數學科試題難度的看法。本問卷的抽取對象是台北縣市國高中 的數學科教師,有效問卷共 20 份。填寫問卷時間在 98 學年度下學期第 17 周。問卷問題共 34 題, 共分為兩部分。第一部分請填寫者填寫決定難度的因子的重要性,即請教師在權重部分以 0 到 l 之間的數字,給予一隸屬度,且每題隸屬度總和為 I; 第一部份的指導語為:請針對您個人教學經 驗,對於決定試題難度的各項因子之重要性來進行填答。各能力重要性之權重,請依各項填入 0-1'
合計權重為 l 。例如:您覺得題目敘述對於試題難度並非很重要,感覺介於很不重要到不重要之間。 則可將權重設為很不重要 0.8 '不重要 0.2 。您在各項的可能填法為:語專言家變\數\難度
很不重要 不重要 普通 重要 非常重要 題目敘述0
.5
0
.4
0.1
解題策略0
.4
0.6
計算過程0.6
0
.4
創新程度0
.4
0.6
第二部分則是填寫各向度在每個題目下的難度。每題我們請填寫者以 O 到 l 之間的數字,給 予一隸屬度,且每題隸屬度總和為 l 。例如:第 l 題題目敘述,若您覺得「普通偏容易 J '則可在 「容易」項目下填入 0.6' r 普通」項目下填入 0 .4 ;若覺此題的解題策略非常容易,則在該題「容 易」項目下填入 l 分。若此題的計算過程覺得較偏向困難,則可在「普通」項目下填入 0.2'
r
難」項目下填入 0.8 ;若覺得此題很創新,但學生會感到達對此題非常困難,則在該題「困難」項 日下 x 填入 l 分。分數可以依您的感受作調整,但每項目的總分為 l 分。您的可能填法為:模糊統計在試題難度上的應用 . 219 . 非常容易
0.6
容易 普通0
.4
困難 非常困難第 l 題
題目敘述
解題策略 計算過程 創新程度 (二)試題內容 本研究所採用的試題為 98 學年度第一次國中基本學力測驗數學科試題的試題,題目總共有 34 題,全部均為四選一的單選題,測驗時間為 70 分鐘。國中基測為教育部委託臺灣師大心測中心設 計編製的標準化測驗,主要目的為評量國中生在校的學習成就表現,是屬於總結性評量的測驗工 具。基測題庫中的試題都以試題反應理論的估計程序,將試題難度連結在同一把尺上,以國中基 測而言,由於測量的是學生的基本學力,題目設計的難度為中間偏易,大部分題目的答對率均在 50%~75% 左右(國民中學學生基本學力測驗推動工作委員會. 2009) 。題目詳細內容可至國民中 學學生基本學力測驗推動工作委員會網站下載(http://www.bctes
t.
ntnu.edu.tw
)。 一、各因子的模糊權重0.2
結果
0.8
根據問卷的第一部分的結果將其平均,求得四個決定試題難度因子的模糊權重以及模糊相對 權重,整理如下表 3:重
要堅要重權
重坦通要重權對
不可普重常糊相
很
-4
非模糊
模
表 3 題目敘述。
0.03
0
.4
0
0.55
0.02
3.
56
24.72%
難度四因子的模糊相對權重 解題策略 計算過程o
0
o
0.05
0.11
0.27
0.72
0.63
0.17
0.05
4.06
3.68
28.19%
25.55%
創新程度。 02
0.19
0
.4
7
0
.3
1
0.01
3.
10
2
1.
52%
由此表可知,本問卷的研究對象認為決定難度最重要的因子是解題策略,其次是計算過程, 再來是題目敘述,最後才是創新程度。而其重要性的權重之百分比分別為 28.19% 、 25.55% 、 24.72% 、 21.52% 。 二、各難度向度的結果分析 將問卷數據的模糊均數求出,再依照研究方法分四個向度,算出各題對於五個語言變數的聚 類距離與聚類比例,以表格方式整理如下表 4-7 0·220·
教育心理學報 表 4 題目斂述向度各題的緊類比例 題號 題目敘述向度的聚類比例 非常容易 容易 普通 困難 非常困難48.64
20
.3
4
13.23
9.95
7.85
2
14
.3
8
23
.3
7
34.75
15
.5
8
11.91
3
61.65
14.87
10.04
7.52
5.92
4
10.96
14.91
44.79
17.69
1
1.
65
5
50.15
19.57
12.93
9.69
7.65
6
42.93
22
.5
4
14.74
1
1.
05
8.73
7
43.67
22.15
14.64
10.91
8.64
8
15.91
35
.5
8
23.60
14.14
10.77
9
11.64
17.89
45.21
14
.5
0
10.77
10
37.95
25
.4
3
15.58
1
1.7
6
9.28
II
24.63
37.05
16
.3
9
12
.3
4
9
.5
8
12
53.21
18.00
12
.3
5
9.18
7.26
13
12.19
18.63
42.82
15.16
1
1.
21
14
19.07
4
3.
60
16.26
1
1.
92
9.15
IS
10.25
15.16
5
1.
23
13.52
9.85
16
48.72
20
.3
1
13
.1
8
9.95
7.84
17
9.97
14.68
52
.5
I
1
3.
23
9.62
18
1
1.
59
16.22
43
.3
7
17.04
11.78
19
8.20
11.60
60.23
1
1.
75
8.23
20
10.87
14.06
2
1.
97
35.50
17.60
21
11.68
15.26
28.02
29
.3
1
15.75
22
11
.3
4
15.26
41.51
19
.3
8
12
.5
1
23
9.63
13.
17
52.16
15.00
10.04
24
10.80
14.20
2
3.
92
35.26
15.82
25
9.90
12.94
19
.3
7
4
1.
00
16.79
26
11
.5
6
15
.3
4
39.86
20.16
13.07
27
11.94
15.87
34.28
2
3.
70
14.22
28
8.77
1
1.
44
16.10
46
.4
7
17.22
29
12.04
15.99
3
3.
19
24
.3
6
14
.4
1
30
12.17
16.25
28.67
27.61
15.29
31
5.20
7.29
74.85
7
.4
3
5.23
32
10.10
14.69
52.24
13.24
9.72
33
8.97
1
1.
70
16.82
45.68
16.82
34
9
.5
9
12
.4
6
16.75
40.19
2
1.
00
模糊統計在試題難度上的應用 · 221 表 5 解題策略向度各題的緊類比例 題號 解題策略向度的聚類比例 非常容易 容易 普通 困難 非常困難
12.20
59.80
12.62
8.77
6.61
2
23
.5
2
38
.5
0
16.27
12.23
9
.4
7
3
1
1.7
9
15
.3
5
25
.3
7
30
.3
5
17.14
4
1
3.
40
19.85
34.92
18.80
1
3.
03
5
48.94
19.87
13
.3
3
9.98
7.88
6
7.88
1
1.
40
62.09
10.85
7.78
7
9.69
1
3.
99
5
3.
81
1
3.
09
9
.4
3
8
9.12
12
.3
9
54.91
14
.1
1
9
.4
9
9.62
13.23
52
.5
1
14.68
9.97
10
15.74
37
.3
7
22
.4
4
13.94
10
.5
2
11
14
.3
1
24.17
33.60
15.96
1
1.
96
12
19.29
44
.3
7
15.72
11.68
8.94
13
6.65
9
.4
6
68.加9.25
6.60
14
18.82
46
.3
2
15.09
1
1.
20
8
.5
7
15
16
.3
1
32.80
25.03
14.62
1
1.
24
16
15.25
45.14
18.29
12.12
9.20
17
15.86
35.84
23
.3
5
14.20
10.76
18
13.65
22. 加36
.3
2
15.65
11.74
19
7.87
10.86
6
1.
69
1
1.
60
7.98
20
9
.3
0
12.80
54.05
14.23
9.62
21
12
.4
2
19.09
41.86
15
.3
0
1
1.3
3
22
13.85
22
.5
7
36.14
15.63
1
1.
81
23
9.91
1
3.
55
50.75
15
.4
2
10
.3
7
24
6.02
8.67
71.01
8
.3
3
5.97
25
1
1.
48
15.10
24. 加32
.5
5
16.84
26
9.94
14.68
52
.5
1
1
3.
23
9.64
27
10.76
13.86
19.02
34.01
22
.3
6
28
8.92
1
1.
61
16
.3
2
45
.5
1
17.65
29
6
.5
8
9.09
67.99
9.66
6.68
30
8.28
11.88
60.05
11
.5
7
8.22
31
9.93
1
3.
04
19.99
40.85
16.19
32
10
.3
7
13
.3
9
17.97
35
.4
1
22.85
33
10.68
1
3.
96
22.23
36.59
16.54
34
1
1.
44
15
.5
5
41
.5
8
18.98
12
.4
5
· 222 .
教育心理學報 表 6 計算過程向度各題的緊類比例 題號 計算過程向度的聚類比例 非常容易 容易 普通 困難 非常困難45.50
2
1.
40
14.17
10.57
8
.3
6
2
51.66
19.05
12
.4
9
9
.3
9
7
.4
1
3
14
.4
3
24.20
32
.5
4
16.60
12.23
4
2
3.
71
37
.3
8
16.75
12
.4
6
9.69
5
13.78
22.97
36.02
15.51
1
1.
72
6
14.28
24.81
33.60
15.55
11.76
7
15.23
28.56
29.15
15
.3
8
1
1.
67
8
18.70
46.14
15.27
1
1.
26
8.63
9
2
3.
52
38
.5
0
16.27
12.23
9
.4
7
10
14.25
24.13
33
.5
8
16.05
1
1.
98
II
8.22
1
1.
93
60
.4
8
1
1.
27
8.10
12
16.77
40.57
19
.4
1
13.22
10.03
13
17.19
33
.5
3
23.19
14.79
11
.3
0
14
39
.4
5
25.22
14.98
11
.3
8
8.96
15
36.91
26.73
15
.4
1
1
1.
72
9.22
16
11
.3
5
16.98
46.19
14.74
10.74
17
12
.4
4
18.86
4
1.1
4
15.96
11.60
18
15.96
37
.4
9
22
.3
4
13.74
10
.4
7
19
15.52
27.75
29
.3
5
15.53
11.86
20
59
.4
9
15.81
10
.5
5
7.92
6.23
21
10
.3
5
15
.4
3
50.65
13.64
9.93
22
12.60
20.06
40.90
15.14
1
1.
31
23
60.84
15.16
10.27
7.68
6.05
24
10.70
14.96
47.26
16.07
1
1.
0
25
8.56
11.81
58.16
12.69
8.78
26
8
.4
9
12
.4
4
59.29
1
1.
47
8
.3
1
27
9.89
13.06
20.13
4
1.
11
15.81
28
10.18
15.10
5
1.
99
13.05
9.67
29
1
1.
55
16
.5
9
45.80
15.10
10.96
30
14
.4
9
24.17
32.99
16.24
12.12
31
6.92
9.18
1
3.
07
57.95
12.88
32
9.79
13.50
5
1.
66
14.91
10.14
33
7
.4
8
10
.3
5
63
.4
9
1
1.
08
7.61
34
10.07
14.95
5
1.
91
13
.3
6
9.71
模糊統計在試題難度上的應用 · 223 . 表 7 創新程度向度各題的緊類比例 題號 創新程度向度的聚類比例 非常容易 容易 普通 困難 非常困難
60.90
15.23
10.20
7.65
6.02
2
12
.5
9
6
1.
45
11
.3
9
8
.3
2
6.25
3
16
.4
7
36.78
22
.3
3
13.82
10.61
4
9
.3
6
12.74
53
.5
6
14.60
9.75
5
59
.4
9
15.81
10.55
7.92
6.23
6
56.77
16.96
1
1.2
1
8
.4
3
6.64
7
63.86
14.02
9
.4
6
7.09
5
.5
7
8
9.86
13.09
20.65
41.03
15
.3
6
9
1
1.
48
17.82
45.82
14.26
10.62
10
18.21
45.75
15.80
1
1.
45
8.79
II
62
.3
6
14.63
9.84
7
.3
8
5.80
12
56.77
16.96
1
1.2
1
8
.4
3
6.64
13
9.74
13.68
52
.3
6
14
.3
4
9.89
14
62
.3
6
14.63
9.84
7
.3
8
5.80
15
13.88
50.70
16
.3
5
10.89
8.18
16
6
3.
86
14.02
9
.4
6
7.09
5
.5
7
17
15.84
50.加14.81
10.63
8.09
18
1
1.
93
15.94
33
.3
3
24
.4
8
14
.3
2
19
1
1.
25
15.29
42
.3
7
18.89
12.20
20
12.21
16.60
33.85
23.22
14.13
21
15.71
34.70
24.17
14
.4
9
10.93
22
9
.5
3
13.62
53.83
13.52
9.51
23
8.92
1
1.
60
16.06
45.01
18
.4
1
24
1
1.1
5
16
.5
2
46.61
14.96
10.75
25
9.83
12
.5
9
16.88
35
.3
1
25
.3
8
26
15.67
33.26
25.15
14.77
1
1.
14
27
10.81
13.77
20.03
34.15
2
1.
23
28
1
1.
44
15
.5
5
4
1.
58
18.98
12
.4
5
29
10.75
15.12
47.02
16.10
1
1.
01
30
1
1.
84
17.82
43
.5
6
15
.5
5
1
1.
23
31
10
.3
4
13.68
22
.3
3
38.07
15.58
32
9.70
12.25
16
.4
9
26
.3
0
35.26
33
9
.4
6
1
1.
97
15.95
26
.4
2
36.19
34
8.99
1
1.3
8
15.14
24.26
40.23
報 昆主 理 'L、 育 教
·224·
三、模糊難度指標及傳統試題難度 將問卷數據的模糊均數求出,再依照研究方法分四個向度,算出各題對於五個語言變數的各 向度的難度指標,以表格方式整理如下表8 。 表 8 創新程度難度
排名
0.21
30
0
.3
4
26
0
.4
1
22
0
.5
1
13
0.21
29
0.23
27
0.19
33
0.60
7
0
.4
9
19
0
.3
7
24
0.20
31
0.23
27
0
.5
0
15
0.20
31
0
.3
7
23
0
.1
9
33
0
.3
6
25
0
.5
3
9
0
.5
1
11
0.53
to
0
.4
3
21
0
.5
0
16
0.63
5
0
.4
9
17
0.63
4
0
.4
3
20
0.60
6
0
.5
1
12
0
.5
0
14
0
.4
9
18
0
.5
9
8
0.66
3
0.67
2
0.69
1
各向度的各題數度指標及排名 解題策略 計算過程難度
排名
難度
排名
0
.3
4
33
0.29
31
0
.3
6
31
0.25
32
0
.5
6
7
0
.4
7
17
0
.5
0
20
0
.3
7
26
0.27
34
0
.4
7
16
0
.5
0
18
0
.4
6
20
0
.5
0
19
0
.4
5
22
0.51
to
0
.3
6
28
0.51
11
0
.3
6
27
0
.4
2
28
0
.4
7
18
0
.4
7
25
0
.5
0
7
0
.3
7
30
0
.4
0
25
0
.5
0
15
0
.4
2
23
0
.3
6
32
0
.3
1
30
0
.4
3
26
0
.3
2
29
0
.3
9
29
0
.4
9
13
0
.4
2
27
0
.4
9
14
0
.4
7
23
0
.4
1
24
0
.5
0
13
0
.4
5
21
0.51
12
0.21
33
0
.4
9
22
0
.4
9
10
0
.4
7
24
0
.4
8
15
0
.5
1
9
0.21
34
0
.5
0
17
0
.5
0
4
0.57
6
0
.5
0
5
0
.4
9
21
0.50
8
0.61
3
0.60
2
0.63
I
0
.4
9
12
0
.5
0
14
0
.4
9
11
0.50
16
0
.4
7
19
0.60
4
0.65
1
0.62
2
0
.5
1
3
0
.5
9
5
0
.5
0
6
0.51
8
0
.4
9
9
題目敘述 難度 排名0.27
30
0
.4
7
23
0.20
34
0
.5
1
13
0.26
32
0
.3
0
28
0
.3
0
29
0
.4
2
24
0
.4
9
21
0
.3
2
27
0
.3
6
26
0.25
33
0
.4
9
22
0
.3
7
25
0
.4
9
20
0.27
31
0
.4
9
18
0
.5
0
15
0.50
16
0
.5
9
5
0
.5
6
7
0
.5
2
12
0.51
14
0.58
6
0.60
4
0.52
11
0
.5
3
to
0.63
1
0
.5
3
9
0.54
8
0
.5
0
17
0
.4
9
19
0.62
3
0.63
2
題號 l 云,主 3-4-5-6 一79
一的
-u
一口一口
-M
一的一的一口一
i
一凹一切一訂一泣一鈞一圳的一鈞一話
-u-2
一詞一拍一到一挖一封
-M
模糊統計在試題難度上的應用 · 225 . 從表 8 可看出,各題在各向度的難度指標及難度排名。例如在題目敘述和解題策略向度難度 最高的都是第 28 題,在計算過程向度難度最高的是第 31 題;而在創新程度向度的難度最高的則 是第 34 題。 將各向度難度的聚類比例,按照第一部分得到的模糊相對權重加權,即得到各題的綜合向度 的聚類比例,其綜合向度的難度指標及排序如 9 所示。 由表 9 可看出來,在經過各向度的模糊相對權重加權之後,各題的綜合難度隸屬。進一步可 以看出,整體難度最高的是第 33 題,第二名是第 31 題,第三名是第 27 題。比較分向度難度值和 綜合難度值,可以發現一些有趣的現象。例如第 28 題在題目敘述和解題策略兩個向度中都是難度 最高的,但經過加權之後的難度僅排名第六。而像第 33 題,在各向度的排名分別是第 3 、第 5 、 第 6 和第 2 。沒有一個向度是最難,但整體的難度卻是排名第一。 此外。表 9 亦比較兩種常用的試題難度。如文獻探討所述,常用的試題難度有兩種,第一種 為試題反應理論下的難度 b 值,另一種則為通過率 P 值。在試題反應理論下的 b 值越大,代表試 題越難,然而 , p 所代表的是試題通過率 , p 值越大,反倒代表試題越簡單,此研究所發展出的模 糊加權難度,則類似 b 值的向度,值越大,代表試題越難。表 9 將每一題的模糊加權難度並與學 生的作答結果作一比較。學生作答結果是採 98 第一次園中基本學力測驗的實徵數據,隨機取樣 5000 位考生的資料進行分析,並根據這 5000 名考生的資料,計算答對率 P 值與試題反應理論單 參數模式所估計的 b 值。難度相對比較見表 9 。 表 9 難度指標之綜合比較 模糊指標 題號 加權難度 排名 P 值
b
值0.28
34
0.74
-1.
02
2
0
.3
6
29
0.76
-1.1
0
3
0
.4
2
23
0.80
-1.3
3
4
0
.4
7
17
0
.5
9
-0
.3
8
5
0
.3
1
33
0.78
-1.
24
6
0
.3
8
27
0.79
-1.
25
7
0
.3
7
28
0.75
-1.09
8
0
.4
7
18
0.68
-0.73
9
0
.4
6
19
0.80
-1.3
2
10
0
.4
0
25
0.71
-0.87
11
0
.3
9
26
0
.7
6
-1.1
2
12
0
.3
2
32
0.67
-0.69
13
0
.4
8
16
0.70
-0.83
14
0
.3
2
31
0.67
-0.72
15
0
.4
1
24
0.63
-0.52
16
0
.3
4
30
0.62
-0
.4
17
0.44
22
0.65
-0.61
18
0
.4
8
15
0.60
-0
.4
1
19
0
.4
9
13
0.65
-0.64
226
教育心理學報 表 9 (續)20
0
.4
6
21
0.58
-0
.3
4
21
0
.4
9
11
0.65
-0.63
22
0
.4
9
12
0.64
-0
.5
7
23
0
.4
6
20
0
.5
6
-0.27
24
0.52
8
0.61
-0
.4
6
25
0.58
4
0
.5
7
-0.28
26
0
.4
9
14
0
.5
0
-0.02
27
0.59
3
0
.4
2
0
.3
2
28
0.57
6
0
.4
0
0
.3
7
29
0.51
9
0
.3
7
0
.5
2
30
0
.5
10
0
.4
7
0.11
31
0
.5
9
2
0
.4
9
0.02
32
0
.5
7
7
0
.4
2
0
.3
2
33
0.59
0.27
0.95
34
0
.5
7
5
0
.3
9
0
.4
2
經由計算,試題答對率與模糊難度指標的相關係數為(ul-0.76 '達到相當程度的負相關,而與 單參數 IRT 所算出的 b 值相關係數爵 0.75 '也達到相當程度的正相關。可見此方法得到的難度指 標與傳統常用的試題難度是相當幅合的。 結論與建議 相較於傳統的試題難度評量方法,模糊問卷所取得的數據資料,更能真實反映試題難度的模 糊性。將決定難度的因子分成數個不同的向度,可從不同的角度去檢視試題的難度。而將模糊相 對權重的概念應用於試題難度評量,能將試題依不同向度的權重作加權,以此得到試題的綜合難 度指數,便於比較與分析。與傳統只從單一面向去考慮難度的方法來比較,分多向度去決定難度 似乎更真有說服力。 模糊統計為一新的統計技術,在計算上的確較傳統的統計方法來的複雜。但此方法有其優點, 尤其能夠改善二元邏輯,非黑即白的計算方式,並加以考量人類的認知的灰色地帶。研究者目前 在發展模糊統計軟體,希冀未來的研究者能夠藉由統計軟體來方便進行模糊統計的運算。 用模糊統計進行試題難度運算,還有許多技術層面值得後績的研究,但不失為一種計算試題 難度的另類思考方式。而令人感到鼓舞的為在此研究中,雖然受測的教師人數並不多,且主要侷 限為台北縣市的中學教師,但依其問卷所估計出的模糊難度的數值,和使用全國基測賈徵數據下, 所估算的 IRT 難度 b 值與通過率 P 值之相關達到一定水準。代表此方法所得出的難度結果,已達 到相當程度的驗證。此外,此研究所提出計算難度的方法,可以提供高風險性考試組題的參考。 例如在某些檢定考試或入學考試時,為擔心會有洩題的危險而題目無法進行預試,則可在入闇時, 請參與命題的老師,對各向度的難度指標進行評估,來建構試題。在此方法下,只要所參與的老 師是真有代表性的,應該所估算的難度也能接近實徵數據的難度指標。 本文提出聚類距離與聚類比例的新定義,取代直接使用模糊平均數或模糊眾數等概念,對所 取得的模糊問卷作解釋。研究者發現,這樣的方法具有相當好的解釋能力。而利用反模糊化概念 取得的難度指標,則是便於對試題難度作排序及分類。模糊j統計在試題難度上的應用 · 227 最後,研究者對未來的研究方向及應用提出幾點建議: 一、本研究所採用的四個決定難度的因子,並非固定不變,本文僅提出分向度評量試題難度 的概念,後續研究者可視不同情況需要,採取不同的因子來決定試題的難度,或者可對本文採取 的因子,蒐集更多專家學者的意見,取得一致的共識,得到更精準的模糊相對權重值。 二、在本研究中,發現某些題目,使用模糊理論所估計的難度值,和傳統難度P 與 b 值差異 較大,然造成教師認知與學生實際作答難度差異的成因,未來研究值得進行深入的探討。 三、本研究所定義的聚類距離,是針對真有偏好序列性質的語言變數所定義的。而此種特殊 的距離在模糊理論上所具有的性質,也值得後續深入研究。 四、本研究所提出的分向度決定難度的概念,以及將試題依照難度指標範圍分類的作法,可 應用於命題卡的製作或是題庫系統的建立。
參考文獻
王文俊(199
7)
:認識 Fuzzy 。台北:全孽。 江彥聖 (2008) :模糊相關係數及其應用。國立政治大學應用數學系數學教學碩士在職專班碩士論文。 余民寧 (2002) :教育測驗與評量一成就測驗與教學評量。台北:心理。 汪慧瑜 (2005) :模糊統計分析在網路成癮行為的調查應用。測驗學刊,52 ( I )
,
83-104 。 阮亨中、吳柏林 (2000) :模糊數學與統計應用。台北:俊傑。 吳柏林 (2005) :模糊統計導論:方法與應用。台北:五南。 吳柏林 (2002) :現代統計學。台北:前程。 吳柏林( 1997):社會科學研究中的模糊邏輯與模糊統計分析。國立政治大學研究通訊,7 '
17-38 。 胡悅倫、陳咬眉、吳柏林 (2006) :應用模糊統計於 A 型量表分類之研究。教育與心理研究期刊,29 (I)
,
151-181 。 胡悅倫、吳柏林 (2002) :模糊統計在分析樂觀量表之應用。教育與心理研究,25 (3)
,
457-484 。 國民中學學生基本學力測驗推動工作委員會 (2009):
98 年國民中學學生基本學力測驗專輯。取自 國民中學學生基本學力測驗推動工作委員會網站htto://www.bctes
t.
ntnu.edu.tw/98annuals/index2.html
,
2011 年 5 月 1 日。Anastasi
,
A.
,
& Urbina
,
S. (1997).
Psychological testing
(7
th ed.). Upper Saddle River
,
N
J:
Prentice-Hal
l.
de Ayala
,
R. J. (2009).
The
theotγ andpractice ofitem response theory. New York
,
NY: Guilford.
Pol間,
G.
(1945).
How to solve it: A new aspect of mathematical metho
d.
Princeton,
NJ: Princeton
University.
Zadeh
,
L.
A. (1965). Fuzzy
sets.lnformation and Control
,
8
,
338-353.
收稿日期: 2011 年的月 30 日 一稿修訂日期: 2011 年 10 月 21 日 二稿修訂日期: 2011 年 II 月 02 日 接受刊登日期: 2011 年 II 月 02 日
· 228 . 教育心理學報
Bulletin of Educational Psychology, 2012, 44(2), 207-228 National Taiwan Normal University, Taipei,Taiwan, R.O. C.
Applying of
Fuzzy Statistics
in
Item Difficulty
Ming-chuan Hsieh
Research Center for Testing and Assessment National Academy for Educational Research
Ber-lin Wu
Department of Mathematics Science National Chengchi University
The traditional method of using the Liken scale in questionnaires provides researchers with infomlation of fixed scale choices,which does not allowpanicipants 如lI yexpress their candid and complex thinking. The current paper applies fuzzy statistics to examine item difficulty of questionnaires. Concepts such as fuzzymean,如zzymode or fuzzy median are applied Based on the conceptions of fuzzy statistics