大學中文應用科系閱讀能力之檢定與 結果分析-以文藻外語大學
應用華語文系為考察對象
謝奇懿
國立金門大學華語文學系
摘 要
本文以文藻外語大學應用華語文系為對象,運用文藻已有的電腦化中文 適性測驗系統探討 2012-2013 連兩年文藻應華系全體學生閱讀能力的檢定情 形及結果,從而做為了解台灣大學中文應用科系閱讀能力之參考。
以檢定的工具而言,文藻應華系使用的電腦化中文適性測驗系統較一般 紙筆測驗型態的測驗更為有效可靠。而從 2012、2013 文藻應華系學生在閱 讀能力的表現來看,大致處於全校的中間成績,其分布相當集中。就 2012、
2013文藻應華系四個年級各自的閱讀能力表現來看,四個年級的能力雖然略 有不同,但未達顯著差異,顯示文藻應華系學生在閱讀能力上的表現並未因 年級不同而不同。除此之外,追 相同學生在 2012、2013 年的表現,會發 現若單就學生本身而言,也未因升級而有顯著改變;而進一步就各年級閱讀 能力高、一般、低等三組觀察其在 2012、2013 年的表現,也是相同情形,
為無顯著差異。
最後,本文亦就應華系與全校之間在試題表現的差異進行分析,發現僅 有三數試題有著明顯的差異,而差異的試題分為簡單一題和困難兩題等兩 類,前者為中文寫作及佈局的「程序知識」,而後者皆為文言文,屬於詞義 運用與「後設規範知識」。
關鍵字:中文閱讀能力、文藻外語大學應用華語文系、電腦化中文適性測驗
壹、前 言
近年來,台灣大專院校對學生應具備的各種語文基礎能力加以重視,中文基礎閱讀能 力1(以下簡稱閱讀能力)即屬於其中一環。以大專院校而言,中文除了因被視為語文基礎 能力,而作為大專院校一般科系通識或必修科目外,中文專業科系還居於特殊而值得觀察 的位置。大專院校的中文專業科系規劃提供了系統、階段、長期的課程與環境,處於此一 課程及環境下的中文專業科系學生,其中文各方面能力的發展應該超過其他科系,閱讀能 力也應該如此。觀察中文專業科系學生閱讀能力的表現有著多重的意義,由於中文專業科 系學生在課程、環境及動機上通常超過其他一般科系學生,因此其閱讀能力的表現也應該 處於大專院校閱讀能力的前端,可能可以大致看出大專學生前段的閱讀能力的表現。除此 之外,大專院校中文專業科系學生閱讀能力的表現,還可以顯現中文專業科系對閱讀能力 培養的情形,可能從而做出對系所目標、課程的成果作出新的解釋與調整,還可能對通常 負責全校性中文課程的中文專業科系在規劃及教學上有所影響。由此可知,了解大學中文 專業科系學生閱讀能力的表現,實具有中文專業及中文作為基礎語文能力雙重作用。
現今台灣大專院校中文專業科系大致可以分為兩類:一類為傳統中文科系,一類為應 用中文科系,而後者通常比前者更側重現實世界的實用發展,因此對閱讀能力而言,中文 應用科系學生的培養應該更為貼近基礎中文能力的要求。因此,觀察大專院校中文應用科 系的閱讀能力,對中文應用科系及中文基礎能力本身似乎更值得關注。
要了解台灣大專院校閱讀能力,閱讀能力的評量乃是重要的工具。而文藻外語大學應 用華語文系(以下簡稱文藻應華系)屬於大專院校中文應用科系,其成立已超過十多年,
為全國第一所應用華語文系,其在中文基礎能力檢定的發展已接近十年,該檢定每年施測 一次,應華系學生必須全部參加,資料累積豐碩;並先後並完成 4000 題題庫及線上的中 文測驗系統及電腦化中文適性測驗系統。因此,要觀察台灣大學中文應用科系閱讀能力的 表現,以文藻應華系為對象在中文基礎能力(包括閱讀)的檢定工具及科系本身的性質上 都符合本篇論文的須要。由此,本文即以文藻外語大學應用華語文系為對象,探討大學中 文應用科系閱讀能力的檢定情形及結果。
1所謂的中文基礎閱讀能力的「基礎」指的是以中文作為母語的台灣,其被視為共同應具備的基礎意義,並非指 中文較低等的能力。本文以中文基礎閱讀能力稱之是為了與大學中文專業能力培養的,如:文言文專業閱讀 能力等。
貳、大學中文應用科系閱讀能力之檢定工具-文藻外語大 學電腦化中文適性測驗系統之建置
以大學院校現況來說,閱讀能力的檢定約以三種方式進行,一為傳統的紙筆測驗,一 是電腦化的紙筆測驗,一為電腦化適性測驗。就上述三種測驗型態來說,前兩者的差異基 本不大,傳統紙筆與電腦化的差異大約是多媒體功能的加入,其餘試卷結構、計分方式大 致相同。而電腦化適性測驗(Computerized adaptive testing, CAT),係根據現代測驗理論中 的試題反應理論(item response theory, IRT)發展而來,其相較於傳統型態的測驗,其所得
「分數」具有等距特性(王文中,2004),能測量能力涵蓋範圍廣,測驗所需的時間及題數 較少(Wang & Chen, 2004),以及測量精確等優點(Wang, Chen, & Cheng, 2004)。
文藻外語大學作為國內大專院校較早展開的中文測驗,自 2011 年起,即與台灣師範 大學心測中心合作,研發適合大學自己的電腦化中文適性測驗系統。此一系統經一年的評 估、測試,已於 2012 年正式使用,至今年 2013 年已經二年。
關於電腦化適性測驗建置及實施所要考量的要素,余民寧概括諸家見解認為主要有六
(余民寧,1992),分別為:試題反應理論、題庫的準備、測驗的起點、能力估計、試題選 擇方法、終止標準等,其中各要素都有幾種可用的選擇,建置時視實際的需要採取相應選 擇加以進行。而就文藻外語大學電腦化中文適性測驗的建置而言,除了上述六項要素外,
因應實際測驗的需要,結果輸出的各項參數也是必須考量,因此本部分也加以介紹,說明 文藻外語大學電腦化中文適性測驗系統建置的大概情況:
一、試題反應理論
IRT乃依據受試者接受一測驗的結果表現,透過數學模式的運算,評估受試者能力和 測驗反應間之關係,即以機率的概念來解釋受試者能力和題目反應間之關係(Lord, 1980)。而文藻外語大學電腦化適性測驗系統,在經過試題題型(四選一的選擇題)、計分 類別數(僅區分答對與答錯)、測量客觀性等多重條件的評估,發現運用 IRT 之單參數 Rasch模式(Rasch, 1960)加以描述即可達成閱讀能力的測量要求(Wright & Mok, 2000),
如公式(1):
exp( ) 1 exp( )
n i
ni
n i
P b
b
θθ
= ⋅
+ ⋅ (1)
P
ni為第 n 位考生作答第 i 題的答對機率,θ
n為第 n 位考生的能力,bi為第 i 題的難度,亦即,同時考量個案能力與試題難度來計算答對機率,答對機率可以解釋與預測作答反
應,其關係如圖 1 所示。當考生能力遠低於試題難度,如圖 1 左下角之情境,計算得到的 答對機率相當低,可解釋該考生為何答錯該題;反之,如圖 1 右上角之情境,可解釋該考 生為何答對該題。
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.1
-2.6
-3 -2.2 -1.8 -1.4 -1 -0.6 -0.2 0.2 0.6 1 1.4 1.8 2.2 2.6 3 個案能力
答對機率
圖 1 Rasch 模式能力與答對機率關係圖
文藻電腦化中文適性測驗系統乃是以單參數 Rasch 模式為理論基礎,意即,每一道試 題僅使用一個試題參數(難度)進行表徵;針對每位考生也僅使用一個受試者參數(能力)
表徵其閱讀能力。後續的題庫建置、能力估計模組、試題選取、與輸出結果模組,皆以此 分析模式為基礎進行開發。
二、題庫的準備
題庫的準備是 CAT 的核心,文藻電腦化適性測驗的題庫,係以已有的測驗及預試題 目為 IRT 分析之對象加以評估。先確定分析模式為單參數模式,再篩選合乎模式的配適度 指標,同時也針對每道試題計算古典測驗理論中的通過率與鑑別度,方才列題庫。最後並 檢查題目難度和能力的分配情形,瞭解考生閱讀能力與試題難度之整體對應情形,以利後 續系統建置時的相關設定(如:測驗起點之決定)。本系統採用 ConQuest 分析軟體(Wu, Adams, & Wilson, 1998)進行單參數 Rasch 模式,該軟體可同時進行 IRT 分析與古典測驗 理論分析,在 IRT 分析部分,可估計考生能力、試題難度之外,也提供了豐富的配適度統 計指標,供研究者判斷試題被答題情況是否合乎理論預期。在古典測驗理論分析部分,提 供了試題的通過率、鑑別度與選項分析等數據,這些數據有助於對傳統理論較熟悉之研究 者瞭解題庫試題之量化品質。而為方便起見,本系統同時將 ConQuest 軟體內嵌在適性測
驗系統中,操作者只要將預試之原始反應資料上傳至系統中,即可自動呼叫 Conquest 軟 體進行前述試題參數之計算,無須另行撰寫分析語法,免去因不熟悉分析軟體而可能衍生 的分析問題。以下分別針對 IRT 試題參數做進一步之說明:
(一)試題難度
試題難度代表該題在潛在特質量尺上的位置,數值範圍一般介於 -3~3 之間,數值越 高代表試題越難,反之,越簡單。經過計算,文藻電腦化中文適性測驗之難度在 -4 至 3.5 之間。
(二)試題配適度
試題配適度為檢視該題被考生作答情況是否合理之統計指標,若某一道難題(如 Rasch難度為 3)被多數能力低於 3 的考生答錯;或反之,一道簡單試題(如 Rasch 難度 為 -3)被能力高於 -3 的考生答對,便屬於作答情況合理。
ConQuest 軟體提供兩種常見的試題配適度指標為:非加權均方誤(unweighted mean square error)以及加權均方誤(weighted mean square error)。兩者的相同處在於皆為自由度 為 1 的卡方統計量,數值介於 0 與無限大之間,期望值為 1.0。相異處在於非加權均方誤 較容易受到能力極端者之不合理作答反應,導致較劇烈的數值變化;相反的,加權均方誤 則較不受極端值影響(Smith, 2000)。在本測驗系統中以加權均方誤為主要指標,當某試題 之 配 適 度 超 出 0.7~1.3 區 間 之 外, 便 視 為 適 配 度 不 佳 之 試 題(misfit items)(Wright &
Linacre, 1996),而配適度越接近 1.0 的良好試題便集合起來建置成題庫,作為電腦適性測 驗之選題範圍。
以文藻電腦化中文適性測驗來說,其題庫的建置依照適性測驗係依試題反應理論建 構,應試者所應答的試題非傳統固定題數之試卷,而是以整個題庫範圍,依應試者答題情 況,評估其能力所對應的難度,再依據難度選題。若以題庫來說,文藻外語大學電腦化中 文適性測驗之題庫已達五百題。題庫的依據,是多年來已試或預試的試卷文本,其文言及 白話比例大約一半,文學與非文學比較亦大約一半。
若落實在具體選題來說,由於適性測驗對應試者的評估係用一能力值加以標示,因此 在各試題之試題參數評估時,即是同時考慮已試或預試文本中的文言及白話、文學與非文 學類的試題比重。
在實際試題與現行大學教材方面,由於現行大學課堂無固定課本,因此不易評估是否 在課堂上研讀過,然在題庫及預試題本審題時,已儘量避開熟悉文本,以避免記憶情況發 生。而進一步分析預試試題結果,發現若使用單參數 Rasch 模式(只估試題難度)針對已 預試過的題目加以分析,整體來看,具有下列情形:
1.多數試題與模式的配適度良好,僅少數試題發現異常。
2.試題難度分佈能對應受試者能力分佈(多為中等偏易)。
3.受試者能力分佈近似常態,進行能力估計時,可據此設定考生能力同樣為常態能力分 布。
由於資料符合單參數模式,所以無須使用三參數模式(Birnbaum, 1968)評估建構題 庫,目前文藻電腦化中文適性測驗題庫共有 600 道試題,未來將根據 600 道試題畫成的 Rasch難度分布圖,以明瞭後續應新增哪些等度的試題進入題庫。
三、測驗的起點
測驗的起點可以有多種選擇,文藻電腦化中文適性測驗係隨機選取中度難度為測驗起 點。雖然接受適性測驗學生的能力未知,但從已預試過資料發現受試者能力分布近似常態 分布(平均數為 0、標準差為 1.5),因此可先假設學生能力為中等程度,可對應的應試者 最多,缺點是中等難度題目其保密性會較差,但目前為止僅施測兩年,每次皆同時測驗,
曝光度的問題暫可忽略,未來可在試題選取方法中加入曝光率控制機制,以提升試題保密 性。
四、能力估計
能力估計的精確與否乃是適性測驗的核心之一,以文藻電腦化中文適性測驗來說,估 計法的選取考量以下幾點:1. 分析模式採用單參數 Rasch 模式而非多參數模式;2. 能力向 度目前僅包含閱讀能力而非複雜的多重向度;3. 可從預試資料獲知受試者能力分布近似常 態分布。通盤考量前述 3 點後,在本適性測驗系統使用貝氏期望事後分布估計法(Expected a Posterior, EAP),EAP 估計法的計算公式如下式(2)所示:
1
1 2
( n, n , , nl | n) I i( n) (1uni i( n)) uni
L u u
u
θ =∏
iP
θ −P
θ − (2)其中,Pni及
θ
n與公式(1)的定義相同,不再贅述;uni為第 n 位考生作答第 i 題的答題反 應,若應試者答對該題則 uni為 1,反之為 0;L (u|θ
n)為代入考生能力與作答反應後計算 得到的概似機率函數值,如下式(3)所示:[ ]
61 1
61 1
( ) ( ) ˆ
( ) ( )
r r r
r EAP
r r
r
Q L Q W Q
L Q W Q
θ =
=
× ×
= ×
∑ ∑
(3)ˆEAP
θ 為受試者的 EAP 能力估計值,Qr為受試者在第 r 個切割點上的能力值,W(Qr)為在
第 r 個切割點上的加權值。假設能力事前分布為常態分布,並切割成 31 個點為例,第 1 個切割點 Q1為 -3,W(Q1)為 0.0044。從公式(3)可以看出,EAP 能力估計值為針對概 似機率函數進行加權後的計算結果,影響估計值的因素除了應試者的答題反應之外,部分 也受到能力事前分布(在本適性系統中假設為常態分布)之影響。
五、試題選取方法
試題的選取方法主要考慮量化及質性內容兩因素,量化方面,文藻電腦化中文適性測 驗使用最大訊息法(maximum fisher information),IRT 採用訊息量(information)的概念來 表徵測量精準度,如公式(4)所示。
2
( ) i
i
i i
I P
θ
PQ
′= (4)
其中 Pi′為 Pi對
θ
的一階微分,從公式(4)中可知試題針對不同能力水準的應試者提供不 同的訊息量。從測量誤差的角度來解釋,訊息量也反映出試題在不同能力點的估計誤差(standard error, SE),估計誤差越低表示訊息量以及測量精準度越高。估計誤差定義為訊息量倒數之 平方根,如公式(5)所示。
( ) 1
SE
( )θ
I
= θ (5)
綜合公式(4)與(5)來看,可知當訊息量愈高表示試題對該能力點的測量誤差愈低、
測量精準度愈高。值得一提的是,當能力與難度兩者相等時,該試題會提供最大化的訊息 量,如:中等能力考生(能力值為 0.5)作答中等難度試題(難度值為 0.5)有最高的訊息 量。然而,當能力與難度兩者差距越大時,試題訊息量以及測量精準度越低,如高能力考 生作答低難度試題則僅獲得低訊息量,測量誤差升高。
選取最佳化試題的步驟有二,先假設受試者目前能力估計值為
θ
,將θ
代入公式(4)計算題庫中所有尚未施測試題的訊息量;其次,選取試題訊息量最大的試題,當做下一施 測題目。根據最大訊息法進行選題可以使受試者接受測驗後的試題訊息總和達到最大(因 為每道施測的試題皆提供最大訊息量),由於試題訊息總和與能力估計的標準誤平方成倒 數關係,因此這種選題法可使受試者能力估計的標準誤減至最小,以產生最準確的能力估 計值。而文藻電腦化中文適性測驗之選題乃是就可提供最大訊息量的數道試題中隨機抽取 試題作為應試者考試之用。
質性內容方面,測驗試題的內在結構涉及知識內在結構層面,因此在選題時,題目的 選擇亦應考量涉及的知識面向,係不同的測驗目的而有不同分類,以中文閱讀試題為例,
分為語文知識與文意理解 2 個不同向度,未就題目進一步加以細分。
六、測驗終止條件
適性測驗考試題數可以因人而異,至預設好的終止條件為止。測驗終止條件的方式分 為「固定長度」與「固定能力估計精準度」兩種。「固定長度」意謂當測驗的題數達到預設 的長度(題量)時停止測驗;「固定能力估計精準度」意謂當測驗的能力估計誤差小到一個 程度停止測驗。以文藻電腦化中文適性測驗來說,終止條件可以分別就題量及精準度分別 設計,也可以同時設定,本研究採雙重設定,亦即題量最高 20 題,或估計誤差小於等於 為 0.5 即測驗終止。20 題的測驗長度相當於一般的短測驗,在應試者尚未覺得疲憊與乏味 之前便能終止測驗。在估計誤差部分,若能力為標準化常態分布(平均數為 0、標準差為 1),估計誤差為 0.3 對應到信度為 0.9;在文藻電腦化中文適性測驗系統中,能力分布的 標準差接近 1.5,因此,當估計誤差小於等於為 0.5 時,信度值仍會近似 0.9,表示評量結 果精準度相當高。文藻外語大學電腦化適性測驗所用的題庫,全部是經過 300-1000 人以 上的預試,經分析後,整體題庫能達到信度 0.9 以上的試題方能納入題庫。
七、輸出結果
為測驗實際需要,文藻電腦化中文適性測驗系統於輸出結果主要分成兩類,一為歷程 記錄,一為成績表示,茲分別說明於下:
(一)歷程記錄
歷程記錄主要是提供成績查核、系統調整及研究資訊等資料,其主要包括四部分:
1.施測題目序號、題號
2.每一道試題之 Rasch 難度、該題正確答案、考生作答反應與計分後結果 3.能力值與精準度
4.開始及結束時間,包括各題作答時間
如表 1 所示,常見的考生施測歷程記錄可包含序號、題號、難度等多個欄位資料。然 而,一般而言,僅呈現最終結果給考生,其餘欄位資料並不會呈現,僅記錄在後台資料庫 中。施測過程簡要說明如下,應試者初始能力值預設為 0,從題庫中隨機選取 Rasch 難度 為 -1.08 的中等難度試題施測,應試者答對該題因此能力更新為 0.25,此時估計誤差約為
2.46。接著,適性系統在從題庫中選取最佳化試題(Rasch 難度同為 0.25)進行第 2 題之 施測,應試者又答對該題使得能力上升至 0.6,估計誤差大幅下降到 1.63,其餘依此類推。
表 1 施測相關歷程記錄資料表
學號:1100205,姓名:黃○○,性別: ,測驗開始時間: ,測驗結束時間: , IRT: -0.15,分數: 51,
θ
: -0.15,精準度:0.482615352625979 題目序號 題號 正確答案 考生 作答
作答 反應
能力
(
θ
) 難度(b)
估計誤差
(SE) 開始時間 結束時間 C095010650 1 A A 1 0 -1.081 0 09:22:17 09:22:40 C101070220 2 C C 1 0.25 0.25 2.45947 09:22:40 09:23:09 C101100150 3 A C 0 0.6 0.604 1.63337 09:23:09 09:24:09 C101110140 4 B B 1 0.3 0.3 1.23592 09:24:09 09:24:43 C099010150 5 A C 0 0.55 0.549 1.06763 09:24:43 09:26:00 C099020090 6 D B 0 0.3 0.301 0.93216 09:26:00 09:27:06 C101050340 7 D D 1 0.1 0.1 0.84639 09:27:06 09:27:45
(二)成績表示
由於 IRT 能力值的數值範圍常介於 -4~4 之間,並非廣為使用的百分制。為了提升應 試者對施測結果的瞭解度,文藻電腦化中文適性測驗的成績結果係以量尺分數表示,而量 尺分數系根據 IRT 能力值進行線性轉換而來,以維持原本能力量尺之等距特性。以文藻電 腦適性測驗為例,現有題庫所能測得之能力範圍介於 -4~3.5 logit 之間,若轉換成 0~100 分之量尺分數,能力值為 3.5 之考生對應到 100 分,能力值為 3.425 者對應到 99 分。若某 位考生能力值為 3.3,則對應到最接近的能力值(3.275),因而獲得 97 分,依此類推,其 能力值與量尺分數之對照如表 2 所示:
表 2 文藻外語大學中文適性測驗能力值與量尺分數對照表 能力值(-4~3.5) 量尺分數
3.5 100
3.425 99
… …
0.2 56
0.1 55
0 53
-0.1 52
-0.2 51
… …
-3.85 2
-3.925 1
-4 0
而本論文在能力的結果分析上,仍使用 -4 至 3.5 之間的能力值加以討論,量尺分數僅 用於成績單。
在上述的基礎上,文藻電腦化中文適性測驗系統共涵括六個子系統、兩個資料庫,其 系統架構如圖 2 所示:
試題資料庫 試題編輯人員
題庫研究人員 考生
測驗管理人員
測驗結果 分析報表 測驗資料庫
測驗管理 子系統 試題編輯
子系統 試題分析
子系統 適性選題
子系統
測驗介面 子系統
測驗計分 子系統 文藻外語學院 中文能力測驗專用模組
電腦適性化測驗系統
圖 2 文藻外語大學中文適性測驗系統構造圖
參、大學中文應用科系閱讀能力檢定之過程
文藻應華系閱讀能力之檢定即是使用上述之電腦化中文適性測驗為工具,於 2012 年 10月、2013 年 10 月分班針對全系學生進行普測。總計參與測驗共 701 人,各年度各年級 參與人數如表 3。
表 3 文藻外語大學應用華語系學生參與中文適性測驗歷年班級人數表 2012人數 2013人數
應華一 93 97
應華二 82 91
應華三 89 82
應華四 82 85
小計 346 355
而就適性測驗系統來說,實際測驗的流程如圖 3 所示。
是 否
題庫 1.測驗開始
5.選擇 2.考生作答
4.測驗終止
6.輸出結果
3.能力估計
圖 3 文藻外語大學中文適性測驗實施流程圖
上述的流程中,測驗起始點係自中等程度開始,隨機出題;而測驗結束則是題數控制 或精準值其中之一到達設定要求時,即結束此測驗。而當考生應試中離開重新登入時,系 統會直接回復至學生登出時的題目,不必從第一題做起。圖 4 是考生的登入畫面及應試畫 面。
以 2012、2013 年實際測驗來說,701 位應華系學生大多數答題題量至 17-18 題即達精 準度要求的終止條件;有極少數答題至 20 題,但皆達到精準度 0.5 的要求。而答題時間 方面,應試考生的全部答完時間在:9-15 分鐘,平均 11 分鐘,就效率來說,在維持高精 準度條件下卻僅施測較少的題量,效率較以往測驗更好。
肆、大學中文應用科系閱讀能力檢定之結果與分析
以電腦化適性測驗針對文藻外語大學應用華語文系進行閱讀能力檢定於 2012 年正式 實施,2013 年亦已施測完畢,茲說明此二年度之檢定結果及分析於下:
一、2012-2013 文藻應華系各年級閱讀能力檢定之結果與分析
表 4 是 2012 年文藻應華系學生參加電腦化中文適性測驗的主要數據。
表 4 2012 文藻外語大學應華系學生中文適性測驗能力表 2012 人數
θ
最高θ
最低θ
平均 標準差 應華一 93 1.35 -1.3 0.117 0.543 應華二 82 1.2 -1.85 0.125 0.479 應華三 89 1.35 -1.35 0.108 0.551應華四 82 1.3 -1 0.173 0.480
圖 4 文藻外語大學中文適性測驗登入及應試畫面圖
由表 4 可知,2012 文藻應華系學生的能力平均約在 0.1 至 0.17 之間,轉換為量尺分 數為 55 分。四個年級的標準差接近,大約是 0.48-0.55 之間,從標準差看成績分佈顯示能 力分佈絕大多數(兩位標準差── 95%)落在 1.28 至 -1.0 之間。若比起整個系統能力以 0 為中點,全距 3.4 至 -4,兩倍標準差 3 至 -3 來看,2012 文藻應華系的平均成績接近全體 平均數,但分佈相當集中。
若以 2012 年應華系各年級學生的平均能力差異加以觀察,進行單因子變異數分析
(one way anova),其結果如表 5 五所示。
表 5 2012 文藻外語大學應華系學生中文適性測驗能力顯著性分析表
變源 SS 自由度 MS F P-值 臨界值
組間 0.210678 3 0.070226 0.260666 0.853709 2.63102 組內 92.13817 342 0.26941
總和 92.34885 345
由表 5 可知,應華系各年級之間未達顯著差異(p > 0.05),也就是說,四個年級的應 華系學生大多數的成績十分接近,四個年級的學生成績並未隨年級而有顯著變化,雖然表 面上看起來四年級學生的能力表現略優於其他三年級,但差距其實很小。
相對於 2012 年文藻應華系學生的表現,2013 年學生的應試表現差異不大,表六是 2013年文藻應華系學生參加電腦化中文適性測驗的主要數據。
表 6 2013 文藻外語大學應華系學生中文適性測驗能力表 2013 人數
θ
最高θ
最低θ
平均 標準差 應華一 97 1.45 -1.0 0.156 0.453 應華二 91 1.2 -1.05 0.134 0.462 應華三 82 1.4 -1.0 0.257 0.485 應華四 85 1.1 -1.15 0.167 0.429由表 6 可知,2013 文藻應華系學生的能力平均約在 0.13 至 0.26 之間,轉換為量尺分 數為 55-57 分。四個年級的標準差接近,大約是 0.43-0.48 之間,從標準差看成績分佈顯示 能力分佈絕大多數(兩位標準差── 95%)落在 1.21 至 -0.85 之間。若比起整個系統能力 以 0 為中點,全距 3.4 至 -4,兩倍標準差(接近 1) 2 至 -2 來看,2013 文藻應華系的平均 成績如同 2012 年成績,亦接近整體平均數,其分佈亦相當集中。
若以 2013 年應華系學生各年級的差異加以觀察,進行單因子變異數分析(one way anova),其結果如表 7 所示。
表 7 2013 文藻外語大學應華系學生中文適性測驗能力顯著性分析表
變源 SS 自由度 MS F P-值 臨界值
組間 0.758887 3 0.252962 1.082237 0.356596 2.630347 組內 82.04284 351 0.23374
總和 82.80173 354
由表 7 七可知,2013 年應華系各年級之間未達顯著差異(p > 0.05),也就是說,四個 年級的應華系學生大多數的成績十分接近,四個年級的學生成績並未因年級不同而有顯著 變化,雖然表面上看起來三年級學生的能力表現略優於其他年級,但差距其實很小,多數 學生之間是沒有顯著的不同的。
二、連續兩年度相同學生閱讀能力之追 觀察與分析
本文係以 2012-2013 年連兩年參與施測的應華系學生為研究對象,在參與學生之中,
大多數係連續兩年參與的學生。因此,要觀察學生的連兩年的閱讀能力變化,可以將已有 資料加以整理,將連續兩年參與的學生篩選出來。以 2012、2013 年來說,連續參與兩年 的學生分別為 99-101 級,表 8 即為 99 至 101 級相同學生參與電腦化中文適性測驗之平均 能力表現及相依樣本 t-test 檢定之 p-value。
表 8 2012-2013 文藻外語大學應華系學生中文適性測驗能力顯著性分析表
101級 100級 99級
大一
(2012)
大二
(2013)
大二
(2012)
大三
(2013)
大三
(2012)
大四
(2013)
平均數 0.119 0.134 0.134 0.170 0.069 0.165
樣本數 87 65 77
t-test
p值 0.808 0.562 0.149
*備註:相依樣本,雙尾
由表 8 可知,三個年班在 2012、2013 兩年的平均能力表現僅有小幅成長,但未達顯 著(p > 0.05),顯示多數應華系學生在兩年間閱讀能力的是沒有明顯變化的。
除了追 文藻應華系學生在連兩年的成績變化外,亦可以針對各年班能力表現高低加 以分組,觀察高分群、中等分數、低分群學生在兩年間的成績變化是否有顯著改變。表 9 針對平均能力進步幅度相對較大的大三升大四該組別為例,將成績變化整理成 3 乘 3 的列
聯表並進行卡方考驗,以觀察高分(0.8 以上)、中等、低分群(-0.8 以下)學生是否表現出 顯著差異:
表 9 2012-2013 文藻外語大學應華系 99 級學生中文適性測驗卡方檢定表 99級(大 3 升大 4) / 臨界點為(0.8,-0.8)
低分 中等 高分 卡方值
p
值低分 0 7 0 1.582 0.453
中等 0 60 3
高分 0 6 1
由 p 值可知絕大多數學生是沒有顯著變化的(p > 0.05),如中等分數學生在一年後仍 屬中等分數,未進步到高分組,無顯著變化。
三、應華系學生的試題差異分析
電腦化中文適性測驗系統乃是依據應試者答對或答錯的結果選擇題目,通常題目偏難 或偏易的試題出現的次數相對中等難度的試題為少,因此純粹就各題的答對或答對次數評 估應試者的情形並不恰當,不過若就答對率來說應該維持在 0.5。雖然如此,由於文藻電 腦化中文適性測驗系統之題庫係以全校學生為樣本,其難度估計也是全校學生。所以若是 就此次應華系學生答對率加以觀察,若某道試題出現次數夠多,且答對率偏離 0.5 太多 時,將可以看出應華系學生閱讀能力與全校學生實際面向的情形。
以 2013 年測驗,應華系考生共 355 人,總答題 6559 題次,其中超過 100 人次的試題 共有 19 題,答對率如表 10:
表 10 2013 文藻外語大學應華系學生試題答對率表(100 人次以上答題)
編號 試題代碼 答題人次 答對人數 答對率
1 C101070220 258 161 0.624
◎ 2 C101110140 214 42 0.196
3 C101010500 159 78 0.491
4 C101010510 159 103 0.648
◎ 5 C101010520 159 136 0.855
6 C101120190 142 101 0.711
7 C101050030 138 81 0.587
8 C101040020 134 96 0.716
編號 試題代碼 答題人次 答對人數 答對率
9 C101050050 126 54 0.429
10 C101050340 126 54 0.429
11 C101100150 120 55 0.458
12 C101040040 119 78 0.655
13 C101070070 119 78 0.655
14 C101100320 117 52 0.444
15 C101010130 109 70 0.642
16 C099020170 102 54 0.529
17 C101030280 102 35 0.343
◎ 18 C101050190 102 22 0.216
19 C099020200 101 64 0.634
上述 19 題中,答對率接近或超過 80%,以及接近或低於 20% 的題目計有三題。而就 適性測驗來說,由於答題人數多,且難度會隨應試結果調整,因此答對率應該以 0.5 為中 心,標準差為 0.12 呈現常態分配。依常態分配來看,超過兩倍標準差(0.78 以上及 0.25 以下)的機率應在 0.05 以下,因此表 10 中的 1、5、18 明顯表現出與其他試題的差異,
而此三題之題目內容如下:
(1)代碼 C101110140
袁枚〈祭妹文〉:「凡此 ,雖為陳跡,然我一日未死,則一日不能忘。舊事填 膺,思之淒梗,如影 ,逼取便逝。悔當時不將 情狀,羅縷紀存。」,上 文 內之字詞,宜填:
(A)種種/歷歷/蠕蠕
(B)瑣瑣/歷歷/嫛婗
(C)惕惕/歷歷/垂髫
(D)呱呱/啞啞/惕惕
(5)代碼 C101010520
余麗丹 < 五月聽雪 >
我是妳在翠綠中看見的雪
是妳求了好多天,一天摘下一片耳朵 終於才有的一聲寂靜:白白的寂靜
妳要拿掉所有顏色來聽
譬如,把 A4 那些字都退給影印機 把肥皂、消費過我們的廣告、
捷運紅藍綠線,以及寫了一半的光線 全都暫時忘記
在這裡授權,以五瓣形戳記 授權自己簡單的呼吸 我是油桐花
像情人喜歡在一個有逆時針的街角 交換彼此的易碎物
我想說:離散與想像都是一種壯烈 它們表達愛,而我只想表達一點存在 妳來,五月來聽我
這是一座島的約定 簡單地把單車摺進風景裡 簡單地走,簡單聽取每一次飄墜
摘自:《第 1 屆桐花文學獎得獎作品集》2010
本詩作者在這首詩使用的手法為?
(A)第一人稱法的敘述
(B)第二人稱法的敘述
(C)第三人稱法的敘述
(D)無使用人稱法的敘述
(18) 代碼 C101050190
陶淵明〈責子〉云:「雖有五男兒,總不好紙筆。阿舒已二八,懶惰故無匹。
阿宣行志學,而不愛文術。雍端年十三,不識六與七。通子垂九齡,但覺梨與 栗。」這一段敘及他孩子的詩句是採用何種章法佈局寫成:
(A)先虛寫後實寫
(B)先敘述後議論
(C)先總括後條分
(D)先主要後次要
觀察以上三題,會發現其中有兩題為文言文,另一題為新詩,而文言文的兩題屬偏難 題目,新詩則是偏易試題。而就試題涉及的知識層面來說,第一題涉及詞義的用法,而第 二、三題則涉及中文寫作及佈局的「程序知識」及「後設規範知識」(鄭圓鈴,2004),其中 的第三題應華系學生答題的表現顯示出其在此後設知識面的認知有所不足,而第二題的
「程序知識」對應華系學生而言則偏易。
伍、結 論
本文係以文藻外語大學應用華語文系為對象,針對該系學生的中文能力進行連續兩年 之四個年級的全面性考察。就現行台灣大學間頗為風行的中文能力測驗來說,電腦化中文 適性測驗較傳統的測驗型態上在理論依據及信效度上更為良好,且在時間及經濟規模上也 較傳統測驗型態更為經濟而有效率。因此,本文以文藻外語大學電腦化中文適性測驗對該 校應用華語文系學生的中文能力加以觀察,其結果及測驗型態上都屬國內前端,極為少見 而具有參考意義。
不僅如此,本文針對文藻外語大學應用華語文系四個年級學生進行全面且連續兩年的 追 ,也可以看出台灣中文類科系的教學,在實際學習成效的表現。此一結果不但可作為 學校科系內部考量的參考,也可以做出其他同性質、甚或一般授課時數未如中文類學科的 其他科系,在中文教學成效的回饋與參考。
如上所述,以檢定的工具而言,文藻應華系使用的電腦化中文適性測驗系統較一般紙 筆測驗型態的測驗更為有效可靠。而從 2012、2013 文藻應華系學生在閱讀能力的表現來 看,大致處於全校的中間成績,其分布相當集中。就 2012、2013 文藻應華系四個年級各 自的閱讀能力表現來看,四個年級的能力雖然略有不同,但未達顯著差異,顯示文藻應華 系學生在閱讀能力上的表現並未因年級不同而不同。除此之外,追 相同學生在 2012、
2013年的表現,會發現若單就學生本身而言,也未因升級而有顯著改變;而進一步就各 年級閱讀能力高、一般、低等三組觀察其在 2012、2013 年的表現,也是相同情形,為無 顯著差異。
最後,本文亦就應華系與全校之間在試題表現的差異進行分析,發現僅有三數試題有 著明顯的差異,而差異的試題分為簡單一題和困難兩題等兩類,前者為中文寫作及佈局的
「程序知識」,而後者皆為文言文,屬於詞義運用與「後設規範知識」。
參考文獻
王文中(2004)。Rasch 測量理論與其在教育和心理之應用。教育與心理研究,27(4),
637-694。
余民寧(1992)。題目反應的介紹──測驗理論的發展趨勢(二)。研習資訊,9(1),5-9。
鄭圓鈴(2004)。高職國語文標準化成就測驗的編製。台北:心理出版社。
Birnbaum, A. (1968). Some latent trait models and their use in inferring an examinee’s ability. In F. M. Lord & M. R. Novick (Eds.), Statistical theories of mental test scores (pp. 397-479).
Reading, MA: Addison-Wesley.
Lord, F. M. (1980). Applications of item response theory to practical testing problems. Hillsdale, NJ: Lawrence Erlbaum Associates.
Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen, Denmark: Danmarks Paedogogische Institut.
Smith, R. M. (2000). Fit analysis in latent trait measurement models. Journal of Applied
Measurement, 1(2), 199-218.
Wang, W. C., & Chen, P. H. (2004). Implementation and Measurement Efficiency of Multidimensional Computerized Adaptive Testing. Applied Psychological Measurement,
28(5), 295-316.
Wang, W. C., Chen, P. H., & Cheng, Y. Y. (2004). Improving Measurement Precision of Test Batteries Using Multidimensional Item Response Models. Psychological Methods, 9(1), 116-136.
Wright, B. D., & Linacre, J. M. (1994). Reasonable mean-square fit values. Rasch Measurement
Transactions, 8(3), 370.
Wright, B. D., & Mok, M. (2000). Rasch models overview. Journal of Applied Measurement,
1(1), 83-106.
Wu, M. L., Adams, R. J., & Wilson, M. R. (1998). ACER ConQuest: Generalized item response
modelling software. Melbourne, Australia: Australian Council for Educational Research.
作者簡介
謝奇懿,國立金門大學華語文學系,副教授(通訊作者)
Chi-Yi Hsieh is an Associate Professor of the Department of Chinese Studies, National Quemoy University, Kinmen County, Taiwan. (Corresponding Author)
收稿日期:民國103年05月27日 修正日期:民國103年11月30日 接受日期:民國103年12月01日
READING COMPETENCY TESTING AND RESULT ANALYSIS FOR STUDENTS OF
APPLIED CHINESE MAJORS- A CASE STUDY ON THE STUDENTS OF THE DEPARTMENT OF APPLIED CHINESE OF
WENZAO URSULINE UNIVERSITY OF LANGUAGES
Chi-Yi Hsieh
Department of Chinese Studies, National Quemoy University
ABSTRACT
This research aims to explore the reading competency of undergraduate students majoring in applied Chinese related specializations by utilizing the existing computerized Chinese competency testing system of Wenzao Ursuline University of Languages (Wenzao University). The experiment was implemented on the students studying at the Department of Applied Chinese of Wenzao University in 2012 and 2013 (tested students), targeting their reading abilities.
For testing tools, the computerized Chinese competency testing system set up at Wenzao University was deemed more effective and reliable than the general pen-and-paper testing methods. Results of the reading competency tests implemented in 2012 and 2013 showed that the tested students fell rather concentrated in the middle section of the scale. In addition, when viewed from collective performance of each grade, there were slight differences between the four grades, but none of the differences reached the level of statistical significance.
This shows that there were no differences between the four grades in terms of reading abilities. The same batch of students was tracked from 2012 to 2013 and each student was analyzed for his/her reading abilities at different time sectors (advancing from one grade to the next). We found that no significant differences were present in reading abilities when a student moves from one grade to the next.
Further analysis was conducted on three groups of mixed grades labeled high, general and low reading abilities, and no significant differences were found in between the results of 2012 and 2013.
Finally, this research conducted an analysis on the differences between students of the Department of Applied Chinese and students of other majors.
Significant differences were only found in three sections: one ranked in the scale as “easy” and two “difficult”. The former involves “knowledge of procedures” on Chinese writing and layout, and the latter involves meanings of vocabularies and
“meta rules” of classical Chinese texts.
Keywords: Chinese reading abilities, Department of Applied Chinese of Wenzao Ursuline University of Languages, computerized Chinese Competency Test