• 沒有找到結果。

「全民英檢」學習者自我評估量表發展

N/A
N/A
Protected

Academic year: 2021

Share "「全民英檢」學習者自我評估量表發展"

Copied!
44
0
0

加載中.... (立即查看全文)

全文

(1)

「全民英檢

全民英檢

全民英檢

全民英檢」

」學習者

學習者

學習者

學習者自我評估

自我評估

自我評估

自我評估量表發展

量表發展

量表發展

量表發展

吳若蕙

吳若蕙

吳若蕙

吳若蕙

李佳隆

李佳隆

李佳隆

李佳隆

語言訓練測驗中心 研發長 語言訓練測驗中心 統計員 jw@lttc.ntu.edu.tw stat@lttc.ntu.edu.tw 摘要 摘要 摘要 摘要 「全民英檢」自民國 89 年施測以來,廣受採用,迄今已達 400 萬人次報考,成績獲申請入學、畢業、甄選等參考。有鑑於「全 民英檢」的重要性,並為更進一步協助學習者選擇適當的級數報 考或作為考前了解自己的強、弱點的參考,本研究以「全民英檢」 的能力指標為本,經實證程序發展適合「全民英檢」初至中高級 的聽力、閱讀自我評估量表。本研究首先經專家判斷程序製定聽 力 22 題、閱讀 21 題的能作敘述 (can-do statement),編製自我評 估量表,並於 2009 年間邀請共 8,006 位「全民英檢」考生回答該 量表。接著,以 Rasch 模式與次序羅吉式迴歸分析方法 (ordinal logistic regression) 探討學習者自我評估的結果與「全民英檢」成 績間的關係,並計算出三個級數的切分點與正確預測級數的機率 模型。分析結果顯示:該模型能正確預估學習者能力的機率分別 為聽力 (68%)、閱讀 (65%),明顯高出隨機機率 (33%),證明該 量表具相當的預測效度。該量表可提供全民英檢指引與教學參 考,教師亦可使用量表中的能作敘述訂定更明確的教學目標與設 計課堂活動。 關鍵詞:全民英檢 自我評估 次序羅吉式迴歸分析 Rasch 模式

(2)

壹、

、 前言

前言

前言

前言

一、自我能力評量 (self-assessment) 自我能力評量在人類行為上並非陌生的概念,無論在意識或 次意識下,每個人都曾做過自我能力評量。隨著學習者取向 (learner-centered) 的語言學習潮流興起,語言學習開始重視學習者 的自發性 (autonomy) 與互動性 (interactiveness),使得關於第二 外 語 的 自 我 能 力 評 量 表 和 研 究 如 雨 後 春 筍 般 問 世 (Bachman, 2000)。自我能力評量的方式被認為對於自發性學習語言有很大的 幫助,它讓學習者能夠檢視自己的進步和個別學習需求 (Harris, 1997)。外語能力評量方式可大致分為兩種 (Oscarson, 1989): (一) 以自我報告或自我能力評量的方式,是學習者對自身的能 力所做的評估,屬於內在或自我導向的評量方式。 (二) 透過考試和測驗,由教師或是訓練過的監試人員對學習 者的能力所做的評估,屬於外在或他人導向的評量方式。 本研究將聚焦在上述第一種,即自我導向的評量方式。 Klenowski (1995) 對自我能力評量的定義為:「對一個人表現的好 壞所做的評估與判斷,試圖找出其優勢與弱勢以改善學習成果」。 因此,透過自我評量,學習者能夠審視自己在某科目上的強弱點。 Bailey (1998) 將語言學習的自我評量定義為「學習者評估自身語 言技巧與知識的過程」。兩位研究者 (Bachman, 2000; Oscarson, 1989) 根據評量目的將自我評量分為:(1) 成就取向的自我評量, 指評量結果將關係到選拔、鑑定、成就與診斷等;(2) 發展取向 的自我評量,係評量學習的過程與自我學習的管理。 自我評量因為可以幫助學生更了解評量的目的與指標,所以 常被視為有效的工具 (Orsmond, Merry & Reiling, 1997),對於學習

(3)

有正面的影響,亦有助於改善學習狀態 (Sullivan & Hall, 1997)。 自我評量可幫助成績不好的學生了解原因來減緩其挫折 (Taras, 2002),Butler 和 Lee (2010) 的研究顯示自我能力評量對於學生 的英語成就表現與學習英語的信心有正向效果。Hillocks (1986) 在寫作作業中,讓學生對自己的作文做自我評量,結果明顯改善 了學生的寫作品質。McDonald 和 Boud (2003) 亦發現在許多不 同的科目上,自我評量的運用皆正向影響學習成就。諸多研究證 據顯示透過自我能力評量能提高學生的成就動機並改善其學習行 為。 另一方面,自我評量的正確性卻常具爭議性,Sullivan 和 Hall (1997) 發現近四成的學生傾向高估自己的表現,顯示自我能 力評量容易流於學習者個人主觀的判斷而使評量結果失去應有的 可靠與有效性。此外,自我能力評量效度的穩定性會受評分者的 不同而受影響。研究發現自評的結果通常高於教師所評、自己-同儕評量的一致性高於自己-教師評量的一致性 (Bergee, 1997; McEnery & Blanchard, 1999)。研究也發現當自我能力評量會影響 到課堂成績時,學生傾向高估自己的能力 (Boud & Falchikov, 1989)。

Ross (2006) 回顧一系列自我能力評量的文獻,對於自我能 力評量的信度、效度與效用,歸納以下三點:(一) 自我能力評量 具有良好的內部一致性信度 (Ross, Rolheiser, & Hogaboam-Gray, 1999),在短期間內亦具有良好的再測信度 (Sung, Chang, Chiou, & Hou, 2005)。另透過教導與說明的方式,使學習者更了解自我能力 評量中題目的涵義,進而提升測驗信度。(二) Ross (1998) 發現從 教材發展出來的能作敘述 (can-do statement) 能獲得比抽象的能 力敘述更精確的自我評量結果,且通常可以提供較佳的同時效度 (concurrent validity)。換句話說,自我能力評量表中的題目描述得

(4)

越符合教學目標、教材與測驗內容,其評量結果越能有效預測學 習者的學習情形。(三) 教導學生如何正確自我評量與了解題目的 涵義也可以提高自評-教師評間的一致性 (Ross et al., 1999; Sung et al., 2005),而教師亦可藉由與學生自評的差異,透過對話來瞭 解學生的學習需求,進而設計合適的課堂教學活動。

Alderson 和 Huhta (2005) 參照歐洲語言能力共同參考架構 (CEFR, Common European Framework of Reference: Learning, Teaching, Assessment) 發展 DIALANG 學習者自我診斷評量系 統,內含自我評量問卷、診斷測驗、回饋三部分。在 DIALANG 研發過程中,為瞭解自我評量問卷的效度,研究者將學習者自我 評量問卷的結果與診斷測驗的分數作比較,結果發現兩者為中度 相關,但這並不足以說明 DIALANG 自我評量問卷的預測效度。 因此 DIALANG 在其網站上提醒學習者注意其評量結果僅供參 考,不代表學習者真實的能力。 英國劍橋大學英語考試院 (Cambridge ESOL) 在其網站上 也提供學習者作自我評量的檢測工具,協助學習者瞭解自己的英 文能力,並得以選擇適合的級數報考。劍橋大學英語考試院未提 供該評量工具的信、效度訊息,雖然提醒該評量的結果僅可作參 考,但仍令人不禁對其參考性存疑。 作者認為即便自我評量並非正式的測驗,它的結果如能更接 近學習者的測驗成績,也就是更具預測效度,自然就更具有參考 價值了。總之,自我能力評量工具的發展必須經實證程序來建立 其信度、內容效度與預測效度。惟有如此,才能較正確的診斷出 學習者的能力,供學習者得知自己的強弱點外,教學者也可藉此 瞭解學習者的學習成果,並有效提高自我能力評量結果的參考價 值。

(5)

二、全民英檢能力分級測驗

全民英檢能力分級測驗 (簡稱「全民英檢」,英文全名:General

English Proficiency Test, 簡稱 GEPT) 自民國 89 年施測以來,廣受採 用,迄今已達 400 萬人次報考,成績獲申請入學、畢業、甄選等參 考,成為國內熟悉的英語能力指標。從報考年齡遍佈各年齡層來看, 全民英檢帶動了全民終身學習。除此之外,全民英檢亦正向影響了 英語學習與教學,Wu 和 Chin (2006) 的研究發現:全民英檢中級 能力測驗的實施,影響了高中英語教學,使得高中的英語教學更重 視英語聽力與口說會話。 有鑒於「全民英檢」的重要性,與目前尚缺乏一套與全民英 檢有關,且具信、效度的「自我能力評量」的工具,學習者除正 式報考全民英檢外,並無合適的工具來檢測自己的英語能力。除 此之外,研究者參考全民英檢各級數歷年的通過率和平均分數亦 發現:許多初次報考全民英檢的考生,成績遠高或遠低於該級數 通過分數達 20~30 分以上,這表示這些學習者在報考前並不了解 自己真實的英語能力屬於那個級數。因此,本研究以「全民英檢」 的能力指標為本,經一系列實證程序發展出具效度的「全民英檢」 初級至中高級的聽力、閱讀自我能力評量表,目的在於: (一) 全民英檢為大家熟悉的英語能力架構,希望學習者能以 此「自我能力評量」訂立學習目標與自我管理學習。 (二) 希望透過「自我能力評量」協助學習者選擇適當的級數 報考,如此一來,自我能力評量表中各級數之間應如何 切割,如何與全民英檢各個級數對應,為本研究關注的 議題。 (三) 希望透過「自我能力評量」產生的立即回饋來增進學習 者學習英文的動機,並透過正式測驗來驗證「自我能力 評量」的結果,期產生互動性的英語學習效果。

(6)

總而言之,本研究欲探討由實證發展出來的「全民英檢自我 能力評量表」是否為一有效的英語診斷工具,並提出以下兩個研 究問題: (一) 「全民英檢自我能力評量表」是否可有效區分不同程度 的學習者? (二) 全民英檢考生成績與這些考生的自評結果的關係為何? 換言之,「全民英檢自我能力評量表」的預測準確性或預 測效度為何?

貳、

、材料與

材料與

材料與

材料與方法

方法

方法

方法

一、樣本 本研究以參加全民英檢初級、中級與中高級的考生為主要研 究對象,樣本收集期間為 98 年 2 月與 6 月全民英檢初級測驗、1 月與 7 月中級測驗及 3 月與 10 月中高級測驗,根據該次報考考生 的年齡、性別與區域取樣,於正式測驗前 1~2 週取樣 1000~1200 名考生進行抽測,抽測試卷的組卷方式與正式測驗相同,為避免 影響正式測驗的進行與公平性,本研究選擇在抽測時採樣。英語 聽解能力共收集 4105 份樣本;英語閱讀能力 3901 份樣本。地區 分佈方面,北部佔 45%、中部 20%、南部 35%;性別分佈方面, 男女比例約為 2:3。年齡方面,初級考生平均年齡為 14.98 歲,為 初級目標國中學歷考生;中級考生平均年齡為 16.79 歲,為中級 目標高中/職學歷考生;中高級考生平均年齡為 18.42,為中高級 目標大學學歷考生 (見表一)。本研究樣本分佈與全民英檢測驗的 樣本分佈相符,具取樣代表性。

(7)

表 表 表 表一一一 取樣人數分佈表 取樣人數分佈表 取樣人數分佈表 取樣人數分佈表 聽力 閱讀 人數 百分比 人數 百分比 地區 北部 1,862 45% 1,771 45% 中部 816 20% 750 19% 南部 1,427 35% 1,380 35% 性別 男性 1,554 38% 1,451 37% 女性 2,551 62% 2,450 63% 平均年齡 初級 14.98 中級 16.79 中高級 18.42 二、研究工具 本研究所使用的兩種研究工具為「全民英檢測驗」與「全民 英檢自我能力評量」,以下說明之:

全民

全民

全民

全民 英檢

英檢

英檢

英檢

(GEPT)。本研究用來收集考生表現之工具為 GEPT 初級至中高級初試聽力與閱讀測驗,試題選自全民英檢題 庫,依各級測驗規格組卷,內容與難度和同級正式測驗相同,每 項測驗分數範圍為 0 至 120 分,總分為 240 分。除了初級聽力測 驗為三選一之選擇題外,其餘試題皆為四選一之選擇題。測驗題 型、題數、測驗時間與通過標準見表二,自民國 99 年起,初級聽 力測驗與中高級閱讀測驗題型有稍作修訂,詳情請查閱「LTTC 全民英檢網站」。

(8)

表 表 表 表二二二 題型比較表 題型比較表 題型比較表 題型比較表 測驗 聽力 閱讀 級數 初級 中級 中高級 初級 中級 中高級 測驗 題型 (題數) 看圖 辨義 (10 題) 看圖 辨義 (15 題) 問答 (15 題) 詞彙與 結構 (15 題) 詞彙與 結構 (15 題) 詞彙與 結構 (15 題) 問答 (10 題) 問答 (15 題) 簡短 對話 (15 題) 段落 填空 (10 題) 段落 填空 (10 題) 段落 填空 (15 題) 簡短 對話 (10 題) 簡短 對話 (15 題) 簡短 談話 (15 題) 閱讀 理解 (10 題) 閱讀 理解 (15 題) 閱讀 理解 (20 題) 測驗 時間 20 分鐘 30 分鐘 35 分鐘 30 分鐘 45 分鐘 50 分鐘 通過 標準 聽力成績+閱讀成績≧160 分且單科不得低於 72 分

全民英檢

全民英檢

全民英檢

全民英檢自我

自我

自我能力評

自我

能力評

能力評

能力評量

。 全民英檢自我能力評量包含聽力 與閱讀能力兩部分,計分方式採用二分題 (是、否) 計分。首先 根據「全民英檢」能力指標說明 (表三) 與「全民英檢」全真試 題的測驗目標擬定能作敘述,使量表中的能作敘述皆能反應正式 測驗題目之評量目標。本研究參考 DIALANG 自我評量採專家判 斷 (expert judgment) 的方式,對其原始的能作敘述逐一檢視並淘 汰掉不適合者 (CoE, 2001)。本研究的專家判斷由「全民英檢」研 究團隊 6 位研究人員組成,判斷每一能作敘述所屬的級數 (初至

(9)

中高級) 與內容的適合度,並修改、淘汰不合適的題目。接著再 由兩位外部專家進行量表檢核,確認得使用在後續研究的題目 (含聽力 22 題: 初級 6 題、中級 6 題、中高級 10 題;閱讀 21 題: 初級 7 題、中級 4 題、中高級 10 題)。例如:聽力能作敘述第一 題「購物時,我能聽懂簡單的資訊,例如價格 。」 (附錄表一) 反 映「全民英檢」初級聽力的能力 (表三)。閱讀能作敘述第六題「我 能閱讀一般信件中對個人觀感或意願的陳述。」 (附錄表二) 反 映的是「全民英檢」中級的閱讀能力 (表三)。 又為將三個級數的能作敘述放在同一量尺比較,本研究採用 定錨題設計 (含聽力 9 題: 初級 2 題、中級 3 題、中高級 4 題;閱 讀 11 題:初級 2 題、中級 4 題、中高級數 5 題),並使用 Rasch 模式分析題目的位置 (location) 與每位考生的能力值。能力敘述 請參照附錄表一與表二。雖然每個級數的能力敘述題數未能平均 分配,但專家判斷認為這些能力敘述可適度地反應全民英檢的能 力、具內容效度。另查 DIALANG 自我評量的能作敘述題數以 CEFR 級數區分 (CoE, 2001),也未平均分配,含聽力 43 題:A1 (4 題) A2 (10 題) B1 (10 題) B2 (9 題) C1 (9 題) C2 (1 題);閱讀 31 題: A1 (5 題) A2 (9 題) B1 (8 題) B2 (6 題) C1 (2 題) C2 (1 題)。 考量初、中級考生年紀較輕,同時進行聽力與閱讀自我能力 評量表,可能會因量表題數過多而出現亂答的情形,影響作答準 確性,因此初級與中級抽測依試場隨機僅指派聽力或閱讀能力評 量表其一;中高級抽測則對全部考生同時進行兩項的能力評量表。

(10)

表 表 表 表三三三 全民英檢能力指標說明 全民英檢能力指標說明 全民英檢能力指標說明 全民英檢能力指標說明 初級 聽 能聽懂與日常生活相關的淺易談話,包括價格、時間及 地點等。 讀 可看懂與日常生活相關的淺易英文,並能閱讀路標、交 通標誌、招牌、簡單菜單、時刻表及賀卡等。 中級 聽 在日常生活情境中,能聽懂一般的會話;能大致聽懂公 共場所廣播、氣象報告及廣告等。在工作情境中,能聽 懂簡易的產品介紹與操作說明。能大致聽懂外籍人士的 對談及詢問。 讀 在日常生活情境中,能閱讀短文、故事、私人信件、廣 告、傳單、簡介及使用說明等。在工作情境中,能閱讀 工作須知、公告、操作手冊、例行的文件、傳真、電報 等。 中高級 聽 在日常生活情境中,能聽懂社交談話,並能大致聽懂一 般的演講、報導及節目等。在工作情境中,能聽懂簡報、 討論、產品介紹及操作說明等。 讀 在日常生活情境中,能閱讀書信、說明書及報章雜誌 等。在工作情境中,能閱讀一般文件、摘要、會議記錄 及報告等。

(11)

三、資料處理 為提升全民英檢自我能力評量的信度與效度,在正式分析資 料之前,研究者先對資料檢核與能作敘述作答分析,前者檢查考 生資料是否出現偏差值或異常的作答反應,後者檢查試題的合適 性。

資料檢核

資料檢核

資料檢核

資料檢核

。針對部份不可靠的答題反應 (例如:能力值低 的考生,在所有題目中全部答「是」,或是能力高的考生在所有題 目中全部答「否」者),另同時考慮考生能力、全民英檢自我評量 答題反應與聽力 (閱讀) 成績三者的適配性刪除不可靠樣本。聽 力共刪 239 份、閱讀 398 份。

能作敘述作答

能作敘述作答

能作敘述作答

能作敘述作答分析

分析

分析

分析

。 為了能將自我能力評量結果與全民英 檢成績表現作比較,研究者依據全民英檢初級、中級與中高級垂 直校準試題 (Wu & Liao, 2009) 估算考生能力值,將考生能力放 置在同一量尺,能力值由低至高定在-1.5 以下、-1、-.5、0、.5、1、 1.5、2、2.5 及 3 的 logit,估計其能作敘述答是的比率 (也就是自 我評量的能力)、計算全部考生平均答是的比率與試題鑑別力,並 將分析結果與專家共同檢核決定是否需要刪題。 四、計算切點分數 (cut-off point) 本研究以「全民英檢自我評量分數」為自變項,而將「考生 具備且建議報考級數」作依變項,並使用 SPSS 中的次序羅吉式 迴歸 (ordinal logistic regression) 模組來計算全民英檢三個級數 (初、中與中高級) 間的切點分數,如以下說明:

自變項

自變項

自變項

自變項

。本研究首先使用 Rasch 模式分析三個級數 (初、中 與中高級)能作敘述題目的難度,並將考生能力放置在同一量尺 (logit) 上,估計其「全民英檢自我評量分數」,此分數即代表其自 我評量的聽力與閱讀能力。

(12)

依變

依變

依變

依變項

。以「考生具備且建議報考級數」為依變項,1 為初 級、2 為中級、3 為中高級,類推全民英檢的資料發現,全民英檢 平均跨級數分數約為 20 分、測量標準誤為 8 分,也就是說某考生 在某項測驗中得分高 (低) 於通過分數 20 分以上,該考生可能具 備更高一級的能力 (或具備低一級的能力)。考慮到本研究工具為 一自我初步評估的工具,因此採用稍微寬鬆的標準,即聽力 (閱 讀) 成績大於等於 92 分 (單項通過成績 80 分+跨級數平均分數 20 分-1 個測量標準誤 8 分=92 分),則該考生的聽力 (閱讀) 能 力可能已具備下一級數能力,建議可報考下個級數,因此依變項 =報考級數+ 1;當聽力 (閱讀) 成績小於 92 分且大於等於 52 分 (單項通過成績 80 分-跨級數平均分數 20 分-1 個測量標準誤 8 分=52 分),則該考生的聽力 (閱讀) 能力可能具備該級數能力 但尚不建議報考下個級數,因此依變項=報考級數;當聽力 (閱 讀) 成績小於 52 分,該考生的聽力 (閱讀) 能力應該尚未具備該 級數能力,因此依變項=報考級數-1。

分析工具

分析工具

分析工具

分析工具

。本研究使用 ConQuest 軟體分析題目難度與考生 的能力值,接著利用 SPSS12.0 中的次序羅吉式迴歸模組 (ordinal logistic regression)來建立三個級數 (初級以下、中級及中高級以 上) 的機率模型,並依此機率模型決定各級數的切點分數。因本 研究所使用的依變項為次序變項且其類別數大於兩類 (初級、中 級與中高級),若忽略其間斷與次序的特性而使用一般多元迴歸 (multiple regression) 或視依變項為名義變項的多項羅吉式迴歸 (multinomial logistic regression),將會喪失一些有用的重要資訊而 導致令人誤解的結論 (Liu, 2007),因此本研究採用次序羅吉式迴 歸。另外,使用次序羅吉式迴歸的另一項優勢在於當反應變項的 類別不多時,不必考慮其常態性與變異數同質性的假設 (Chen & John, 2004)。

(13)

參、

、結果

結果

結果

結果與討論

與討論

與討論

與討論

一、試題分析結果 試題分析結果分為兩部份,第一部份使用古典試題理論分析 題目的難度 (考生答「是」的百分比) 與鑑別度,第二部分為 Rasch 模式:

古典測驗分析

古典測驗分析

古典測驗分析

古典測驗分析

。 古典測驗分析結果顯示不同能力值的考生 答「是」的百分比 (見附錄表一與表二),符合預期結果能力,即 能力越高的受試群答「是」的百分比越高,而能作敘述題目越難 則相對考生答「是」的百分比越低,整體項目分析結果 (見附錄 表三) 顯示分析後題目所屬的級數與原先設定的級數大致相同, 根據此分析結果與專家意見彙整,決定將與專家原先判斷級數相 差過大 (相差兩個級數) 或鑑別度不彰 (鑑別度<.3) 的題目刪 除,其中聽力自我能力評量表刪除第 20 題 (我能大致聽懂別人用 清晰的英語談論我所熟悉的話題,例如學校、工作、休閒),專家 判斷此題為中高級以上題目,分析結果卻為初級,且與第 13 題 (我 能聽懂別人用簡單的字彙談論我個人和我的家庭,例如:就學、 就業和家庭狀況) 極為相似,因此將之刪除。閱讀刪除第 21 題能 作敘述 (我能於文章中快速找到我所需要的資訊,例如地名、人 名、時間),同樣因與原先判斷級數差異過大而刪除。刪題後兩份 自 我 能 力 評 量 表 的 內 部 一 致 性 係 數 (Cronbach α) 分 別 為 .81 與.79。 Rasch

模式分析

模式分析

模式分析

模式分析

。 Rasch 模式分析結果如附錄圖一的聽力自 我評量表的能力-題目難度圖 (Variable Map):考生的能力分布大 致介於-2~5.40 logit,而題目的難度分布介於-4.20~5 logit 之間, 初級的題目大致分布在-2 logit 以下,而中級題目大致分布在-2~0

(14)

logit,中高級的題目則大致分布在 1.40 logit 以上 (見附錄表一), 此結果驗證了三個級數難度間的階層模式 (hierarchical pattern)。 同時亦發現第 20 題 (原先設定為中高級的題目),其難度位置落 在-1.28 logit,落入中級偏易的難度範圍裡,因此如同古典試題分 析結果將第 20 題刪除。對於此樣本而言,沒有合適的題目來測量 能力大於 5 logit 的考生,而針對難度低於-2 logit 以下的題目答對 機率皆大於.50,能力與題目難度適配尚佳。此外,題目與模式的 適配考驗顯示:不論是未加權均方誤適配指標或是加權均方誤適 配指標,所有題目的 MNSQ 值介於.70~1.30 之間的標準中,轉換 成 t 值後,亦皆介於 2± 之間的標準中。信度分析結果:題目信度 與考生信度皆為.82。 由附錄圖二閱讀自我評量表的能力-題目難度圖可得:考生 的能力分布大致介於-1.80~6.20 logit,而題目的難度分布介於 -3.40~ 4.60 logit 之間,初級的題目大致分布在-1.80 logit 以下,而 中級題目大致分布在-.80 ~ 0 logit,中高級的題目則大致分布在 1.20 logit 以上 (見附錄表二),此結果亦驗證了三個級數間的階層 模式。同時亦發現第 21 題 (原先設定為中高級的題目),其難度 位置落在-.35 logit,落入中級的難度範圍裡,因此如同古典試題 分析結果將第 21 題刪除。對於此樣本而言,沒有合適的題目測量 能力值在 4.80 logit 以上能力者,而對於難度低於-1.6 logit 以下的 題目答對機率皆大於.50,因此能力與題目難度適配尚可。題目與 模式的適配考驗顯示:不論是未加權均方誤適配指標或是加權均 方誤適配指標,所有題目的 MNSQ 值介於.70~1.30 之間的標準 中,轉換成 t 值後,亦皆落於 2± 之間的標準中。信度分析結果: 題目與考生的信度分別為.80 與.79。

(15)

二、全民英檢成績與自評結果的關係 本研究欲探討全民英檢自我能力評量結果與全民英檢成績 之間的關係。因為全民英檢為分級測驗,各個級數之間的分數代 表的意義不同,意即初級測驗的 90 分不等於中級測驗的 90 分, 兩者之間有程度上的差異,因此必須將三個級數分開,分別探討 以自我評量結果與全民英檢成績之間的關係。分析結果如表四, 由表四可得聽力自我能力評量與全民英檢聽力成績的相關 R 介 於.44~.58,判定係數R2 (自變項可解釋依變項的解釋變異量) 介 於.19~.33,自我評量結果皆能有效預測全民英檢聽力成績 (t 值皆 達顯著);而閱讀自我能力評量與全民英檢閱讀成績的相關 R 介 於.40~.59,判定係數R 介於2 .15~.35,自我評量結果亦皆能有效預 測全民英檢閱讀成績。 表四 表四 表四 表四 全民英檢成績與自評結果的關係 全民英檢成績與自評結果的關係 全民英檢成績與自評結果的關係 全民英檢成績與自評結果的關係 項目 級數 R 2 R 標準化係數 t 值 顯著性 聽力 初級 .56** .32 .56 23.80 .00 中級 .58** .33 .58 26.72 .00 中高級 .44** .19 .44 20.14 .00 閱讀 初級 .59** .35 .59 22.51 .00 中級 .55** .30 .55 20.13 .00 中高級 .40** .15 .40 16.76 .00 註:**p < .01,自變項為自評結果,依變項為全民英檢成績 三、切點分數與分類正確率 以次序羅吉式迴歸分析計算切點分數以前,首先需考驗模式

(16)

的適合度,結果顯示兩份自我能力評量表的 G 統計量分別為 2157.73 與 1699.22,在自由度為 1 下達到統計上的顯著差異,表 示以「全民英檢自我能力評量分數」為自變項來預測「考生具備 且建議報考級數」是有用的 (見表五)。 表 表 表 表五五五 模式適合度資訊表 模式適合度資訊表 模式適合度資訊表 模式適合度資訊表 模式 -2 對數概似 卡方 自由度 顯著性 聽力 只截距 2591.94 最後 434.21 2157.73 1 .00 閱讀 只截距 2201.09 最後 501.87 1699.22 1 .00 註:連結函數:Logit。 接著,以「聽力自我能力評量分數」xL與「閱讀自我能力評 量分數」xR分別預測依變項 (適合報考的級數),結果顯示在自由 度為 1 下亦皆達到統計上的顯著 (見表六),根據模式估計出來的 參數分別建立三個級數 (初、中與中高級)的機率模型,見方程式 (1)~(3),舉例來說,某生在聽力自我能力評量與閱讀自我能力評 量分別得到 2.31 logit 與 .40 logit,即xL =2.31,xR =.40,分別 帶入方程式 (1)~(3),得到PL1 =.02,PL2 =.33,PL3 =.65,該生 聽力能力為中高級的機率最高;PR1 =.22,PR2 =.59,PR3 =.19, 該生閱讀能力為中級的機率最高。

(17)

表 表 表 表六六六 參數估計值 參數估計值 參數估計值 參數估計值 估計 標準誤 Wald 自由度 顯著性 聽力 起始值 [G = 1] -1.56 .60 666..68 1 .00 [G = 2] 1.78 .60 888.35 1 .00 位置 xL 1.04 .28 1346.72 1 .00 閱讀 起始值 [G = 1] -.81 .64 158.10 1 .00 [G = 2] 1.90 .71 715.17 1 .00 位置 xR 1.09 .34 1038.87 1 .00 註:連結函數:Logit。 1 exp( 1.56 1.04 ) 1 exp( 1.56 1.04 ) L L L x P x − − = + − − and 1 exp( .81 1.09 ) ) 09 . 1 81 . exp( 1 R R R x x P − − + − − = (1) 3 1 1 exp(1.78 1.04 ) L L P x = + − and 1 exp(1.90 1.09 ) 1 3 R R x P − + = (2) P(LorR)2 =1−P1−P3 (3) Li P :聽力能力為 i 級的機率 Ri P :閱讀能力為 i 級的機率

(18)

再來將依據已建立好的機率模型,分別計算「聽力自我能力 評量」與「閱讀自我能力評量」三個級數 (初、中與中高級) 之 間的切點分數,接著將機率模型所預測出來的級數與考生實際級 數交叉分析,得到此機率模型分類級數的正確率。以下將分別說 明聽力與閱讀自我能力評量。

聽力自我能力評量

聽力自我能力評量

聽力自我能力評量

聽力自我能力評量

。將所有考生在聽力自我能力評量分數 L x 帶入公式 (1)~(3)可畫出圖一,解其聯立方程式可得三個級數的 交點,即切點分數,以圖形表示更為清楚。從圖一可見初級與中 級機率曲線交會於-1.42 logit上,而中級與中高級的機率曲線交會 於1.64 logit上,因此可推論考生在聽力自我能力評量表得分上得 分小於-1.42 logit者,被分類為初級程度,建議報考初級;得分介 於-1.42~1.63 logit 者,分類為中級程度,建議報考中級;而得分 1.64 logit以上者,則分類為中高級程度,建議報考中高級以上。 為了避免使用者因不了解 logit 分數所代表的意義,研究者 將 logit 轉換成原始總分 (即能作敘述答「是」的題數)。由於在 Rasch 模式中,原始總分為能力估計的充分統計量,當原始總分 相同,不論考生的答題反應 (response pattern) 為何,能力估計的 結果皆相同 (考生能力的最大概似值雖不盡相同,但仍會落在相 同的能力上),因此分數間可直接轉換 (見附錄表五)。轉換後結果 顯示考生在聽力自我能力評量表得分上得分介於0~8分者,被分 類為初級程度,建議報考初級;得分介於 9~14 分者,分類為中 級程度,建議報考中級;而得分15分以上者,則分類為中高級程 度,建議報考中高級以上。

(19)

圖 圖 圖 圖一一一 聽力 聽力聽力 聽力自我能力評量答題機率圖自我能力評量答題機率圖自我能力評量答題機率圖 (logit) 自我能力評量答題機率圖 表七中的「觀察類別」代表考生真實具備的GEPT級數,而 「預測反應類別」則為此模型根據聽力自我能力評量分數所預測 考生具備且建議報考級數。舉例來說,具備中級能力且建議報考 中級的真實人數為1653人,但機率預測模型將中級低估成初級的 人數為23人,正確預測為中級有 1187人,高估成中高級以上為 443 人 。 此 機 率 預 測 模 型 的 整 體 正 確 率 為 .68 (= (48+1187+1383)/3866),比起隨機亂猜的機率.33 (= 1/3) 高出兩倍 以上,且未發生預測差異兩個級數的情形。

(20)

表 表 表 表七七七 聽力級數分類表 聽力級數分類表 聽力級數分類表 聽力級數分類表 觀察類別 預測反應類別 1 (初) 2 (中) 3 (中高) 總數 1初級 48 329 0 377 2中級 23 1187 443 1653 3中高級以上 0 453 1383 1836 總數 71 1969 1826 3866

閱讀

閱讀

閱讀

閱讀自我能力評量

自我能力評量

自我能力評量

自我能力評量

。以閱讀自我能力評量表分數xR代入公 式(1)~(3)畫出圖二,從圖二可見初級與中級機率曲線交會於-.61 logit上,而中級與中高級的機率曲線交會於1.63 logit上,因此可 推論考生在閱讀自我能力評量表得分上得小於-.61 logit (得分介 於 0~9 分) 者,被分類為初級程度,建議報考初級;得分介於 -.61~1.62 logit (得分介於10~14分) 者,分類為中級程度,建議報 考中級;而得分在1.63 logit (得分15分) 以上者,則分類為中高 級程度,建議報考中高級以上。須注意的是,因中級的題目在閱 讀部分比聽力少,以致閱讀切分點的範圍較聽力小。

(21)

圖 圖 圖 圖二二二 閱讀自我能力評量答題機率圖 閱讀自我能力評量答題機率圖 閱讀自我能力評量答題機率圖 閱讀自我能力評量答題機率圖 表 八 可 見 此 機 率 模 型 預 測 的 整 體 正 確 率 為.65 (= (100+652+1541)/3503),比起隨機亂猜的機率.33 (= 1/3) 高出許 多,亦未發生預測差異兩個級數的情形。 表 表 表 表八八八 閱讀級數分類表 閱讀級數分類表 閱讀級數分類表 閱讀級數分類表 觀察類別 預測反應類別 1 (初) 2 (中) 3 (中高) 總數 1初級 100 301 0 401 2中級 67 652 489 1208 3中高級以上 0 353 1541 1894 總數 167 1306 2030 3503

(22)

上述預測模型的分類正確率 (聽力與閱讀自我能力評量表 分別為68%與 65%) 達可接受範圍,但須注意的是,預測失誤多 出現在初級考生:聽力部份377位考生中有329位高估為中級 (表 七);閱讀部份401位考生中有301位高估為中級 (表八)。可能原 因為年輕的考生較缺乏認知技巧判斷自己的能力,且容易受到自 我期望的影響而高估自己的能力 (Ross, 2006)。Heilenman (1990) 的研究亦發現經驗較少的學習者在自我能力評量中最常出現高估 的情形。此外,Orsmond et al. (1997) 的研究中發現能力較低的學 習者有高估自己的能力的現象,與本研究結果相符。

肆、

、結論

結論

結論

結論

本研究為驗證「全民英檢自我能力評量表」是否為一有效的 英語診斷工具,探討兩個研究問題,以下的結論即依照每個研究 問題依序整理: 一、「全民英檢自我能力評量表」是否可有效區分不同程度的學習 者? 若以考生實際通過級數分組計算其題目答「是」的百分比 (見附錄表四),表中數字越大代表該級數考生越具備該題所描述 的能力。且考生通過的級數越高,對於能作敘述的同意度會越大。 例如:聽力第 3 題 (我能從母語人士的談話內容中推測談話者的 觀點) 的同意度,通過初級考生的平均同意度為.77、中級為.88 而中高級為.98,由此可證明本研究發展的自我能力評量表能夠有 效的區分三個級數的考生。並且依照各個級數考生自我評量的結

(23)

果,可實際歸納出各個級數的考生的語言能力敘述。為便於歸納, 能作敘述答「是」率≥ .90視為已具備該能力、答「是」率介於.70~.89 視為大致具備該能力、答「是」率≤ .70 視為該能力待加強:

初級聽力

初級聽力

初級聽力

初級聽力

。考生平均而言已具備聽懂「簡單」的圖表與「簡 短」的對話,包括價格、問路 (交通工具)、慢速簡單的具體日常 對話與時間地點;大致具備推論談話者的觀點與態度、聽懂外貌 動作的描述、簡短廣播與電話留言、廣告、氣象、與簡單的操作 說明或指示;待加強包括聽懂母語人士間對話重點、時事與談話 節目、母語人士間常速的長談與不同主題 (人文、社會、自然、 科技) 的內容。

初級閱讀

初級閱讀

初級閱讀

初級閱讀

。考生平均而言已具備閱讀主旨明確簡單的告示、 簡短故事、便條信件對事件的描述、簡短廣告中的重要資訊;大 致具備閱讀圖表、信件中對個人觀感的陳述、告示傳單中的資訊、 新聞短文與主題具體的文章;待加強包括理解長文章的組織脈 絡、職場書信與特定議題的論點、閱讀新聞時事的報導或文章, 並理解作者的觀點。

中級聽力

中級聽力

中級聽力

中級聽力

。考生平均而言除具備初級聽力的能力外,另具備 聽懂外貌動作的描述、簡短廣播與電話留言、簡單的操作指示; 大致具備推論談話者的觀點與態度、廣告和氣象;待加強包括聽 懂母語人士間對話重點、時事與談話節目、母語人士間常速的長 談與不同主題 (人文、社會、自然、科技) 的內容。

中級閱讀

中級閱讀

中級閱讀

中級閱讀

。考生平均而言除具備初級閱讀的能力外,另具備 閱讀圖表說明、信件對個人觀感的陳述;大致具備理解新聞短文 的重點;待加強包括閱讀新聞時事的報導或文章,並理解作者的 觀點、新聞短文、長文章的組織脈絡、職場書信與特定議題的論 點。

中高級聽力

中高級聽力

中高級聽力

中高級聽力

。考生平均而言除具備初級與中級聽力的能力

(24)

外,另具備聽懂談話者的對話並推論談話者的觀點與態度;大致 具備聽懂常速且內容較長的描述、廣告和氣象;待加強包括聽懂 具體、抽象主題會話、時事與談話節目、不同主題 (人文、社會、 自然、科技) 的內容、長篇談話與言外之意、研討會專業討論的 內容、複雜的各種長篇主題與新聞評論節目。

中高級閱讀

中高級閱讀

中高級閱讀

中高級閱讀

。考生平均而言除具備初級與中級的閱讀能力 外,另具備閱讀主題具體文章中不同的論點與新聞短文;大致具 備閱讀新聞時事的報導或文章,並理解作者的觀點、掌握長文章 的脈絡與特定議題的論點、職場書信、在文章中快速找到所需資 訊;待加強包括閱讀各類主題的長文章並重點整合、理解文中細 微的轉折變化、快速閱讀長篇文章並掌握重點以及掌握內容複雜 文章中的脈絡。 二、全民英檢成績與自評結果的關係為何?換言之,「全民英檢自 我能力評量表」的預測效度為何? 本研究探討自我能力評量表與全民英檢初級至中高級的關 係與切點分數,結果發現:自我能力評量表與全民英檢成績表現 間具有中度相關的關係。另以次序羅吉式迴歸分析計算切點分 數,即自我能力評量的得分,推估該考生所屬全民英檢的級數。 結果為聽力自我能力評量表得分小於-1.42 logit (0~8 分) 者為初 級程度;得分介於-1.42~1.63 logit (9~14分) 者為中級程度;得分 1.64 logit (15分) 以上者為中高級程度。閱讀自我能力評量表得分 小於-.61 logit (0~9 分) 者為初級程度;得分介於-.61~1.62 logit (10~14分) 者為中級程度;得分1.63 logit (15分) 以上者則為中 高級程度。 這些切點分數除了用來判定學習者目前可能具備的能力級數 外,更可以提供選擇報考級數上的建議。舉例來說,在聽力自我

(25)

能力評量表上初級 (6 題) 與中級 (6 題) 的題目全答是者得分 為.19 logit (12分) ,屬中級能力範圍,適合報考中級;得分1.64 logit (15分) 以上者,才建議報考中高級。此外,自我能力評量表 中的能作敘述能幫助學習者了解自己需加強哪方面的能力,對其 報考的級數有更大的勝算。 至於預測模型的分類正確率,也就是預測效度:聽力與閱讀 自我能力評量表分別為 68% 與 65%,在可接受範圍。但仍有.32 與.35的失誤率。最大的失誤多出現在初級考生高估自己能力的結 果。過去的研究也發現能力較低的學習者有高估自己的能力的現 象 (Heilenman, 1990; Orsmond et al., 1997)。因此,在施作自我能 力評量時,對於能力較低的學習者,我們須提供引導與說明,協 助其了解自我能力評量中題目的涵義,對自己的能力作較正確的 判斷。 本研究的另一限制在於所使用的量表採用二分題 (是、否) 方式計分,致獲取訊息量有限。建議後續研究宜採用多點計分的 方式,除了可增加能力估計上的訊息量,對於切點分數的設立也 會更加精確。 總而言之,本研究經實證程序證明「全民英檢自我能力評量 表」具合理的預測效度,可作為英語能力診斷工具。如前文所言, 有鑒於「全民英檢」的普及性,這套「全民英檢自我能力評量表」 可幫助學習者在正式報考全民英檢前評估自己的能力,並選擇適 當的級數報考。為方便學習者使用,可參考DIALANG的作法, 將 本 自 我 能 力 評 量 表 置 於 「 全 民 英 檢 學 習 網 站 」 (www.gept.org.tw)。學習者可隨時評估自己的英語能力,並得到立 即回饋。學習者也可經由回答自我能力評量表中的能作敘述得知 自己的強弱點,甚至以班級或團體為單位的英語教學 (特別是全 民英檢的考前輔導教學),也可藉此評估學習成果,瞭解學習者已

(26)

具備何種能力及需再加強何種能力,始可對症下藥,達到事半功 倍之效。

全民英檢已成為國內熟悉的英語能力架構,並參照國際上認 可的英語能力架構―CEFR (Wu & Wu, in press),因此「全民英檢 自我能力評量表」除對擬報考全民英檢的學習者有參考價值外, 一般的英語學習者也可藉此訂立學習目標與自我管理學習。另 外,「全民英檢自我能力評量表」也可作為研究工具,進一步探討 自我能力評量與英語成就表現、學習動機、學習行為等之間的關 係。

致謝

致謝

致謝

致謝

本研究為財團法人語言訓練測驗中心 (LTTC) 建置「全民英 檢」學習資源網站計畫的一部分。秉持測驗與教學之間應存有良 好互動關係的理念,LTTC研究團隊不僅研發測驗來評量學習者的 能力,也希望能協助學習者培養自學 (learner autonomy) 的能 力,進而提昇英語能力。我們感謝 LTTC 高天恩主任的支持及參 與本研究的學習者。對於協助採樣、一起腦力激盪的團隊伙伴, 我們在此一倂致上最深的謝意。

參考書目

參考書目

參考書目

參考書目

(27)

computer-based diagnostic tests based on the Common European Framework. Language Testing, 22(3), 301-320.

Bachman, L. F. (2000). Learner-directed assessment in ESL. In G. Ekbatani & H. Pierson (Eds.), Learner-directed assessment in ESL (pp. ix-xii). New Jersey: Lawrence Erlbaum Associates, Inc. Bailey, K. M. (1998). Learning about language assessment: Dilemmas, decisions, and directions. Pacific Grove: Heinle & Heinle Publishers.

Bergee, M. J. (1997). Relationships among faculty, peer, and self-evaluations of applied performances. Journal of Research in Music Education, 45(4), 601-612.

Boud, D., & Falchikov, N. (1989). Quantitative studies of student self-assessment in higher education: A critical analysis of findings. Higher Education, 18, 529-549.

Bulter, Y. G., & Lee, J. (2010). The effects of self-assessment among

young learning of English. Language Testing, 27(1), 5-31. Chen, C. K., & John, H. (2004). Using ordinal regression model to

analyze student satisfaction questionnaires. Association for Institutional Research, 1, 1-13.

Council of Europe (2001). Common European Framework of Reference for Languages: Learning, teaching, assessment. Cambridge: Cambridge University Press.

Harris, M. (1997). Self-assessment of language learning in formal settings. ELT Journal, 51(1), 12-20.

Heilenman, L. K. (1990). Self-assessment of second language ability: The role of response effects. Language Testing, 7(2), 174-201. Hillocks, G. (1986). Research on written composition: New directions

(28)

for teaching. Urbana, IL: ERIC Clearinghouse on Reading and Communication Skills.

Klenowski, V. (1995). Student self-evaluation processes in student-centred teaching and learning contexts of Australia and England. Assessment in Education, 2(2), 145-163.

Liu, X. (2007). Ordinal regression analysis: Fitting the proportional odds model using Stata, SAS and SPSS. Paper presented at the 2007 Annual Conference of the American Educational Research Association (AERA). Chicago, IL.

McDonald, B., & Boud, D. (2003). The impact of self-assessment on achievement: The effects of self-assessment training on performance in external examinations. Assessment in Education, 10(2), 209-220.

McEnery, J. M., & Blanchard, P. N. (1999). Validity of multiple ratings of business student performance in a management simulation. Human Resource Development Quarterly, 10(2), 155-172.

Orsmond, P., Merry, S., & Reiling, K. (1997). A study in self-assessment: Tutor and students’ perceptions of performance criteria. Assessment & Evaluation in High Education, 22(4), 357-368.

Oscarson, M. (1989). Self-assessment of language proficiency: Rationale and applications. Language Testing, 6(1), 1-13. Ross, J. A., Rolheiser, C., & Hogaboam-Gray, A. (1999). Effect of

self-evaluation on narrative writing. Assessing Writing, 6(1), 107-132.

(29)

self-assessment. Practical Assessment Research & Evaluation, 11(10). 1-13.

Ross, S. (1998). Self-assessment in second language testing: A meta-analysis and analysis of experiential factors. Language Testing, 15(1), 1-20.

Sung, Y.-T., Chang, K.-E., Chiou, S.-K., & Hou, H.-T. (2005). The design and application of a web-based self- and peer-assessment system. Computers and Education, 45(2), 187-202.

Sullivan, K., & Hall, C. (1997). Introducing students to self-assessment. Assessment & Evaluation in Higher Education, 22(3), 289-305.

Taras, M. (2002). Using assessment for learning and learning from assessment. Assessment & Evaluation in Higher Education, 27(6), 501-510.

Wu, R. & Chin, J. (2006). An impact study of the intermediate level GEPT. Retrieved January 17, 2008, from http://www.lttc.ntu. edu.tw/2007_annualreport/p59-p74.pdf.

Wu, R. Y. F., & Liao, C. H. Y. (2009). Establishing a common score scale for the GEPT Elementary, Intermediate and High-Intermediate listening and reading tests. Paper presented at 2009 LTTC International Conference.

Wu, J., & Wu, R. Y. F. (in press). Relating the GEPT reading comprehension tests to the CEFR. In W. Martyniuk (Ed.), Aligning tests with the CEFR: Reflections on using the Council of Europe’s draft manual (pp.204-224). Cambridge: Cambridge University Press.

(30)

作者介紹

作者介紹

作者介紹

作者介紹

吳若蕙,英國University of Surrey (Roehampton) 語言測驗評

量博士,現為財團法人語言訓練測驗中心 (LTTC) 研發長,並擔

任「全民英檢」考試委員、Language Assessment Quarterly 期刊編 輯委員。專長領域:英語測驗發展、英語口說能力評量、標準化 測驗效度研究等。

李佳隆,國立中正大學心理計量碩士,現為財團法人語言訓

練測驗中心 (LTTC) 統計員。研究興趣包括試題反應理論與電腦

(31)

附錄表一 附錄表一 附錄表一 附錄表一 聽力自我能力評量表與 聽力自我能力評量表與 聽力自我能力評量表與 聽力自我能力評量表與考生能力值考生能力值考生能力值考生能力值分析分析分析 分析 題號 所 屬 級 別 題目 考生能力值 (Logit) 0 .5 1 1.5 2 2.5 3 (A)1 E 我能大致聽懂簡 單的圖表說明。 (-3.12) .97 .97 .98 1.00 1.00 1.00 1.00 2 E 購物時,我能聽 懂簡單的資訊, 例 如 價 格 。 (-4.06) .97 .99 .99 1.00 1.00 1.00 1.00 (A)3 I 我能聽懂談話內 容中推測談話者 的觀點或態度。 (-.45) .72 .75 .83 .88 .93 .97 .96 4 I 問路時,我能聽 懂簡短清楚的說 明,例如:如何 從甲地到乙地, 使用何種交通工 具。(-1.97) .87 .90 .93 .95 .93 .96 .97 (A)5 H 我能聽懂母語人 士之間具體、抽 象主題的會話重 點。(1.53) .40 .49 .55 .56 .60 .74 .70 6 I 我能聽懂在一般 生活情境中,有 關人物外貌以及 連 續 動 作 的 描 述。(-1.69) .86 .87 .92 .91 .98 .94 .94 (A)7 E 我能大致聽懂母 .91 .97 .99 1.00 1.00 1.00 1.00

(32)

語人士間主題具 體 的 日 常 會 話 ( 速 度 較 常 速 慢),瞭解大意與 重點。(-2.72) 8 E 我能聽懂別人簡 短清楚的告訴我 活 動 時 間 及 地 點。(-3.07) .95 .97 .98 1.00 1.00 1.00 1.00 (A)9 H 我能聽懂母語人 士以常速進行內 容較長的敘述、 說明。(1.76) .25 .35 .42 .54 .63 .78 .84 10 I 我能聽懂簡短、 清 楚 的 談 話 重 點,例如:廣播、 電 話 留 言 。 (-1.53) .84 .89 .87 .91 .94 .95 .92 (A)11 H 我能聽懂時事、 談話節目大部份 的內容。(1.64) .39 .41 .49 .52 .56 .68 .74 (A)12 I 我能大致聽懂廣 告和氣象預報的 內容。(.01) .69 .71 .76 .79 .81 .86 .89 13 E 我能聽懂別人用 簡單的字彙談論 我個人和我的家 庭,例如:就學、 就 業 和 家 庭 狀 況。(-2.13) .90 .92 .93 .97 .95 .96 .94 14 E 我能大致聽懂簡 單的日常會話。 (-4.04) .99 .99 .99 1.00 1.00 1.00 1.00 (A)15 I 我能大致聽懂簡 單的操作說明或 .86 .88 .93 .95 .97 .98 .98

(33)

指示。(-1.38) (A)16 H 我能聽懂母語人 士之間不同主題 (人文、社會、自 然、科技)談話的 大 部 份 內 容 。 (2.72) .22 .27 .30 .35 .44 .53 .54 17 H 參加會議或研討 會時,我能聽懂 專 業 討 論 的 內 容。(4.84) .09 .20 .18 .18 .20 .24 .25 18 H 我能確切掌握長 篇談話的內容主 旨及重點細節。 (3.32) .15 .35 .39 .44 .64 .66 .72 19 H 我能聽懂內容較 複雜的各類主題 長篇談話。(4.45) .06 .06 .13 .18 .25 .32 .37 (刪)20 H 我能大致聽懂別 人用清晰的英語 談論我所熟悉的 話 題 , 例 如 學 校、工作、休閒 等。(-1.28) .96 .94 .96 .98 .99 .99 1.00 21 H 我能聽懂談話者 的言外之意,並 推測其態度和觀 點。(3.03) .43 .47 .51 .60 .63 .74 .79 22 H 我能聽懂新聞評 論節目的內容。 (4.14) .30 .26 .29 .31 .35 .37 .39

註:(A) 為定錨題、E 為初級、I 為中級、H 為中高級以上題目;題目後括弧內 數值為 Rasch 模式分析的難度,單位 (logit);表內數值為各能力值之答「是」 百分比

(34)

附錄表二 附錄表二 附錄表二 附錄表二 閱讀自我能力評量表與 閱讀自我能力評量表與 閱讀自我能力評量表與 閱讀自我能力評量表與考生能力值考生能力值考生能力值考生能力值分析分析分析 分析 題號 所 屬 級 別 題目 考生能力值 (Logit) 0 .5 1 1.5 2 2.5 3 (A)1 E 我能閱讀主旨明 確 的 公 告 或 通 知。(-1.72) .93 1.0 0 1.0 0 1.0 0 1.0 0 1.0 0 1. 00 2 E 我能閱讀公園、車 站等公共場所中 簡單的告示或指 示標語。(-3.13) .97 1.0 0 1.0 0 1.0 0 1.0 0 1.0 0 1. 00 (A)3 H 我能理解圖表資 訊 的 說 明 與 比 較。(-1.20) .89 .93 .97 .95 .96 .97 1. 00 4 E 我能閱讀簡短的 故事。(-2.50) .96 1.0 0 1.0 0 1.0 0 1.0 0 1.0 0 1. 00 (A)5 H 我能閱讀新聞、時 事性的文章或報 導,並理解作者的 觀點。(1.69) .43 .61 .63 .68 .72 .81 .8 7 (A)6 I 我能閱讀一般信 件中對個人觀感 或意願的陳述。 (-.68) .84 .94 .92 .94 .96 .96 .9 9 (A)7 I 我能在告示、傳單 中找到我所需要 的資訊,例如課程 內容、商家提供的 服務等。(-.86) .87 .92 .91 .95 .91 .89 .9 5 (A)8 E 我能閱讀一般信 件中對事件的描 .93 1.0 0 1.0 0 1.0 0 1.0 0 1.0 0 1. 00

(35)

述。(-1.85) 9 E 我能閱讀便條以 及簡短的信件。 (-3.38) .98 1.0 0 1.0 0 1.0 0 1.0 0 1.0 0 1. 00 (A)10 I 我能理解新聞短 文中的重點。(.07) .72 .83 .85 .90 .92 .94 .9 6 (A)11 H 我能大致掌握較 長文章的組織脈 絡,並找到相關的 資訊。(1.55) .50 .63 .58 .72 .74 .67 .8 9 (A)12 H 我能理解職場書 信中大部份的內 容。(1.60) .48 .59 .63 .71 .71 .84 .8 8 (A)13 I 我能大致理解主 題具體文章中的 論點。(-.34) .83 .88 .87 .91 .92 .91 .9 5 14 E 我能在簡短的廣 告中找到我所需 要的重點資訊,例 如時間、地點、價 格等。(-3.13) .96 1.0 0 1.0 0 1.0 0 1.0 0 1.0 0 1. 00 15 E 我能閱讀內容淺 顯、主題具體的短 文。(-2.98) .99 1.0 0 1.0 0 1.0 0 1.0 0 1.0 0 1. 00 (A)16 H 我能閱讀探討特 定議題的文章,並 大致理解文中不 同 的 立 場 與 論 點。(1.51) .48 .62 .65 .67 .85 .79 .9 1 17 H 我能理解各類主 題的長篇文章,並 整合文章的主旨 與 重 點 細 節 。 (3.37) .41 .38 .42 .58 .61 .70 .8 8 18 H 我能快速閱讀長 .18 .15 .19 .26 .36 .32 .6

(36)

篇文章,並掌握各 個段落的重點。 (4.42) 2 19 H 我能理解文章中 細微的轉折與作 者語氣或立場的 變化。(3.44) .42 .50 .48 .56 .58 .63 .6 5 20 H 我能理解內容較 複雜的文章,並掌 握其脈絡。(4.48) .26 .13 .16 .21 .28 .38 .6 4 (刪)21 H 我能於文章中快 速找到我所需要 的資訊,例如地 名、人名、時間。 (-.35) .82 .89 .86 .86 .84 .82 .9 2

註:(A) 為定錨題、E 為初級、I 為中級、H 為中高級以上題目;題目後括弧 內數值為 Rasch 模式分析的難度,單位 (logit);表內數值為各能力值之答 「是」

(37)

附錄 附錄 附錄 附錄表表表表三三三三 能作敘述 能作敘述能作敘述 能作敘述作答作答作答作答分析表分析表分析表分析表 聽力 閱讀 題號 同意百分比 鑑別力 同意百分比 鑑別力 1 .98 .26** .94 .33** 2 .99 .20** .98 .21** 3 .83 .50** .92 .34** 4 .94 .32** .97 .29** 5 .54 .51** .55 .62** 6 .93 .41** .88 .42** 7 .97 .30** .89 .38** 8 .98 .23** .95 .34** 9 .50 .63** .99 .19** 10 .92 .42** .80 .54** 11 .52 .57** .57 .55** 12 .77 .42** .56 .51** 13 .95 .35** .84 .43** 14 .99 .20** .98 .21** 15 .92 .36** .99 .19** 16 .35 .55** .58 .62** 17 .10 .46** .27 .63** 18 .26 .62** .15 .54** 19 .12 .53** .26 .58** 20 .92 .39** .13 .55** 21 .30 .63** .85 .23** 22 .16 .54** N/A N/A 註:**p<.01

(38)

附錄 附錄 附錄 附錄表表表表四四四四 全民英檢 全民英檢全民英檢 全民英檢各級數各級數各級數各級數通過考生通過考生通過考生通過考生自自評自自評評評結果結果結果結果分析分析分析分析 英語聽解能力 英語閱讀能力 題號 初級 中級 中高級 初級 中級 中高級 1 .98 .99 1.00 .93 .98 .98 2 1.00 1.00 -- .97 .99 -- 3 .77 .88 .98 .89 .96 .97 4 .91 .96 -- .95 .97 -- 5 .55 .60 .69 .41 .59 .75 6 .88 .96 -- .85 .91 .95 7 .97 .99 .97 .85 .91 .95 8 .98 .99 -- .95 .97 .99 9 .38 .50 .81 .99 .99 -- 10 .88 .94 -- .71 .81 .95 11 .47 .47 .69 .53 .63 .74 12 .76 .77 .86 .47 .55 .74 13 .90 .98 -- .83 .91 .91 14 .99 1.00 -- .97 .99 -- 15 .89 .94 .98 .99 .99 -- 16 .29 .34 .53 .49 .62 .79 17 -- -- .25 -- -- .68 18 -- -- .66 -- -- .38 19 -- -- .33 -- -- .62 20 -- -- 1.00 -- -- .38 21 -- -- .70 -- -- .86

22 -- -- .36 N/A N/A N/A

(39)

附錄表五 附錄表五 附錄表五 附錄表五 原始 原始 原始 原始總總總總分與分與分與分與 logit 分數轉換表分數轉換表分數轉換表 分數轉換表 原始總分 聽力 (logit) 閱讀 (logit) 1 -5.17 -4.72 2 -4.28 -3.99 3 -3.73 -3.27 4 -3.18 -2.79 5 -2.74 -2.35 6 -2.33 -1.95 7 -1.94 -1.55 8 -1.55 -1.18 9 -1.15 -.78 10 -.74 -.41 11 -.29 .00 12 .19 .41 13 .71 .85 14 1.24 1.31 15 1.78 1.73 16 2.31 2.31 17 2.84 2.88 18 3.40 3.53 19 4.00 4.28 20 4.69 5.27 21 5.64

(40)

附錄 附錄 附錄 附錄圖一圖一圖一圖一 聽力自我評量表的 聽力自我評量表的聽力自我評量表的 聽力自我評量表的考生考生考生考生能力能力能力能力及試題及試題及試題及試題難度難度分難度難度分分分佈佈佈佈圖圖圖 logit 能力分布 | 難度分布 | XXXXXXX | | 5 | 17 XXXXXXX | | 19 | 4 XXXXXXXXXXXXXX | 22 | XXXXXXXXXXXXXXXX | | 18 XXXXXXXXXXXXXXXXXXXXX | 3 | 21 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX | 16 | X | XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX | 2 | XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX | 9 11 | 5 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX | 1 | XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX | X | XXXXXXXXXXXXXXXXXXXXXXXXXX | XXXXXXXXXXXXXXXXXX | 0 | 12 XXXXXXXXXXX | | 3 XXXXXXXXXX | -1 | XXX |

(41)

XX | 10 | 6 -2 X | 4 | 13 | | 7 | -3 | 1 8 | | | -4 | | 2 14 註:每個 X 代表 13.8 個考生

(42)

附錄 附錄 附錄 附錄圖二圖二圖二圖二 閱讀自我評量表的 閱讀自我評量表的閱讀自我評量表的 閱讀自我評量表的考生考生考生考生能力能力能力能力及試題及試題難度分及試題及試題難度分難度分難度分佈佈佈佈圖圖圖 logit 能力分布 | 難度分布 X | 6 | | X | X | XX | 5 XX | X | XX | 20 XX | 18 XXX | 4 XXXX | XXXX | XXXXXX | 19 XXXXX | 17 XXXXXX | 3 XXXXXXX | XXXXXXXX | XXXXXXXXX | XXXXXXXXXX | 2 XXXXXXXXX | XXXXXXXXX | XXXXXXXX | 5 12 XXXXXXXXXX | 11 16 XXXXXXXXXX | 1 XXXXXXXXX | XXXXXXXX | XXXXXXXX | XXXX | XXXXX | 0 XXXXX | 10 XXX |

(43)

XX | 6 XX | 7 -1 X | X | 3 X | X | | 1 8 -2 | | | 4 | | -3 | 2 14 15 | | 9 | 註:每個 X 代表 19.6 個考生

(44)

The Development of the GEPT

Self-Assessment Statements

Abstract

The General English Proficiency Test (GEPT), a five-level criterion-referenced test, was developed to assess the general English proficiency of Taiwanese EFL learners. Since its first administration in 2000, the GEPT has won wide recognition, with four million Taiwanese having taken the test. This paper reports on an empirical study of the relationship between self-assessment and test performance. The self-assessment tool, developed in accordance with the test construct in the GEPT, consists of 22 listening and 21 reading can-do statements. Eight thousand and six Taiwanese EFL learners were invited to take a GEPT test and respond to the self-assessment statements. The data were analyzed by Rasch model and ordinal logistic regression. Results show that the self-assessment statements have achieved acceptable accuracy (0.68 for listening; 0.65 for reading) in estimating learners’ language levels. The paper concludes that the GEPT self-assessment statements can be considered a useful tool allowing learners to pre-estimate their ability before registering for a GEPT test and therefore recommends that the tool be utilized to enhance learners’ awareness of their learning and proficiency, and ultimately encourage autonomous learning.

Key Words: GEPT, self-assessment, ordinal logistic regression, Rasch model

參考文獻

相關文件

 為了更進一步的提升與改善本校資訊管理系 的服務品質,我們以統計量化的方式,建立

反思 動詞 自我檢討、反省 視訊 卷一 動作、行為. 反映 動詞 比喻把客觀事物的實質 視訊

級別 與九一八事變和抗日戰爭相關的學習內容 初中級[中三級] 中華民國的建立及面對的困難1.

趣 趣、 、 、 、學習風格 學習風格 學習風格 學習風格等的不同,並有不同的學習需要。2.

• 提升 提升 提升學生獨立自主的 提升 學生獨立自主的 學生獨立自主的 學生獨立自主的閱讀 閱讀 閱讀 閱讀 能力.. 能力

就學與就業之職能 治療暨實習、職業 輔導評量學暨實 習、職業復健暨實 習、職能評估與職 業復健暨實習、職 業輔導評量專題研 究、職業輔導評量

推行 (Implement) 評估.. (Evaluate)

三、學生學習評量,包括學業成績評量及德行評量。學業成績評量採百分制並以整數評