「全民英檢」學習者自我評估量表發展

(1)

「

「全民英檢

全民英檢

全民英檢」

」

」學習者

學習者

學習者自我評估

自我評估

自我評估量表發展

量表發展

吳若蕙

李佳隆

語言訓練測驗中心研發長語言訓練測驗中心統計員 [email protected] [email protected] 摘要摘要摘要摘要「全民英檢」自民國 89 年施測以來，廣受採用，迄今已達 400 萬人次報考，成績獲申請入學、畢業、甄選等參考。有鑑於「全民英檢」的重要性，並為更進一步協助學習者選擇適當的級數報考或作為考前了解自己的強、弱點的參考，本研究以「全民英檢」的能力指標為本，經實證程序發展適合「全民英檢」初至中高級的聽力、閱讀自我評估量表。本研究首先經專家判斷程序製定聽力 22 題、閱讀 21 題的能作敘述 (can-do statement)，編製自我評估量表，並於 2009 年間邀請共 8,006 位「全民英檢」考生回答該量表。接著，以 Rasch 模式與次序羅吉式迴歸分析方法 (ordinal logistic regression) 探討學習者自我評估的結果與「全民英檢」成績間的關係，並計算出三個級數的切分點與正確預測級數的機率模型。分析結果顯示：該模型能正確預估學習者能力的機率分別為聽力 (68%)、閱讀 (65%)，明顯高出隨機機率 (33%)，證明該量表具相當的預測效度。該量表可提供全民英檢指引與教學參考，教師亦可使用量表中的能作敘述訂定更明確的教學目標與設計課堂活動。關鍵詞：全民英檢自我評估次序羅吉式迴歸分析 Rasch 模式

(2)

壹

壹、

、

、前言

前言

一、自我能力評量 (self-assessment) 自我能力評量在人類行為上並非陌生的概念，無論在意識或次意識下，每個人都曾做過自我能力評量。隨著學習者取向 (learner-centered) 的語言學習潮流興起，語言學習開始重視學習者的自發性 (autonomy) 與互動性 (interactiveness)，使得關於第二外語的自我能力評量表和研究如雨後春筍般問世 (Bachman, 2000)。自我能力評量的方式被認為對於自發性學習語言有很大的幫助，它讓學習者能夠檢視自己的進步和個別學習需求 (Harris, 1997)。外語能力評量方式可大致分為兩種 (Oscarson, 1989)： (一) 以自我報告或自我能力評量的方式，是學習者對自身的能力所做的評估，屬於內在或自我導向的評量方式。 (二) 透過考試和測驗，由教師或是訓練過的監試人員對學習者的能力所做的評估，屬於外在或他人導向的評量方式。本研究將聚焦在上述第一種，即自我導向的評量方式。 Klenowski (1995) 對自我能力評量的定義為：「對一個人表現的好壞所做的評估與判斷，試圖找出其優勢與弱勢以改善學習成果」。因此，透過自我評量，學習者能夠審視自己在某科目上的強弱點。 Bailey (1998) 將語言學習的自我評量定義為「學習者評估自身語言技巧與知識的過程」。兩位研究者 (Bachman, 2000; Oscarson, 1989) 根據評量目的將自我評量分為：(1) 成就取向的自我評量，指評量結果將關係到選拔、鑑定、成就與診斷等；(2) 發展取向的自我評量，係評量學習的過程與自我學習的管理。自我評量因為可以幫助學生更了解評量的目的與指標，所以常被視為有效的工具 (Orsmond, Merry & Reiling, 1997)，對於學習

(3)

有正面的影響，亦有助於改善學習狀態 (Sullivan & Hall, 1997)。自我評量可幫助成績不好的學生了解原因來減緩其挫折 (Taras, 2002)，Butler 和 Lee (2010) 的研究顯示自我能力評量對於學生的英語成就表現與學習英語的信心有正向效果。Hillocks (1986) 在寫作作業中，讓學生對自己的作文做自我評量，結果明顯改善了學生的寫作品質。McDonald 和 Boud (2003) 亦發現在許多不同的科目上，自我評量的運用皆正向影響學習成就。諸多研究證據顯示透過自我能力評量能提高學生的成就動機並改善其學習行為。另一方面，自我評量的正確性卻常具爭議性，Sullivan 和 Hall (1997) 發現近四成的學生傾向高估自己的表現，顯示自我能力評量容易流於學習者個人主觀的判斷而使評量結果失去應有的可靠與有效性。此外，自我能力評量效度的穩定性會受評分者的不同而受影響。研究發現自評的結果通常高於教師所評、自己-同儕評量的一致性高於自己-教師評量的一致性 (Bergee, 1997; McEnery & Blanchard, 1999)。研究也發現當自我能力評量會影響到課堂成績時，學生傾向高估自己的能力 (Boud & Falchikov, 1989)。

Ross (2006) 回顧一系列自我能力評量的文獻，對於自我能力評量的信度、效度與效用，歸納以下三點：(一) 自我能力評量具有良好的內部一致性信度 (Ross, Rolheiser, & Hogaboam-Gray, 1999)，在短期間內亦具有良好的再測信度 (Sung, Chang, Chiou, & Hou, 2005)。另透過教導與說明的方式，使學習者更了解自我能力評量中題目的涵義，進而提升測驗信度。(二) Ross (1998) 發現從教材發展出來的能作敘述 (can-do statement) 能獲得比抽象的能力敘述更精確的自我評量結果，且通常可以提供較佳的同時效度 (concurrent validity)。換句話說，自我能力評量表中的題目描述得

(4)

越符合教學目標、教材與測驗內容，其評量結果越能有效預測學習者的學習情形。(三) 教導學生如何正確自我評量與了解題目的涵義也可以提高自評-教師評間的一致性 (Ross et al., 1999; Sung et al., 2005)，而教師亦可藉由與學生自評的差異，透過對話來瞭解學生的學習需求，進而設計合適的課堂教學活動。

Alderson 和 Huhta (2005) 參照歐洲語言能力共同參考架構 (CEFR, Common European Framework of Reference: Learning, Teaching, Assessment) 發展 DIALANG 學習者自我診斷評量系統，內含自我評量問卷、診斷測驗、回饋三部分。在 DIALANG 研發過程中，為瞭解自我評量問卷的效度，研究者將學習者自我評量問卷的結果與診斷測驗的分數作比較，結果發現兩者為中度相關，但這並不足以說明 DIALANG 自我評量問卷的預測效度。因此 DIALANG 在其網站上提醒學習者注意其評量結果僅供參考，不代表學習者真實的能力。英國劍橋大學英語考試院 (Cambridge ESOL) 在其網站上也提供學習者作自我評量的檢測工具，協助學習者瞭解自己的英文能力，並得以選擇適合的級數報考。劍橋大學英語考試院未提供該評量工具的信、效度訊息，雖然提醒該評量的結果僅可作參考，但仍令人不禁對其參考性存疑。作者認為即便自我評量並非正式的測驗，它的結果如能更接近學習者的測驗成績，也就是更具預測效度，自然就更具有參考價值了。總之，自我能力評量工具的發展必須經實證程序來建立其信度、內容效度與預測效度。惟有如此，才能較正確的診斷出學習者的能力，供學習者得知自己的強弱點外，教學者也可藉此瞭解學習者的學習成果，並有效提高自我能力評量結果的參考價值。

(5)

二、全民英檢能力分級測驗

全民英檢能力分級測驗 (簡稱「全民英檢」，英文全名：General

English Proficiency Test, 簡稱 GEPT) 自民國 89 年施測以來，廣受採用，迄今已達 400 萬人次報考，成績獲申請入學、畢業、甄選等參考，成為國內熟悉的英語能力指標。從報考年齡遍佈各年齡層來看，全民英檢帶動了全民終身學習。除此之外，全民英檢亦正向影響了英語學習與教學，Wu 和 Chin (2006) 的研究發現：全民英檢中級能力測驗的實施，影響了高中英語教學，使得高中的英語教學更重視英語聽力與口說會話。有鑒於「全民英檢」的重要性，與目前尚缺乏一套與全民英檢有關，且具信、效度的「自我能力評量」的工具，學習者除正式報考全民英檢外，並無合適的工具來檢測自己的英語能力。除此之外，研究者參考全民英檢各級數歷年的通過率和平均分數亦發現：許多初次報考全民英檢的考生，成績遠高或遠低於該級數通過分數達 20~30 分以上，這表示這些學習者在報考前並不了解自己真實的英語能力屬於那個級數。因此，本研究以「全民英檢」的能力指標為本，經一系列實證程序發展出具效度的「全民英檢」初級至中高級的聽力、閱讀自我能力評量表，目的在於： (一) 全民英檢為大家熟悉的英語能力架構，希望學習者能以此「自我能力評量」訂立學習目標與自我管理學習。 (二) 希望透過「自我能力評量」協助學習者選擇適當的級數報考，如此一來，自我能力評量表中各級數之間應如何切割，如何與全民英檢各個級數對應，為本研究關注的議題。 (三) 希望透過「自我能力評量」產生的立即回饋來增進學習者學習英文的動機，並透過正式測驗來驗證「自我能力評量」的結果，期產生互動性的英語學習效果。

(6)

總而言之，本研究欲探討由實證發展出來的「全民英檢自我能力評量表」是否為一有效的英語診斷工具，並提出以下兩個研究問題： (一) 「全民英檢自我能力評量表」是否可有效區分不同程度的學習者？ (二) 全民英檢考生成績與這些考生的自評結果的關係為何？換言之，「全民英檢自我能力評量表」的預測準確性或預測效度為何?

貳

貳、

、

、材料與

材料與

材料與方法

方法

一、樣本 本研究以參加全民英檢初級、中級與中高級的考生為主要研究對象，樣本收集期間為 98 年 2 月與 6 月全民英檢初級測驗、1 月與 7 月中級測驗及 3 月與 10 月中高級測驗，根據該次報考考生的年齡、性別與區域取樣，於正式測驗前 1~2 週取樣 1000~1200 名考生進行抽測，抽測試卷的組卷方式與正式測驗相同，為避免影響正式測驗的進行與公平性，本研究選擇在抽測時採樣。英語聽解能力共收集 4105 份樣本；英語閱讀能力 3901 份樣本。地區分佈方面，北部佔 45%、中部 20%、南部 35%；性別分佈方面，男女比例約為 2:3。年齡方面，初級考生平均年齡為 14.98 歲，為初級目標國中學歷考生；中級考生平均年齡為 16.79 歲，為中級目標高中/職學歷考生；中高級考生平均年齡為 18.42，為中高級目標大學學歷考生 (見表一)。本研究樣本分佈與全民英檢測驗的樣本分佈相符，具取樣代表性。

(7)

表表表表一一一一取樣人數分佈表取樣人數分佈表取樣人數分佈表 取樣人數分佈表 聽力閱讀人數百分比人數百分比地區北部 1,862 45% 1,771 45% 中部 816 20% 750 19% 南部 1,427 35% 1,380 35% 性別男性 1,554 38% 1,451 37% 女性 2,551 62% 2,450 63% 平均年齡初級 14.98 中級 16.79 中高級 18.42 二、研究工具本研究所使用的兩種研究工具為「全民英檢測驗」與「全民英檢自我能力評量」，以下說明之：

全民

全民英檢

英檢

(GEPT)。本研究用來收集考生表現之工具為 GEPT 初級至中高級初試聽力與閱讀測驗，試題選自全民英檢題庫，依各級測驗規格組卷，內容與難度和同級正式測驗相同，每項測驗分數範圍為 0 至 120 分，總分為 240 分。除了初級聽力測驗為三選一之選擇題外，其餘試題皆為四選一之選擇題。測驗題型、題數、測驗時間與通過標準見表二，自民國 99 年起，初級聽力測驗與中高級閱讀測驗題型有稍作修訂，詳情請查閱「LTTC 全民英檢網站」。

(8)

表表表表二二二二題型比較表題型比較表題型比較表 題型比較表 測驗聽力閱讀級數初級中級中高級初級中級中高級測驗題型 (題數) 看圖辨義 (10 題) 看圖辨義 (15 題) 問答 (15 題) 詞彙與結構 (15 題) 詞彙與結構 (15 題) 詞彙與結構 (15 題) 問答 (10 題) 問答 (15 題) 簡短對話 (15 題) 段落填空 (10 題) 段落填空 (10 題) 段落填空 (15 題) 簡短對話 (10 題) 簡短對話 (15 題) 簡短談話 (15 題) 閱讀理解 (10 題) 閱讀理解 (15 題) 閱讀理解 (20 題) 測驗時間 20 分鐘 30 分鐘 35 分鐘 30 分鐘 45 分鐘 50 分鐘通過標準聽力成績＋閱讀成績≧160 分且單科不得低於 72 分

全民英檢

全民英檢自我

自我

自我能力評

自我

能力評

能力評量

量

。全民英檢自我能力評量包含聽力與閱讀能力兩部分，計分方式採用二分題 (是、否) 計分。首先根據「全民英檢」能力指標說明 (表三) 與「全民英檢」全真試題的測驗目標擬定能作敘述，使量表中的能作敘述皆能反應正式測驗題目之評量目標。本研究參考 DIALANG 自我評量採專家判斷 (expert judgment) 的方式，對其原始的能作敘述逐一檢視並淘汰掉不適合者 (CoE, 2001)。本研究的專家判斷由「全民英檢」研究團隊 6 位研究人員組成，判斷每一能作敘述所屬的級數 (初至

(9)

中高級) 與內容的適合度，並修改、淘汰不合適的題目。接著再由兩位外部專家進行量表檢核，確認得使用在後續研究的題目 (含聽力 22 題: 初級 6 題、中級 6 題、中高級 10 題；閱讀 21 題：初級 7 題、中級 4 題、中高級 10 題)。例如：聽力能作敘述第一題「購物時，我能聽懂簡單的資訊，例如價格。」 (附錄表一) 反映「全民英檢」初級聽力的能力 (表三)。閱讀能作敘述第六題「我能閱讀一般信件中對個人觀感或意願的陳述。」 (附錄表二) 反映的是「全民英檢」中級的閱讀能力 (表三)。又為將三個級數的能作敘述放在同一量尺比較，本研究採用定錨題設計 (含聽力 9 題: 初級 2 題、中級 3 題、中高級 4 題；閱讀 11 題：初級 2 題、中級 4 題、中高級數 5 題)，並使用 Rasch 模式分析題目的位置 (location) 與每位考生的能力值。能力敘述請參照附錄表一與表二。雖然每個級數的能力敘述題數未能平均分配，但專家判斷認為這些能力敘述可適度地反應全民英檢的能力、具內容效度。另查 DIALANG 自我評量的能作敘述題數以 CEFR 級數區分 (CoE, 2001)，也未平均分配，含聽力 43 題：A1 (4 題) A2 (10 題) B1 (10 題) B2 (9 題) C1 (9 題) C2 (1 題)；閱讀 31 題： A1 (5 題) A2 (9 題) B1 (8 題) B2 (6 題) C1 (2 題) C2 (1 題)。考量初、中級考生年紀較輕，同時進行聽力與閱讀自我能力評量表，可能會因量表題數過多而出現亂答的情形，影響作答準確性，因此初級與中級抽測依試場隨機僅指派聽力或閱讀能力評量表其一；中高級抽測則對全部考生同時進行兩項的能力評量表。

(10)

表表表表三三三三全民英檢能力指標說明全民英檢能力指標說明全民英檢能力指標說明 全民英檢能力指標說明 初級聽能聽懂與日常生活相關的淺易談話，包括價格、時間及地點等。讀可看懂與日常生活相關的淺易英文，並能閱讀路標、交通標誌、招牌、簡單菜單、時刻表及賀卡等。中級聽在日常生活情境中，能聽懂一般的會話；能大致聽懂公共場所廣播、氣象報告及廣告等。在工作情境中，能聽懂簡易的產品介紹與操作說明。能大致聽懂外籍人士的對談及詢問。讀在日常生活情境中，能閱讀短文、故事、私人信件、廣告、傳單、簡介及使用說明等。在工作情境中，能閱讀工作須知、公告、操作手冊、例行的文件、傳真、電報等。中高級聽在日常生活情境中，能聽懂社交談話，並能大致聽懂一般的演講、報導及節目等。在工作情境中，能聽懂簡報、討論、產品介紹及操作說明等。讀在日常生活情境中，能閱讀書信、說明書及報章雜誌等。在工作情境中，能閱讀一般文件、摘要、會議記錄及報告等。

(11)

三、資料處理為提升全民英檢自我能力評量的信度與效度，在正式分析資料之前，研究者先對資料檢核與能作敘述作答分析，前者檢查考生資料是否出現偏差值或異常的作答反應，後者檢查試題的合適性。

資料檢核

。針對部份不可靠的答題反應（例如：能力值低的考生，在所有題目中全部答「是」，或是能力高的考生在所有題目中全部答「否」者），另同時考慮考生能力、全民英檢自我評量答題反應與聽力 (閱讀) 成績三者的適配性刪除不可靠樣本。聽力共刪 239 份、閱讀 398 份。

能作敘述作答

能作敘述作答分析

分析

。為了能將自我能力評量結果與全民英檢成績表現作比較，研究者依據全民英檢初級、中級與中高級垂直校準試題 (Wu & Liao, 2009) 估算考生能力值，將考生能力放置在同一量尺，能力值由低至高定在-1.5 以下、-1、-.5、0、.5、1、 1.5、2、2.5 及 3 的 logit，估計其能作敘述答是的比率 (也就是自我評量的能力)、計算全部考生平均答是的比率與試題鑑別力，並將分析結果與專家共同檢核決定是否需要刪題。四、計算切點分數 (cut-off point) 本研究以「全民英檢自我評量分數」為自變項，而將「考生具備且建議報考級數」作依變項，並使用 SPSS 中的次序羅吉式迴歸 (ordinal logistic regression) 模組來計算全民英檢三個級數 (初、中與中高級) 間的切點分數，如以下說明：

自變項

。本研究首先使用 Rasch 模式分析三個級數 (初、中與中高級)能作敘述題目的難度，並將考生能力放置在同一量尺 (logit) 上，估計其「全民英檢自我評量分數」，此分數即代表其自我評量的聽力與閱讀能力。

(12)

依變

依變項

項

。以「考生具備且建議報考級數」為依變項，1 為初級、2 為中級、3 為中高級，類推全民英檢的資料發現，全民英檢平均跨級數分數約為 20 分、測量標準誤為 8 分，也就是說某考生在某項測驗中得分高 (低) 於通過分數 20 分以上，該考生可能具備更高一級的能力 (或具備低一級的能力)。考慮到本研究工具為一自我初步評估的工具，因此採用稍微寬鬆的標準，即聽力 (閱讀) 成績大於等於 92 分 (單項通過成績 80 分＋跨級數平均分數 20 分－1 個測量標準誤 8 分＝92 分)，則該考生的聽力 (閱讀) 能力可能已具備下一級數能力，建議可報考下個級數，因此依變項＝報考級數＋ 1；當聽力 (閱讀) 成績小於 92 分且大於等於 52 分 (單項通過成績 80 分－跨級數平均分數 20 分－1 個測量標準誤 8 分＝52 分)，則該考生的聽力 (閱讀) 能力可能具備該級數能力但尚不建議報考下個級數，因此依變項＝報考級數；當聽力 (閱讀) 成績小於 52 分，該考生的聽力 (閱讀) 能力應該尚未具備該級數能力，因此依變項＝報考級數－1。

分析工具

。本研究使用 ConQuest 軟體分析題目難度與考生的能力值，接著利用 SPSS12.0 中的次序羅吉式迴歸模組 (ordinal logistic regression）來建立三個級數 (初級以下、中級及中高級以上) 的機率模型，並依此機率模型決定各級數的切點分數。因本研究所使用的依變項為次序變項且其類別數大於兩類 (初級、中級與中高級)，若忽略其間斷與次序的特性而使用一般多元迴歸 (multiple regression) 或視依變項為名義變項的多項羅吉式迴歸 (multinomial logistic regression)，將會喪失一些有用的重要資訊而導致令人誤解的結論 (Liu, 2007)，因此本研究採用次序羅吉式迴歸。另外，使用次序羅吉式迴歸的另一項優勢在於當反應變項的類別不多時，不必考慮其常態性與變異數同質性的假設 (Chen & John, 2004)。

(13)

參

參、

、

、結果

結果

結果與討論

與討論

一、試題分析結果試題分析結果分為兩部份，第一部份使用古典試題理論分析題目的難度 (考生答「是」的百分比) 與鑑別度，第二部分為 Rasch 模式：

古典測驗分析

。古典測驗分析結果顯示不同能力值的考生答「是」的百分比 (見附錄表一與表二)，符合預期結果能力，即能力越高的受試群答「是」的百分比越高，而能作敘述題目越難則相對考生答「是」的百分比越低，整體項目分析結果 (見附錄表三) 顯示分析後題目所屬的級數與原先設定的級數大致相同，根據此分析結果與專家意見彙整，決定將與專家原先判斷級數相差過大 (相差兩個級數) 或鑑別度不彰 (鑑別度<.3) 的題目刪除，其中聽力自我能力評量表刪除第 20 題 (我能大致聽懂別人用清晰的英語談論我所熟悉的話題，例如學校、工作、休閒)，專家判斷此題為中高級以上題目，分析結果卻為初級，且與第 13 題 (我能聽懂別人用簡單的字彙談論我個人和我的家庭，例如：就學、就業和家庭狀況) 極為相似，因此將之刪除。閱讀刪除第 21 題能作敘述 (我能於文章中快速找到我所需要的資訊，例如地名、人名、時間)，同樣因與原先判斷級數差異過大而刪除。刪題後兩份自我能力評量表的內部一致性係數 (Cronbach α) 分別為 .81 與.79。 Rasch

模式分析

。 Rasch 模式分析結果如附錄圖一的聽力自我評量表的能力-題目難度圖 (Variable Map)：考生的能力分布大致介於-2~5.40 logit，而題目的難度分布介於-4.20~5 logit 之間，初級的題目大致分布在-2 logit 以下，而中級題目大致分布在-2~0

(14)

logit，中高級的題目則大致分布在 1.40 logit 以上 (見附錄表一)，此結果驗證了三個級數難度間的階層模式 (hierarchical pattern)。同時亦發現第 20 題 (原先設定為中高級的題目)，其難度位置落在-1.28 logit，落入中級偏易的難度範圍裡，因此如同古典試題分析結果將第 20 題刪除。對於此樣本而言，沒有合適的題目來測量能力大於 5 logit 的考生，而針對難度低於-2 logit 以下的題目答對機率皆大於.50，能力與題目難度適配尚佳。此外，題目與模式的適配考驗顯示：不論是未加權均方誤適配指標或是加權均方誤適配指標，所有題目的 MNSQ 值介於.70~1.30 之間的標準中，轉換成 t 值後，亦皆介於 2_{± 之間的標準中。信度分析結果：題目信度} 與考生信度皆為.82。由附錄圖二閱讀自我評量表的能力-題目難度圖可得：考生的能力分布大致介於-1.80~6.20 logit，而題目的難度分布介於 -3.40~ 4.60 logit 之間，初級的題目大致分布在-1.80 logit 以下，而中級題目大致分布在-.80 ~ 0 logit，中高級的題目則大致分布在 1.20 logit 以上 (見附錄表二)，此結果亦驗證了三個級數間的階層模式。同時亦發現第 21 題 (原先設定為中高級的題目)，其難度位置落在-.35 logit，落入中級的難度範圍裡，因此如同古典試題分析結果將第 21 題刪除。對於此樣本而言，沒有合適的題目測量能力值在 4.80 logit 以上能力者，而對於難度低於-1.6 logit 以下的題目答對機率皆大於.50，因此能力與題目難度適配尚可。題目與模式的適配考驗顯示：不論是未加權均方誤適配指標或是加權均方誤適配指標，所有題目的 MNSQ 值介於.70~1.30 之間的標準 中，轉換成 t 值後，亦皆落於 2_{± 之間的標準中。信度分析結果：} 題目與考生的信度分別為.80 與.79。

(15)

二、全民英檢成績與自評結果的關係本研究欲探討全民英檢自我能力評量結果與全民英檢成績之間的關係。因為全民英檢為分級測驗，各個級數之間的分數代表的意義不同，意即初級測驗的 90 分不等於中級測驗的 90 分，兩者之間有程度上的差異，因此必須將三個級數分開，分別探討以自我評量結果與全民英檢成績之間的關係。分析結果如表四， 由表四可得聽力自我能力評量與全民英檢聽力成績的相關 R 介 於.44~.58，判定係數_R2_{(自變項可解釋依變項的解釋變異量) 介} 於.19~.33，自我評量結果皆能有效預測全民英檢聽力成績 (t 值皆 達顯著)；而閱讀自我能力評量與全民英檢閱讀成績的相關 R 介 於.40~.59，判定係數_{R 介於}2 _{.15~.35，自我評量結果亦皆能有效預} 測全民英檢閱讀成績。表四表四表四表四全民英檢成績與自評結果的關係全民英檢成績與自評結果的關係全民英檢成績與自評結果的關係 全民英檢成績與自評結果的關係 項目級數 R 2 R 標準化係數 t 值 顯著性聽力初級 .56** .32 .56 23.80 .00 中級 .58** .33 .58 26.72 .00 中高級 .44** .19 .44 20.14 .00 閱讀初級 .59** .35 .59 22.51 .00 中級 .55** .30 .55 20.13 .00 中高級 .40** .15 .40 16.76 .00 註：**p < .01，自變項為自評結果，依變項為全民英檢成績 三、切點分數與分類正確率以次序羅吉式迴歸分析計算切點分數以前，首先需考驗模式

(16)

的適合度，結果顯示兩份自我能力評量表的 G 統計量分別為 2157.73 與 1699.22，在自由度為 1 下達到統計上的顯著差異，表示以「全民英檢自我能力評量分數」為自變項來預測「考生具備且建議報考級數」是有用的 (見表五)。表表表表五五五五模式適合度資訊表模式適合度資訊表模式適合度資訊表 模式適合度資訊表 模式 -2 對數概似卡方自由度顯著性聽力只截距 2591.94 最後 434.21 2157.73 1 .00 閱讀只截距 2201.09 最後 501.87 1699.22 1 .00 註：連結函數：Logit。接著，以「聽力自我能力評量分數」x_L與「閱讀自我能力評量分數」x_R分別預測依變項 (適合報考的級數)，結果顯示在自由度為 1 下亦皆達到統計上的顯著 (見表六)，根據模式估計出來的參數分別建立三個級數 (初、中與中高級)的機率模型，見方程式 (1)~(3)，舉例來說，某生在聽力自我能力評量與閱讀自我能力評量分別得到 2.31 logit 與 .40 logit，即x_L ₌2.31，x_R ₌.40，分別帶入方程式 (1)~(3)，得到P_L₁ ₌.02，P_L₂ ₌.33，P_L₃ ₌.65，該生聽力能力為中高級的機率最高；P_R₁ ₌.22，P_R₂ ₌.59，P_R₃ ₌.19，該生閱讀能力為中級的機率最高。

(17)

表表表表六六六六參數估計值參數估計值參數估計值 參數估計值 估計標準誤 Wald 自由度顯著性聽力起始值 [G = 1] -1.56 .60 666..68 1 .00 [G = 2] 1.78 .60 888.35 1 .00 位置 x_L 1.04 .28 1346.72 1 .00 閱讀起始值 [G = 1] -.81 .64 158.10 1 .00 [G = 2] 1.90 .71 715.17 1 .00 位置 xR 1.09 .34 1038.87 1 .00 註：連結函數：Logit。 1 exp( 1.56 1.04 ) 1 exp( 1.56 1.04 ) L L L x P x − − = + − − and 1 exp( .81 1.09 ) ) 09 . 1 81 . exp( 1 R R R x x P − − + − − = (1) 3 1 1 exp(1.78 1.04 ) L L P x = + − and 1 exp(1.90 1.09 ) 1 3 R R x P − + = (2) P(LorR)2 =1−P1−P3 (3) Li P :聽力能力為 i 級的機率 Ri P :閱讀能力為 i 級的機率

(18)

再來將依據已建立好的機率模型，分別計算「聽力自我能力評量」與「閱讀自我能力評量」三個級數 (初、中與中高級) 之間的切點分數，接著將機率模型所預測出來的級數與考生實際級數交叉分析，得到此機率模型分類級數的正確率。以下將分別說明聽力與閱讀自我能力評量。

聽力自我能力評量

。將所有考生在聽力自我能力評量分數 L x 帶入公式 (1)~(3)可畫出圖一，解其聯立方程式可得三個級數的交點，即切點分數，以圖形表示更為清楚。從圖一可見初級與中級機率曲線交會於-1.42 logit上，而中級與中高級的機率曲線交會於1.64 logit上，因此可推論考生在聽力自我能力評量表得分上得分小於-1.42 logit者，被分類為初級程度，建議報考初級；得分介於-1.42~1.63 logit 者，分類為中級程度，建議報考中級；而得分 1.64 logit以上者，則分類為中高級程度，建議報考中高級以上。為了避免使用者因不了解 logit 分數所代表的意義，研究者將 logit 轉換成原始總分 (即能作敘述答「是」的題數)。由於在 Rasch 模式中，原始總分為能力估計的充分統計量，當原始總分相同，不論考生的答題反應 (response pattern) 為何，能力估計的結果皆相同 (考生能力的最大概似值雖不盡相同，但仍會落在相同的能力上)，因此分數間可直接轉換 (見附錄表五)。轉換後結果顯示考生在聽力自我能力評量表得分上得分介於0~8分者，被分類為初級程度，建議報考初級；得分介於 9~14 分者，分類為中級程度，建議報考中級；而得分15分以上者，則分類為中高級程度，建議報考中高級以上。

(19)

圖圖圖圖一一一一聽力聽力聽力聽力自我能力評量答題機率圖自我能力評量答題機率圖自我能力評量答題機率圖 (logit) 自我能力評量答題機率圖表七中的「觀察類別」代表考生真實具備的GEPT級數，而「預測反應類別」則為此模型根據聽力自我能力評量分數所預測考生具備且建議報考級數。舉例來說，具備中級能力且建議報考中級的真實人數為1653人，但機率預測模型將中級低估成初級的人數為23人，正確預測為中級有 1187人，高估成中高級以上為 443 人。此機率預測模型的整體正確率為 .68 (= (48+1187+1383)/3866)，比起隨機亂猜的機率.33 (= 1/3) 高出兩倍以上，且未發生預測差異兩個級數的情形。

(20)

表表表表七七七七聽力級數分類表聽力級數分類表聽力級數分類表 聽力級數分類表 觀察類別預測反應類別 1 (初) 2 (中) 3 (中高) 總數 1初級 48 329 0 377 2中級 23 1187 443 1653 3中高級以上 0 453 1383 1836 總數 71 1969 1826 3866

閱讀

閱讀自我能力評量

自我能力評量

。以閱讀自我能力評量表分數xR代入公式(1)~(3)畫出圖二，從圖二可見初級與中級機率曲線交會於-.61 logit上，而中級與中高級的機率曲線交會於1.63 logit上，因此可推論考生在閱讀自我能力評量表得分上得小於-.61 logit (得分介於 0~9 分) 者，被分類為初級程度，建議報考初級；得分介於 -.61~1.62 logit (得分介於10~14分) 者，分類為中級程度，建議報考中級；而得分在1.63 logit (得分15分) 以上者，則分類為中高級程度，建議報考中高級以上。須注意的是，因中級的題目在閱讀部分比聽力少，以致閱讀切分點的範圍較聽力小。

(21)

圖圖圖圖二二二二閱讀自我能力評量答題機率圖閱讀自我能力評量答題機率圖閱讀自我能力評量答題機率圖 閱讀自我能力評量答題機率圖 表八可見此機率模型預測的整體正確率為.65 (= (100+652+1541)/3503)，比起隨機亂猜的機率.33 (= 1/3) 高出許多，亦未發生預測差異兩個級數的情形。表表表表八八八八閱讀級數分類表閱讀級數分類表閱讀級數分類表 閱讀級數分類表 觀察類別預測反應類別 1 (初) 2 (中) 3 (中高) 總數 1初級 100 301 0 401 2中級 67 652 489 1208 3中高級以上 0 353 1541 1894 總數 167 1306 2030 3503

(22)

上述預測模型的分類正確率 (聽力與閱讀自我能力評量表分別為68%與 65%) 達可接受範圍，但須注意的是，預測失誤多出現在初級考生：聽力部份377位考生中有329位高估為中級 (表七)；閱讀部份401位考生中有301位高估為中級 (表八)。可能原因為年輕的考生較缺乏認知技巧判斷自己的能力，且容易受到自我期望的影響而高估自己的能力 (Ross, 2006)。Heilenman (1990) 的研究亦發現經驗較少的學習者在自我能力評量中最常出現高估的情形。此外，Orsmond et al. (1997) 的研究中發現能力較低的學習者有高估自己的能力的現象，與本研究結果相符。

肆

肆、

、

、結論

結論

本研究為驗證「全民英檢自我能力評量表」是否為一有效的英語診斷工具，探討兩個研究問題，以下的結論即依照每個研究問題依序整理：一、「全民英檢自我能力評量表」是否可有效區分不同程度的學習者？若以考生實際通過級數分組計算其題目答「是」的百分比 (見附錄表四)，表中數字越大代表該級數考生越具備該題所描述的能力。且考生通過的級數越高，對於能作敘述的同意度會越大。例如：聽力第 3 題 (我能從母語人士的談話內容中推測談話者的觀點) 的同意度，通過初級考生的平均同意度為.77、中級為.88 而中高級為.98，由此可證明本研究發展的自我能力評量表能夠有效的區分三個級數的考生。並且依照各個級數考生自我評量的結

(23)

果，可實際歸納出各個級數的考生的語言能力敘述。為便於歸納，能作敘述答「是」率_{≥ .90}視為已具備該能力、答「是」率介於.70~.89 視為大致具備該能力、答「是」率_{≤ .70}視為該能力待加強:

初級聽力

。考生平均而言已具備聽懂「簡單」的圖表與「簡短」的對話，包括價格、問路 (交通工具)、慢速簡單的具體日常對話與時間地點；大致具備推論談話者的觀點與態度、聽懂外貌動作的描述、簡短廣播與電話留言、廣告、氣象、與簡單的操作說明或指示；待加強包括聽懂母語人士間對話重點、時事與談話節目、母語人士間常速的長談與不同主題 (人文、社會、自然、科技) 的內容。

初級閱讀

。考生平均而言已具備閱讀主旨明確簡單的告示、簡短故事、便條信件對事件的描述、簡短廣告中的重要資訊；大致具備閱讀圖表、信件中對個人觀感的陳述、告示傳單中的資訊、新聞短文與主題具體的文章；待加強包括理解長文章的組織脈絡、職場書信與特定議題的論點、閱讀新聞時事的報導或文章，並理解作者的觀點。

中級聽力

。考生平均而言除具備初級聽力的能力外，另具備聽懂外貌動作的描述、簡短廣播與電話留言、簡單的操作指示；大致具備推論談話者的觀點與態度、廣告和氣象；待加強包括聽懂母語人士間對話重點、時事與談話節目、母語人士間常速的長談與不同主題 (人文、社會、自然、科技) 的內容。

中級閱讀

。考生平均而言除具備初級閱讀的能力外，另具備閱讀圖表說明、信件對個人觀感的陳述；大致具備理解新聞短文的重點；待加強包括閱讀新聞時事的報導或文章，並理解作者的觀點、新聞短文、長文章的組織脈絡、職場書信與特定議題的論點。

中高級聽力

。考生平均而言除具備初級與中級聽力的能力

(24)

外，另具備聽懂談話者的對話並推論談話者的觀點與態度；大致具備聽懂常速且內容較長的描述、廣告和氣象；待加強包括聽懂具體、抽象主題會話、時事與談話節目、不同主題 (人文、社會、自然、科技) 的內容、長篇談話與言外之意、研討會專業討論的內容、複雜的各種長篇主題與新聞評論節目。

中高級閱讀

。考生平均而言除具備初級與中級的閱讀能力外，另具備閱讀主題具體文章中不同的論點與新聞短文；大致具備閱讀新聞時事的報導或文章，並理解作者的觀點、掌握長文章的脈絡與特定議題的論點、職場書信、在文章中快速找到所需資訊；待加強包括閱讀各類主題的長文章並重點整合、理解文中細微的轉折變化、快速閱讀長篇文章並掌握重點以及掌握內容複雜文章中的脈絡。二、全民英檢成績與自評結果的關係為何？換言之，「全民英檢自我能力評量表」的預測效度為何? 本研究探討自我能力評量表與全民英檢初級至中高級的關係與切點分數，結果發現：自我能力評量表與全民英檢成績表現間具有中度相關的關係。另以次序羅吉式迴歸分析計算切點分數，即自我能力評量的得分，推估該考生所屬全民英檢的級數。結果為聽力自我能力評量表得分小於-1.42 logit (0~8 分) 者為初級程度；得分介於-1.42~1.63 logit (9~14分) 者為中級程度；得分 1.64 logit (15分) 以上者為中高級程度。閱讀自我能力評量表得分小於-.61 logit (0~9 分) 者為初級程度；得分介於-.61~1.62 logit (10~14分) 者為中級程度；得分1.63 logit (15分) 以上者則為中高級程度。這些切點分數除了用來判定學習者目前可能具備的能力級數外，更可以提供選擇報考級數上的建議。舉例來說，在聽力自我

(25)

能力評量表上初級 (6 題) 與中級 (6 題) 的題目全答是者得分為.19 logit (12分) ，屬中級能力範圍，適合報考中級；得分1.64 logit (15分) 以上者，才建議報考中高級。此外，自我能力評量表中的能作敘述能幫助學習者了解自己需加強哪方面的能力，對其報考的級數有更大的勝算。至於預測模型的分類正確率，也就是預測效度：聽力與閱讀自我能力評量表分別為 68% 與 65%，在可接受範圍。但仍有.32 與.35的失誤率。最大的失誤多出現在初級考生高估自己能力的結果。過去的研究也發現能力較低的學習者有高估自己的能力的現象 (Heilenman, 1990; Orsmond et al., 1997)。因此，在施作自我能力評量時，對於能力較低的學習者，我們須提供引導與說明，協助其了解自我能力評量中題目的涵義，對自己的能力作較正確的判斷。本研究的另一限制在於所使用的量表採用二分題 (是、否) 方式計分，致獲取訊息量有限。建議後續研究宜採用多點計分的方式，除了可增加能力估計上的訊息量，對於切點分數的設立也會更加精確。總而言之，本研究經實證程序證明「全民英檢自我能力評量表」具合理的預測效度，可作為英語能力診斷工具。如前文所言，有鑒於「全民英檢」的普及性，這套「全民英檢自我能力評量表」可幫助學習者在正式報考全民英檢前評估自己的能力，並選擇適當的級數報考。為方便學習者使用，可參考DIALANG的作法，將本自我能力評量表置於「全民英檢學習網站」 (www.gept.org.tw)。學習者可隨時評估自己的英語能力，並得到立即回饋。學習者也可經由回答自我能力評量表中的能作敘述得知自己的強弱點，甚至以班級或團體為單位的英語教學 (特別是全民英檢的考前輔導教學)，也可藉此評估學習成果，瞭解學習者已

(26)

具備何種能力及需再加強何種能力，始可對症下藥，達到事半功倍之效。

全民英檢已成為國內熟悉的英語能力架構，並參照國際上認可的英語能力架構―CEFR (Wu & Wu, in press)，因此「全民英檢自我能力評量表」除對擬報考全民英檢的學習者有參考價值外，一般的英語學習者也可藉此訂立學習目標與自我管理學習。另外，「全民英檢自我能力評量表」也可作為研究工具，進一步探討自我能力評量與英語成就表現、學習動機、學習行為等之間的關係。

致謝

本研究為財團法人語言訓練測驗中心 (LTTC) 建置「全民英檢」學習資源網站計畫的一部分。秉持測驗與教學之間應存有良好互動關係的理念，LTTC研究團隊不僅研發測驗來評量學習者的能力，也希望能協助學習者培養自學 (learner autonomy) 的能力，進而提昇英語能力。我們感謝 LTTC 高天恩主任的支持及參與本研究的學習者。對於協助採樣、一起腦力激盪的團隊伙伴，我們在此一倂致上最深的謝意。

參考書目

(27)

computer-based diagnostic tests based on the Common European Framework. Language Testing, 22(3), 301-320.

Bachman, L. F. (2000). Learner-directed assessment in ESL. In G. Ekbatani & H. Pierson (Eds.), Learner-directed assessment in ESL (pp. ix-xii). New Jersey: Lawrence Erlbaum Associates, Inc. Bailey, K. M. (1998). Learning about language assessment: Dilemmas, decisions, and directions. Pacific Grove: Heinle & Heinle Publishers.

Bergee, M. J. (1997). Relationships among faculty, peer, and self-evaluations of applied performances. Journal of Research in Music Education, 45(4), 601-612.

Boud, D., & Falchikov, N. (1989). Quantitative studies of student self-assessment in higher education: A critical analysis of findings. Higher Education, 18, 529-549.

Bulter, Y. G., & Lee, J. (2010). The effects of self-assessment among

young learning of English. Language Testing, 27(1), 5-31. Chen, C. K., & John, H. (2004). Using ordinal regression model to

analyze student satisfaction questionnaires. Association for Institutional Research, 1, 1-13.

Council of Europe (2001). Common European Framework of Reference for Languages: Learning, teaching, assessment. Cambridge: Cambridge University Press.

Harris, M. (1997). Self-assessment of language learning in formal settings. ELT Journal, 51(1), 12-20.

Heilenman, L. K. (1990). Self-assessment of second language ability: The role of response effects. Language Testing, 7(2), 174-201. Hillocks, G. (1986). Research on written composition: New directions

(28)

for teaching. Urbana, IL: ERIC Clearinghouse on Reading and Communication Skills.

Klenowski, V. (1995). Student self-evaluation processes in student-centred teaching and learning contexts of Australia and England. Assessment in Education, 2(2), 145-163.

Liu, X. (2007). Ordinal regression analysis: Fitting the proportional odds model using Stata, SAS and SPSS. Paper presented at the 2007 Annual Conference of the American Educational Research Association (AERA). Chicago, IL.

McDonald, B., & Boud, D. (2003). The impact of self-assessment on achievement: The effects of self-assessment training on performance in external examinations. Assessment in Education, 10(2), 209-220.

McEnery, J. M., & Blanchard, P. N. (1999). Validity of multiple ratings of business student performance in a management simulation. Human Resource Development Quarterly, 10(2), 155-172.

Orsmond, P., Merry, S., & Reiling, K. (1997). A study in self-assessment: Tutor and students’ perceptions of performance criteria. Assessment & Evaluation in High Education, 22(4), 357-368.

Oscarson, M. (1989). Self-assessment of language proficiency: Rationale and applications. Language Testing, 6(1), 1-13. Ross, J. A., Rolheiser, C., & Hogaboam-Gray, A. (1999). Effect of

self-evaluation on narrative writing. Assessing Writing, 6(1), 107-132.

(29)

self-assessment. Practical Assessment Research & Evaluation, 11(10). 1-13.

Ross, S. (1998). Self-assessment in second language testing: A meta-analysis and analysis of experiential factors. Language Testing, 15(1), 1-20.

Sung, Y.-T., Chang, K.-E., Chiou, S.-K., & Hou, H.-T. (2005). The design and application of a web-based self- and peer-assessment system. Computers and Education, 45(2), 187-202.

Sullivan, K., & Hall, C. (1997). Introducing students to self-assessment. Assessment & Evaluation in Higher Education, 22(3), 289-305.

Taras, M. (2002). Using assessment for learning and learning from assessment. Assessment & Evaluation in Higher Education, 27(6), 501-510.

Wu, R. & Chin, J. (2006). An impact study of the intermediate level GEPT. Retrieved January 17, 2008, from http://www.lttc.ntu. edu.tw/2007_annualreport/p59-p74.pdf.

Wu, R. Y. F., & Liao, C. H. Y. (2009). Establishing a common score scale for the GEPT Elementary, Intermediate and High-Intermediate listening and reading tests. Paper presented at 2009 LTTC International Conference.

Wu, J., & Wu, R. Y. F. (in press). Relating the GEPT reading comprehension tests to the CEFR. In W. Martyniuk (Ed.), Aligning tests with the CEFR: Reflections on using the Council of Europe’s draft manual (pp.204-224). Cambridge: Cambridge University Press.

(30)

作者介紹

吳若蕙，英國University of Surrey (Roehampton) 語言測驗評

量博士，現為財團法人語言訓練測驗中心 (LTTC) 研發長，並擔

任「全民英檢」考試委員、Language Assessment Quarterly 期刊編輯委員。專長領域：英語測驗發展、英語口說能力評量、標準化測驗效度研究等。

李佳隆，國立中正大學心理計量碩士，現為財團法人語言訓

練測驗中心 (LTTC) 統計員。研究興趣包括試題反應理論與電腦

(31)

附錄表一附錄表一附錄表一 附錄表一 聽力自我能力評量表與聽力自我能力評量表與聽力自我能力評量表與聽力自我能力評量表與考生能力值考生能力值考生能力值考生能力值分析分析分析分析題號所屬級別題目考生能力值 (Logit) 0 .5 1 1.5 2 2.5 3 (A)1 E 我能大致聽懂簡單的圖表說明。 (-3.12) .97 .97 .98 1.00 1.00 1.00 1.00 2 E 購物時，我能聽懂簡單的資訊，例如價格。 (-4.06) .97 .99 .99 1.00 1.00 1.00 1.00 (A)3 I 我能聽懂談話內容中推測談話者的觀點或態度。 (-.45) .72 .75 .83 .88 .93 .97 .96 4 I 問路時，我能聽懂簡短清楚的說明，例如：如何從甲地到乙地，使用何種交通工具。(-1.97) .87 .90 .93 .95 .93 .96 .97 (A)5 H 我能聽懂母語人士之間具體、抽象主題的會話重點。(1.53) .40 .49 .55 .56 .60 .74 .70 6 I 我能聽懂在一般生活情境中，有關人物外貌以及連續動作的描述。(-1.69) .86 .87 .92 .91 .98 .94 .94 (A)7 E 我能大致聽懂母 .91 .97 .99 1.00 1.00 1.00 1.00

(32)

語人士間主題具體的日常會話 ( 速度較常速慢)，瞭解大意與重點。(-2.72) 8 E 我能聽懂別人簡短清楚的告訴我活動時間及地點。(-3.07) .95 .97 .98 1.00 1.00 1.00 1.00 (A)9 H 我能聽懂母語人士以常速進行內容較長的敘述、說明。(1.76) .25 .35 .42 .54 .63 .78 .84 10 I 我能聽懂簡短、清楚的談話重點，例如：廣播、電話留言。 (-1.53) .84 .89 .87 .91 .94 .95 .92 (A)11 H 我能聽懂時事、談話節目大部份的內容。(1.64) .39 .41 .49 .52 .56 .68 .74 (A)12 I 我能大致聽懂廣告和氣象預報的內容。(.01) .69 .71 .76 .79 .81 .86 .89 13 E 我能聽懂別人用簡單的字彙談論我個人和我的家庭，例如：就學、就業和家庭狀況。(-2.13) .90 .92 .93 .97 .95 .96 .94 14 E 我能大致聽懂簡單的日常會話。 (-4.04) .99 .99 .99 1.00 1.00 1.00 1.00 (A)15 I 我能大致聽懂簡單的操作說明或 .86 .88 .93 .95 .97 .98 .98

(33)

指示。(-1.38) (A)16 H 我能聽懂母語人士之間不同主題 (人文、社會、自然、科技)談話的大部份內容。 (2.72) .22 .27 .30 .35 .44 .53 .54 17 H 參加會議或研討會時，我能聽懂專業討論的內容。(4.84) .09 .20 .18 .18 .20 .24 .25 18 H 我能確切掌握長篇談話的內容主旨及重點細節。 (3.32) .15 .35 .39 .44 .64 .66 .72 19 H 我能聽懂內容較複雜的各類主題長篇談話。(4.45) .06 .06 .13 .18 .25 .32 .37 (刪)20 H 我能大致聽懂別人用清晰的英語談論我所熟悉的話題，例如學校、工作、休閒等。(-1.28) .96 .94 .96 .98 .99 .99 1.00 21 H 我能聽懂談話者的言外之意，並推測其態度和觀點。(3.03) .43 .47 .51 .60 .63 .74 .79 22 H 我能聽懂新聞評論節目的內容。 (4.14) .30 .26 .29 .31 .35 .37 .39

註：(A) 為定錨題、E 為初級、I 為中級、H 為中高級以上題目；題目後括弧內數值為 Rasch 模式分析的難度，單位 (logit)；表內數值為各能力值之答「是」百分比

(34)

附錄表二附錄表二附錄表二 附錄表二 閱讀自我能力評量表與閱讀自我能力評量表與閱讀自我能力評量表與閱讀自我能力評量表與考生能力值考生能力值考生能力值考生能力值分析分析分析分析題號所屬級別題目考生能力值 (Logit) 0 .5 1 1.5 2 2.5 3 (A)1 E 我能閱讀主旨明確的公告或通知。(-1.72) .93 1.0 0 1.0 0 1.0 0 1.0 0 1.0 0 1. 00 2 E 我能閱讀公園、車站等公共場所中簡單的告示或指示標語。(-3.13) .97 1.0 0 1.0 0 1.0 0 1.0 0 1.0 0 1. 00 (A)3 H 我能理解圖表資訊的說明與比較。(-1.20) .89 .93 .97 .95 .96 .97 1. 00 4 E 我能閱讀簡短的故事。(-2.50) .96 1.0 0 1.0 0 1.0 0 1.0 0 1.0 0 1. 00 (A)5 H 我能閱讀新聞、時事性的文章或報導，並理解作者的觀點。(1.69) .43 .61 .63 .68 .72 .81 .8 7 (A)6 I 我能閱讀一般信件中對個人觀感或意願的陳述。 (-.68) .84 .94 .92 .94 .96 .96 .9 9 (A)7 I 我能在告示、傳單中找到我所需要的資訊，例如課程內容、商家提供的服務等。(-.86) .87 .92 .91 .95 .91 .89 .9 5 (A)8 E 我能閱讀一般信件中對事件的描 .93 1.0 0 1.0 0 1.0 0 1.0 0 1.0 0 1. 00

(35)

述。(-1.85) 9 E 我能閱讀便條以及簡短的信件。 (-3.38) .98 1.0 0 1.0 0 1.0 0 1.0 0 1.0 0 1. 00 (A)10 I 我能理解新聞短文中的重點。(.07) .72 .83 .85 .90 .92 .94 .9 6 (A)11 H 我能大致掌握較長文章的組織脈絡，並找到相關的資訊。(1.55) .50 .63 .58 .72 .74 .67 .8 9 (A)12 H 我能理解職場書信中大部份的內容。(1.60) .48 .59 .63 .71 .71 .84 .8 8 (A)13 I 我能大致理解主題具體文章中的論點。(-.34) .83 .88 .87 .91 .92 .91 .9 5 14 E 我能在簡短的廣告中找到我所需要的重點資訊，例如時間、地點、價格等。(-3.13) .96 1.0 0 1.0 0 1.0 0 1.0 0 1.0 0 1. 00 15 E 我能閱讀內容淺顯、主題具體的短文。(-2.98) .99 1.0 0 1.0 0 1.0 0 1.0 0 1.0 0 1. 00 (A)16 H 我能閱讀探討特定議題的文章，並大致理解文中不同的立場與論點。(1.51) .48 .62 .65 .67 .85 .79 .9 1 17 H 我能理解各類主題的長篇文章，並整合文章的主旨與重點細節。 (3.37) .41 .38 .42 .58 .61 .70 .8 8 18 H 我能快速閱讀長 .18 .15 .19 .26 .36 .32 .6

(36)

篇文章，並掌握各個段落的重點。 (4.42) 2 19 H 我能理解文章中細微的轉折與作者語氣或立場的變化。(3.44) .42 .50 .48 .56 .58 .63 .6 5 20 H 我能理解內容較複雜的文章，並掌握其脈絡。(4.48) .26 .13 .16 .21 .28 .38 .6 4 (刪)21 H 我能於文章中快速找到我所需要的資訊，例如地名、人名、時間。 (-.35) .82 .89 .86 .86 .84 .82 .9 2

註：(A) 為定錨題、E 為初級、I 為中級、H 為中高級以上題目；題目後括弧內數值為 Rasch 模式分析的難度，單位 (logit)；表內數值為各能力值之答「是」

(37)

附錄附錄附錄附錄表表表表三三三三能作敘述能作敘述能作敘述能作敘述作答作答作答作答分析表分析表分析表分析表聽力閱讀題號同意百分比鑑別力同意百分比鑑別力 1 .98 .26** .94 .33** 2 .99 .20** .98 .21** 3 .83 .50** .92 .34** 4 .94 .32** .97 .29** 5 .54 .51** .55 .62** 6 .93 .41** .88 .42** 7 .97 .30** .89 .38** 8 .98 .23** .95 .34** 9 .50 .63** .99 .19** 10 .92 .42** .80 .54** 11 .52 .57** .57 .55** 12 .77 .42** .56 .51** 13 .95 .35** .84 .43** 14 .99 .20** .98 .21** 15 .92 .36** .99 .19** 16 .35 .55** .58 .62** 17 .10 .46** .27 .63** 18 .26 .62** .15 .54** 19 .12 .53** .26 .58** 20 .92 .39** .13 .55** 21 .30 .63** .85 .23** 22 .16 .54** N/A N/A 註：**p<.01

(38)

附錄附錄附錄附錄表表表表四四四四全民英檢全民英檢全民英檢全民英檢各級數各級數各級數各級數通過考生通過考生通過考生通過考生自自評自自評評評結果結果結果結果分析分析分析分析英語聽解能力英語閱讀能力題號初級中級中高級初級中級中高級 1 .98 .99 1.00 .93 .98 .98 2 1.00 1.00 -- .97 .99 -- 3 .77 .88 .98 .89 .96 .97 4 .91 .96 -- .95 .97 -- 5 .55 .60 .69 .41 .59 .75 6 .88 .96 -- .85 .91 .95 7 .97 .99 .97 .85 .91 .95 8 .98 .99 -- .95 .97 .99 9 .38 .50 .81 .99 .99 -- 10 .88 .94 -- .71 .81 .95 11 .47 .47 .69 .53 .63 .74 12 .76 .77 .86 .47 .55 .74 13 .90 .98 -- .83 .91 .91 14 .99 1.00 -- .97 .99 -- 15 .89 .94 .98 .99 .99 -- 16 .29 .34 .53 .49 .62 .79 17 -- -- .25 -- -- .68 18 -- -- .66 -- -- .38 19 -- -- .33 -- -- .62 20 -- -- 1.00 -- -- .38 21 -- -- .70 -- -- .86

22 -- -- .36 N/A N/A N/A

(39)

附錄表五附錄表五附錄表五 附錄表五 原始原始原始原始總總總總分與分與分與分與 logit 分數轉換表分數轉換表分數轉換表 分數轉換表原始總分聽力 (logit) 閱讀 (logit) 1 -5.17 -4.72 2 -4.28 -3.99 3 -3.73 -3.27 4 -3.18 -2.79 5 -2.74 -2.35 6 -2.33 -1.95 7 -1.94 -1.55 8 -1.55 -1.18 9 -1.15 -.78 10 -.74 -.41 11 -.29 .00 12 .19 .41 13 .71 .85 14 1.24 1.31 15 1.78 1.73 16 2.31 2.31 17 2.84 2.88 18 3.40 3.53 19 4.00 4.28 20 4.69 5.27 21 5.64

(40)

附錄附錄附錄附錄圖一圖一圖一圖一聽力自我評量表的聽力自我評量表的聽力自我評量表的聽力自我評量表的考生考生考生考生能力能力能力能力及試題及試題及試題及試題難度難度分難度難度分分分佈佈佈佈圖圖圖圖 logit 能力分布 | 難度分布 | XXXXXXX | | 5 | 17 XXXXXXX | | 19 | 4 XXXXXXXXXXXXXX | 22 | XXXXXXXXXXXXXXXX | | 18 XXXXXXXXXXXXXXXXXXXXX | 3 | 21 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX | 16 | X | XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX | 2 | XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX | 9 11 | 5 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX | 1 | XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX | X | XXXXXXXXXXXXXXXXXXXXXXXXXX | XXXXXXXXXXXXXXXXXX | 0 | 12 XXXXXXXXXXX | | 3 XXXXXXXXXX | -1 | XXX |

(41)

XX | 10 | 6 -2 X | 4 | 13 | | 7 | -3 | 1 8 | | | -4 | | 2 14 註：每個 X 代表 13.8 個考生

(42)

(43)

XX | 6 XX | 7 -1 X | X | 3 X | X | | 1 8 -2 | | | 4 | | -3 | 2 14 15 | | 9 | 註：每個 X 代表 19.6 個考生

(44)

The Development of the GEPT

Self-Assessment Statements

Abstract

The General English Proficiency Test (GEPT), a five-level criterion-referenced test, was developed to assess the general English proficiency of Taiwanese EFL learners. Since its first administration in 2000, the GEPT has won wide recognition, with four million Taiwanese having taken the test. This paper reports on an empirical study of the relationship between self-assessment and test performance. The self-assessment tool, developed in accordance with the test construct in the GEPT, consists of 22 listening and 21 reading can-do statements. Eight thousand and six Taiwanese EFL learners were invited to take a GEPT test and respond to the self-assessment statements. The data were analyzed by Rasch model and ordinal logistic regression. Results show that the self-assessment statements have achieved acceptable accuracy (0.68 for listening; 0.65 for reading) in estimating learners’ language levels. The paper concludes that the GEPT self-assessment statements can be considered a useful tool allowing learners to pre-estimate their ability before registering for a GEPT test and therefore recommends that the tool be utilized to enhance learners’ awareness of their learning and proficiency, and ultimately encourage autonomous learning.

Key Words: GEPT, self-assessment, ordinal logistic regression, Rasch model

「全民英檢」學習者自我評估量表發展

「

「

「

「全民英檢

全民英檢

全民英檢

全民英檢」

」

」

」學習者

學習者

學習者

學習者自我評估

自我評估

自我評估

自我評估量表發展

量表發展

量表發展

量表發展

吳若蕙

吳若蕙

吳若蕙

吳若蕙

李佳隆

李佳隆

李佳隆

李佳隆

壹

壹

壹

壹、

、

、

、 前言

前言

前言

前言

貳

貳

貳

貳、

、

、

、材料與

材料與

材料與

材料與方法

方法

方法

方法

全民

全民

全民

全民 英檢

英檢

英檢

英檢

全民英檢

全民英檢

全民英檢

全民英檢自我

自我

自我能力評

自我

能力評

能力評

能力評量

量

量

量

資料檢核

資料檢核

資料檢核

資料檢核

能作敘述作答

能作敘述作答

能作敘述作答

能作敘述作答分析

分析

、前言

全民英檢