• 沒有找到結果。

CEFR基礎級之華語文聽力與閱讀理解能力測驗研發與電腦化適性評量系統建置

N/A
N/A
Protected

Academic year: 2021

Share "CEFR基礎級之華語文聽力與閱讀理解能力測驗研發與電腦化適性評量系統建置"

Copied!
247
0
0

加載中.... (立即查看全文)

全文

(1)

國立臺中教育大學教育測驗統計研究所博士論文

指導教授:郭伯臣 博士

CEFR 基礎級之華語文聽力與閱讀理解能

力測驗研發與電腦化適性評量系統建置

研究生:王暄博 撰

(2)

謝 辭

歷經兩千多個日子,終於畢業了,一路走來雖辛苦,但每位教授的用心,令 我受益良多。最要感謝的是指導我近十年的郭伯臣教授,讓我從懵懵懂懂的小男 孩,變成現在這個樣子…這的確是非常難得地緣份,而我也會牢記您的叮嚀,繼 續勇敢地往正確的方向前進,謝謝您,郭老師♥♥♥ 接著,要感謝蔡雅薰教授,是另一種奇妙的緣份讓我能認是您,您的提攜與 照顧我真的非常感激,這也讓我義無反顧的踏入華語文的世界,就算這是一條充 滿荊棘的崎嶇道路,我也會勇敢走下去。此外,在論文撰寫期間,承蒙林振興老 師、孫劍秋老師、陳智賢老師、曾建銘老師、以及許天維老師的指正與建議,您 提出的精闢見解與寶貴意見,使論文更趨完善與嚴謹,在此一併致上最崇高的敬 意與謝意。 博士班生涯是一段相當漫長與艱辛的歲月,過程的煎熬與酸甜苦辣,恐非外 人所能體會。在沉重的課業壓力下,很幸運有龐大地研究室同伴相伴,謝謝你們, 很高興在最終的求學生涯裡有你們:正維、明宏、學華、省華、政軒、鈺卿、育 隆、智為、典佑、彥鈞、永財、珮璇、雅媛、宛婷、筱倩、婉星、曜瀚、少祖、 鈞翔、文俊、境蔚、任婕、佳樺、佳穎、秀聿、銘豪、姿樺、志勝、士勛、仁傑、 孟君、嘉謚、敏嫻、鎧誌、怡伶、淑瑜、辰育、偉民、韋任、玉如、芷寧…寫到 一半就有點後悔了,我想一定有遺漏的,請允許我把你們放在心裡,也謝謝你們 讓我有滿滿的故事可以回憶,最後祝福研究室的學弟妹,能順順利利!!對了, 差點漏了一些好朋友老師:慧珉學姊、淑娟老師、晉民老師…很幸運能遇見你們, 除了共同分享外,學習歷程中充滿樂趣和收穫,再次謝謝您們^^ 最後,謝謝我最重要的家人,以及昕瑋與泰淋♥♥♥♥♥ 王暄博 敬上 一百零二年一月

(3)
(4)

摘 要

全球化時代的潮流下,多元語言能力日益重要,世界各地興起一股華語文學 習熱潮。近年來,隨著華語文學習需求的日益升高,使得以「母語為非華語者」 的華語文能力測驗也逐漸受到各國矚目,包括中國的漢語水準考試、臺灣的華語 文能力測驗、美國學術評量測驗與跳級安置測驗發展的中文測驗。然而,目前大 多數的華語文能力測驗仍以傳統紙筆測驗的方式進行,雖已有許多相關研究藉由 電腦或多媒體之應用發展促進華語文學習之工具,但關於華語文能力電腦化適性 測驗建構之文獻卻是較缺乏的。因此,本研究藉由上述華語文能力測驗優勢與限 制之探究,發展適合國內使用之華語文能力電腦化適性測驗。研究目的包括:以 歐洲語言共同參考架構為測驗發展之準則、使用試題反應理論模式建立測驗之量 尺分數、建構電腦化適性測驗系統。 綜合上述,本研究以歐洲語言共同參考架構為基礎,研發基礎級華語文聽力 與閱讀理解能力測驗,並導入現代測驗理論與測驗等化之技術,建立一套具有信 度、效度的基礎級華語文聽力與閱讀理解能力測驗與電腦化適性評量系統。研究 樣本為菲律賓靈惠中文學院 5 至 10 年級的學生,施測時間為 2010 年 08 月 02 日 至 12 日。測驗資料是使用試題反應理論之三參數 Logistic 模式進行分析,並透 過測驗等化之技術,建立基礎級華語文聽力與閱讀理解能力測驗之量尺。此外, 研究者透過實徵資料模擬電腦適性測驗系統之流程,比較最大概似法、期望後驗 法、及最大後驗法等能力估計方法,以建立電腦化適性測驗系統。研究結果顯示 本研究所建立之華語文基礎級聽力與閱讀理解能力測驗,經由預試與試題修審之 程序,試題具有一定的品質。此外,在電腦化適性測驗方面,建議使用期望後驗 法。 關鍵字:華語文能力測驗、歐洲共同語文參考架構、電腦化適性測驗

(5)

Abstract

In the era of globalization, the trend towards learning Chinese as a foreign language (CFL) has become increasingly popular worldwide. The increasing demand in learning CFL has raised the profile of the Chinese proficiency test (CPT). There are four major CPT focuses on this including Hanyu Shuiping Kaoshi (HSK), Test of Chinese as a Foreign Language (TOCFL), Scholastic Assessment Test (SAT) Subject Test in Chinese with Listening, and Advance Placement (AP) Chinese Language and Culture exams. However, the majority of these tests are administered by the traditional paper and pencil tests format. Although there are many studies about developing the tools for learning CFL, the construction of computerized test for CFL is hard to find on the literatures. The aims of the present study are: adopting the Common European Framework of Reference (CEFR) for item development; providing a framework by using item response theory (IRT) as the scoring method; constructing computerized adaptive testing (CAT) system.

This study will analyze in depth the inadequacy of current CPT’s utilizing the common European framework of reference (CEFR) for language learning, teaching, and assessment to develop a set of reliability and validity standards for A level listening and reading CPT and CAT system. The data will be analyzed by applying IRT three-parameter logistic (3PL) model. One thousand five hundred and seventy-six participants recruited from Grace Christian Collage in Philippine were administered with Chinese listening and reading tests via CBT in September, 2010. In addition, the effectiveness of applying CAT among the three estimating methods, namely maximum likelihood estimation (MLE), expected a posteriori (EAP), and maximum a posteriori (MAP) will be investigated.

Keywords:Chinese Proficiency Test, Common European Framework of Reference, Computerized Adaptive Testing

(6)

目 錄

第一章 緒論 ··· 01 第一節 研究動機 ··· 01 第二節 研究目的 ··· 05 第三節 名詞界定 ··· 05 第四節 研究範圍與限制 ··· 07 第五節 論文架構 ··· 09 第二章 文獻探討 ··· 11 第一節 國際公認的語言評鑑標準 ··· 11 第二節 華語文能力測驗發展現況 ··· 19 第三節 標準化測驗之建置流程 ··· 27 第四節 試題反應理論之探討 ··· 32 第五節 測驗等化 ··· 35 第六節 電腦化評量系統 ··· 41 第三章 研究設計與實施 ··· 55 第一節 研究流程 ··· 55 第二節 基礎級華語文理解能力測驗之編制 ··· 56 第三節 華語文電腦化適性評量系統分析與設計 ··· 71 第四節 研究工具 ··· 78 第四章 結果與討論 ··· 80 第一節 施測結果描述 ··· 80 第二節 基礎級華語文能力表現之差異性分析 ··· 87 第三節 華語文電腦化適性評量系統 ··· 90 第四節 華語文電腦化適性評量系統評估方式之使用 ··· 96 第五章 結論與未來研究方向 ··· 98

(7)

第一節 結論 ··· 98 第二節 未來研究方向 ··· 100 參考文獻 ··· 103 中文部份 ··· 103 英文部份 ··· 106 附錄一 基礎級華語文理解能力指標與檢測屬性 ··· 113 附錄二 基礎級華語文理解能力測驗逐題通過率 ··· 115 附錄三 試題品質檢視··· 121 附錄四 測驗試題 ··· 129

(8)

表 次

表2-1 CEFR整體能力分級說明 ··· 13 表2-2 CLB分級能力架構 ··· 17 表2-3 新TOCFL及新HSK與CEFR分及對應表··· 18 表2-4 TOCFL聽力與閱讀測驗各等級適用對象 ··· 20 表2-5 TOCFL聽力與閱讀測驗各等級施測重點 ··· 21 表2-6 CCCC各等級適用對象··· 22 表2-7 新HSK能力說明··· 24 表2-8 大型測驗之抽樣設計··· 29 表2-9 大型測驗之資料收集設計··· 29 表2-10 大型測驗所使用之測量模式··· 30 表2-11 NEAT設計 ··· 36 表2-12 BIB設計 ··· 37 表2-13 PBIB設計 ··· 40 表3-1 聽力測驗能力指標的關聯性與檢核重點 ··· 57 表3-2 能力指標差異分析··· 58 表3-3 聽力理解試題範例(指標A1.2.1.2) ··· 59 表3-4 聽力理解試題範例(指標A2.2.1.3) ··· 59 表3-5 聽力理解試題範例(指標A2.2.1.4) ··· 60 表3-6 閱讀測驗能力指標的關聯性與檢核重點 ··· 60 表3-7 閱讀理解試題範例(指標A1.2.2.2) ··· 61 表3-8 閱讀理解試題範例(指標A2.2.2.2) ··· 61 表3-9 閱讀理解試題範例(指標A2.2.2.3) ··· 61 表3-10 測驗題型 ··· 62 表3-11 整體聽力與閱讀理解能力 ··· 63

(9)

表3-12 等化設計 ··· 68 表4-1 預試樣本描述··· 81 表4-2 施測樣本描述··· 81 表4-3 施測樣本性別分佈··· 82 表4-4 預試測驗信度描述··· 82 表4-5 正式測驗信度描述··· 82 表4-6 測量模式適配度檢定··· 83 表4-7 模式指標之效能分析··· 84 表4-8 測驗參數描述··· 85 表4-9 基礎級華語文能力測驗描述性統計 ··· 86 表4-10 聽力測驗不同能力向度之平均通過率 ··· 86 表4-11 閱讀測驗不同測驗題型之平均通過率 ··· 86 表4-12 不同背景變項華語學習者理解能力表現之t考驗摘要 ··· 88

(10)

圖 次

圖2-1 大型測驗之標準建置流程 ··· 28 圖2-2 聽力測驗介面 ··· 46 圖2-3 閱讀測驗介面 ··· 47 圖2-4 聽力對話測驗介面 ··· 48 圖2-5 聽力演講測驗介面 ··· 49 圖2-6 閱讀測驗工作列 ··· 51 圖2-7 Review的介面 ··· 51 圖2-8 閱讀測驗介面 ··· 52 圖3-1 研究流程 ··· 55 圖3-2 視聽理解能力試題 ··· 64 圖3-3 聽覺理解能力試題 ··· 64 圖3-4 視覺理解能力試題 ··· 65 圖3-5 詞彙語法試題 ··· 66 圖3-6 閱讀理解試題 ··· 66 圖3-7 試題發展流程 ··· 68 圖3-8 系統架構 ··· 72 圖3-9 CAT施測流程 ··· 76 圖3-10 華語文電腦化適性測驗模組架構 ··· 77 圖4-1 因素分析陡坡圖 ··· 84 圖4-2 電腦化適性測驗登入介面 ··· 91 圖4-3 背景資料填答介面 ··· 91 圖4-4 測驗類型與等級選擇介面 ··· 92 圖4-5 聽力測驗提示語說明介面 ··· 92 圖4-6 聽力測驗介面 ··· 93

(11)

圖4-7 閱讀測驗介面 ··· 93 圖4-8 管理介面 ··· 94 圖4-9 測驗成果查詢介面 ··· 95 圖4-10 學生聽力測驗作答介面 ··· 95 圖4-11 成績統計描述介面 ··· 96 圖4-12 不同能力估計方法之精確度··· 97 圖5-1 以CEFR為基礎之華語文能力測驗 ··· 101

(12)

第一章 緒論

本研究是以歐洲語言共同參考架構:學習、教學、評量(the common European framework of reference for languages: learning, teaching, assessment, CEFR)為基礎, 透過現代測驗理論(item response theory, IRT)之技術,建立一套具有信度、效 度的基礎級華語文聽力與閱讀理解能力測驗與電腦化適性評量系統。本論文共分 五章:第一章為緒論,第二章為文獻探討,第三章為研究設計與實施,第四章為 結果與討論,第五章為結論與建議。本章主要針對研究動機與目的、重要名詞界 定,研究範圍與限制、以及論文架構逐一進行闡述。

第一節 研究動機

近年由於全球化影響,各國逐漸重視多元語言能力,加上中國在全球經濟中 迅速崛起,以及華人經濟的活絡,造成世界對華語文學習的熱潮。這使得全球學 習華語的人口不再僅限於海外華人,學習華語文的年齡層也從成人往下延伸至兒 童,且華語使用之場域也從家庭生活延伸至社會文化,例如:各項專業場合所需 要的語言溝通,因此,可以說華語文是現今僅次於英語的強勢語言。「華語熱」 使得各國越來越重視華語文學習,包括美洲、歐洲、以及亞洲等國家和地區的政 府與相關組織先後推動華語文學習,例如:英國語言專門學校採納官方建議,將 華語列入教授課程(新華每日電訊,2007);自 2005 年起美國國家安全語言計 畫(the national security language initiative)將中文認定為攸關國家安全的戰略語 言,並規劃從幼稚園到大學與進入職場的全民外語學習計畫(籃玉如,2009;U.S. Department of State, 2006);2007 年美國參議員於「美中文化交流法案」建議美 國政府應於未來五年內出資 13 億美金,用於美國學校發展中文和中國文化教育 的課程(郭珠美,2009)。這足以證明華語學習在各國之間逐漸受到重視,以及 突顯華語學習市場的龐大需求。 許多國家為因應華語文學習熱潮,除了開始致力於華語文學習之專業化、國

(13)

際化之外,亦開始積極地培育優秀華語師資,並透過多元管道推展華語教學。隨 著華語文學習需求日益升高,使得以「母語為非華語者」的華語文能力測驗也逐 漸受到各國矚目,包括臺灣的華語文能力測驗(Test of Chinese as a Foreign Language, TOCFL) 與 兒 童 華 語 文 能 力 測 驗 ( Children’s Chinese Competency Certification, CCCC);中國大陸的漢語水平考試(Hanyu Shuiping Kaoshi, HSK) 與實用漢語水準認定考試(Test of Practical Chinese, C. Test);日本中國語交流 協會開發的中文溝通能力測驗(Test of Communicative Chinese, TECC);以及美 國大學理事會(College Board)舉辦的學術評量測驗(Scholastic Assessment Test, SAT)與跳級安置測驗(Advanced Placement Exams, AP Exams)也發展 SAT 中 文測驗(SAT subject test in Chinese with listening)與 AP 中文測驗(AP Chinese language and culture exams)等。這些測驗主要目的皆是為了檢定以華語為外語或 第二語言能力的學習者,具備何種程度的華語文能力,以進行申請工作、學校、 獎學金、或是免修相對應等級課程的華語能力之證明。然而,除了這些較具規模 的華語文能力測驗之外,國內外較缺乏可供學習者評量本身華語文能力之測驗平 台。因此,本研究比較這些華語文能力測驗之優勢與劣勢,並藉由標準化測驗發 展流程,建立一個能提供學習者準確、方便、多元、以及可相互流通的華語文能 力測驗與電腦化適性評量系統。以下針對現今華語文能力測驗幾個主要的差異性 與未來發展重點分別說明如下: 首先,目前各國發展的華語文能力測驗所依據的語言參考架構相當分歧,並 非採用一個國際認同的參考架構。由於不同參考架構對於語言能力之描述與能力 等級之劃分皆不盡相同,使得將造成學習者對於自身能力認定不易,以及不方便 在不同國家或地區銜接其華語文課程等缺點。例如:美國「世界日報」報導曾指 出美國眾多的中文考試,已經讓一些家長與學生產生困擾,不知在什麼情況下讓 孩子參加哪種考試(中國新聞網,2007)。因此,若能有一個國際認同的共同參 考架構作為語言學習、教學、評量準則,除了能確實提供學習者具體的能力描述, 讓學習者容易瞭解自身的華語能力之外,也方便學習者在不同國家或地區能銜接

(14)

華語文課程,以減輕學習者與教學機構對於學習者表現解釋之負擔。此外,這將 利於不同國家或地區能相互認證學習者的語言能力。因此,本研究以近年來普遍 受世界各國肯定、且獲得教育部認可於國內推廣的「歐洲共同語文參考架構 (CEFR)」作為測驗發展之依據。CEFR 已經是目前世界各國語言能力檢定常使 用的參考架構,例如:國際溝通英語測驗(Test of English for International Communication, TOEIC)、托福(Test of English as a Foreign Language, TOEFL)、 劍橋國際英語認證(Cambridge Main Suite)、劍橋職場外語檢測(Business Language Testing Service, BULATS) 、德 語檢 定 考試 (Test Deutsch als Fremdsprache, TestDaF)、日本語能力試驗(The Japanese Language Proficiency Test, JLPT)、 法語檢定考試(Diplôme D'Etudes en Langue Française, DELF)等(張莉萍,2007; 藍珮君,2007;Kecker & Eckes, 2007; Tannenbaum & Wylie, 2005)。是故,本研 究以 CEFR 為測驗研發之參考準則,除了順應世界潮流之外,CEFR 本身建構一 個詳盡、清楚與連貫的架構,能提供各等級語文學習者明確指引(陳浩然、謝妙 玲、周中天,2009)。

其次,華語文能力測驗之計分模式仍以古典測驗理論(classical test theory, CTT)為主要的理論依據,使用測驗的原始分數(raw score)定義學習者的華語 文能力等級。例如:HSK 與 C. Test 以原始分數轉換成匯出分數(量尺分數)作 為受試者的成績(中國漢語水平考試,2012;實用漢語水平認定考試,2012); SAT 中文測驗則呈現學習者的原始分數、複合總分(composite total score)、百 分位數(percentile)(NCACLS, 2012);TOCFL 寫作與口語測驗使用整體式評 分法(holistic scoring)作為通過分數(國家華語測驗推動工作委員會,2012a); CCCC 以答對 60%以上試題數為通過該等級之測驗(國家華語測驗推動工作委員 會,2012b)等。Wright(1999)指出原始分數將不能達到單向度、線性、以及客 觀性等有意義測量(meaningful measurement)的基本要求。且若使用測驗之原始 分數作為各等級的決斷分數(cut scores),當同等級不同測驗之難度有所不同時, 將會造成相同能力之受試者得到不同施測結果。也就是說,若以 CTT 為主要的

(15)

理論依據,將產生同等級不同測驗分數無法提供有意義比較之缺點。此外,Lord (1980)指出 IRT 模式改進 CTT 模式的諸多缺點,例如:單一測量標準誤、樣 本相依的參數估計、平行測驗的假設等。而且 IRT 模式需符合受試者能力估計值 不變性之性質,此一性質能使得施測不同測驗的受試者能力估計值可相互比較。 因此,若以 IRT 為主要的理論依據,透過測驗等化(test equating)之技術,使用 定錨不等組設計(non-equivalent groups with anchor test design, NEAT design)建 立華語文學習者分數量尺(scale score)。除了能使同等級不同測驗分數能進行比 較之外,且能將不同等級的分數量尺轉換到共同量尺上,以建立華語文能力測驗 題庫。

最後,由於電腦科技的發達,使得過去數十年間,許多測驗進行方式逐漸由 紙筆測驗轉變成電腦化測驗(computer based testing,CBT)。目前華語文能力測 驗主要仍以紙筆測驗的方式進行,卻也陸續將 CBT 列為重要發展項目,例如: AP 中文測驗施測方式已完全使用 CBT 進行、TOCFL 發展口語與寫作的電腦化 能力測驗(College Board, 2012a; 國家華語測驗推動工作委員會,2012a)。CBT 不僅是世界測驗發展的趨勢,相較於紙筆測驗也佔有相當程度的優勢,藉由多媒 體科技之運用,加入 3D 動畫影像、互動式實作試題或是在電腦中模擬真實世界 之情境,能研發更多元的測驗題型,將有助於提高測驗真實性與測驗之效度。CBT 已是目前華語文能力測驗發展的重點,且隨著測驗理論與電腦科技之演進,較複 雜 的 測 量 模 式 已 經 引 進 到 電 腦 化 測 驗 系 統 中 , 例 如 : 電 腦 化 適 性 測 驗 (computerized adaptive testing, CAT)與多向度電腦化適性測驗(multidimensional computerized adaptive testing, MCAT)等。其中,CAT 能依據學習者的學習狀態, 提供適合學習者能力的試題進行測驗,且藉由 CAT 施測程序將能有效地節省測 驗題數與縮短測驗時間。因此,CAT 是測驗理論與實務伴隨電腦科技發展所形成 之產物(何榮桂,2006)。

現今世界各國語文能力檢定皆紛紛發展電腦化測驗系統,例如:英國劍橋大 學英文考試院(Cambridge ESOL)為了進行英語能力檢定,發展 BULATS 作為

(16)

國際性英語能力檢定分級檢定測驗,並透過適性化的測驗方式評量受試者的英語 能力;主辦跨國性大型測驗的美國教育測驗服務社(Educational Testing Service, ETS)所承辦的 TOEFL 與 GRE(Graduate Record Examinations)等測驗,也已經 完成電腦化並陸續在全球進行施測。是故,本研究將藉由語言檢定電腦化測驗之 探究,發展一套具有信度、效度的華語文能力電腦化適性評量系統,以透過電腦 化適性評量系統之建立,能方便且迅速地收集學習者資料。最後,實際進行施測 與結果分析,以提供日後教學與研究上之參考依據。

第二節 研究目的

基於前述之研究背景,本研究將藉由探討現今華語文能力測驗之發展現況, 以建立華語文能力電腦化適性測驗系統。且為了完成此目的,本研究將以 CEFR 為基礎,使用標準化程序建立嚴謹之華語文能力標準化測驗,並實際進行電腦化 測驗,以實徵資料模擬電腦化適性測驗系統之流程,評估系統使用成效。然而, 由於本研究必須實地進行海外施測,因此,考量工作時程安排、學校電腦設備與 數量、海外中文學校配合度、以及海外華語文學習者中文程度等實際因素之限制。 本研究將致力於研發基礎級華語聽力與閱讀理解能力測驗,茲將本研究目的整理 如下: 一、以 CEFR 為基準,研發基礎級華語文聽力與閱讀理解能力測驗。 二、使用 IRT 之技術,建立基礎級華語文聽力與閱讀理解能力測驗量尺。 三、建立華語文能力電腦化適性評量系統,並以實徵資料模擬電腦化適性測驗系 統之流程,以評估系統使用成效。

第三節 名詞界定

壹、 歐洲共同語文參考架構

(17)

學習、教學、與評量所研發的理論架構與準則,提供語言學習綱要、語言溝通面 向、教材編制、語言評量的統一參考標準,是語言教學與評量的指導方針與行動 綱領,也是一套能於不同國家語言教育體系之間共同使用的語言能力衡量系統, 使得各語言間的相互認證有一致的標準。CEFR 詳盡地描述語言學習者所必須習 得的語文能力與發展的知識與技巧,以達到使用該語言來完成表情達意之目的, 並有效地應用語文。CEFR 藉著可以清楚描述目標、內容與方法的共同理論基礎, 提供描述語文應用能力的客觀標準,有利於共同認定學習者在不同環境中所獲得 的語文能力證書。 CEFR 主要目的是以學習者能夠達到與人溝通之任務,蔡雅薰(2009)將其 提出之四種溝通語言活動分別命名為:表達能力、理解能力、互動能力、轉述能 力等四種能力向度,並以此四種能力向度編制各等級之華語文能力指標。研究者 發展之基礎級華語文理解能力測驗是以此能力指標為基礎,進行試題研發。

貳、 華語文能力標準化測驗

標準化測驗是由測驗專家、學科專家、課程專家、教師等共同建構完成,目 的是為了使同年級或同等級的受試者表現能進行比較。編制一份標準化測驗之流 程相當嚴謹與複雜,包括測驗的指導語、測驗的評分標準、標準答案的建立、以 及施測的流程都須有客觀統一標準與固定的實施程序。因此,本研究參考國內外 大型測驗(large-scale assessments)之建置程序,以研發華語文能力標準化測驗, 例如:臺灣教育長期追蹤資料庫(Taiwan Education Panel Survey, TEPS)、臺灣 學生學習成就評量資料庫(Taiwan Assessment of Student Achievement, TASA)、 國家教育進展評量(The National Assessment of Educational Progress, NAEP)、國 際學生評量(The Programme for International Student Assessment, PISA)、以及國 際數理趨勢研究(The Trends in International Mathematics and Science Study, TIMSS)等(楊孟麗、譚康榮、黃敏雄,2003;曾建銘、陳清溪,2008;Allen, Donoghue, & Schoeps, 2001; Martin, Mullis, & Chrostowski, 2004; OECD, 2005)。此外,本研 究所說的標準化測驗之編制流程,亦包含資料收集完成後的處理程序,例如:參

(18)

數估計(parameter estimation)、題庫建置、測驗等化、模式與資料適合度檢定 (the assessment of model-data fit)、量尺化程序(scaling procedures)等。

參、 基礎級華語文聽力與閱讀理解能力測驗

華語文能力測驗是指針對「母語為非華語者」所舉辦之測驗,主要目的是為 了檢定以華語為外語或第二語言能力的受試者,具備何種程度的華語文能力,並 針對需要申請工作、學校、獎學金、或免修相對應等級課程的華語文學習者,提 供其華語能力之證明。本研究所研發之華語文能力測驗是以 CEFR 為基礎,其中, CEFR 依學習者語言程度分成基礎使用者(basic user)、獨立使用者(independent user) 、精 熟使 用者 (proficient user )等 三個 階段 ,各 階段 再細 分成 基礎級 (breakthrough)、初級(waystage)、中級(threshold)、中高級(vantage)、 高級(effective operational proficiency)、精通級(mastery)等六等級。此外,為 了便於進行評估,CEFR 將溝通語言活動分成:產出型活動與策略(productive activities and strategies)、接收型活動與策略(receptive activities and strategies)、 互動型活動與策略(interactive activities and strategies)、傳達型活動與策略 (mediating activities and strategies)等四類型。

本研究研發之華語文能力測驗是針對基礎級的華語文學習者,包含基礎級 (A1)與初級(A2),且聽力與閱讀測驗較適合發展接收型活動與策略的試題, 因此,本研究將所研發之測驗命名為基礎級華語文聽力與閱讀理解能力測驗。

第四節 研究範圍與限制

壹、 研究樣本方面

本研究考量到經費、人力與時間之限制,且研究樣本必須是「母語為非華語 者」,因此,研究樣本以菲律賓靈惠中文學院五年級至十年級的學生為主,共計 施測 1576 名受試者作為「基礎級華語文聽力與閱讀理解能力電腦化適性測驗」 資料庫之樣本,可能會對於施測結果描述與推論造成影響。此外,由於五年級某

(19)

部份學生之中文與電腦能力不足,因此,該年級研究樣本之選取是依據任課老師 專業建議為主,以班級為單位進行立意取樣。

貳、 研究工具方面

華語文能力電腦化適性測驗應包含聽力、閱讀、口說、寫作等能力測驗,其 中,聽力與閱讀屬於接收性技能(receptive skills),口說與寫作屬於產出性技能 (productive skills),對於學習者而言接收性技能相對於產出性技能容易。柯華 葳(2004)也指出國家華語測驗推動工作委員會考量評量「說、寫測驗」的複雜, 應先以「聽、讀測驗」研發為主軸。此一論點與研究者 2009 年實地進行預試之 結果相同,當時大部分學生皆沒有能力完成口說與寫作能力測驗,因此,研究者 僅能先進行聽力與閱讀測驗。此外,TOCFL 研究成果也顯示參與檢測之華語學 習者以基礎等級(相對於 CEFR 中的 A2 等級)最多。因此,本研究在進行預試 測驗時,僅先發展 A2 級之華語文能力測驗,以便於向下(A1 級)或向上(B1 級)發展不同等級之能力測驗。正式測驗則依據施測結果與實地詢問任課老師之 專業意見,決定研發基礎級(A1 與 A2 級)華語文聽力與閱讀能力電腦化適性測 驗,其它測驗類型與等級則有待後續研究進行研發。 此外,CEFR 將溝通語言活動分成產出型活動與策略、接收型活動與策略、 互動型活動與策略、傳達型活動與策略等四個類型。蔡雅薰(2009)將其分別命 名為:表達能力、理解能力、互動能力、轉述能力等四種溝通語言能力,然而, 基礎級之聽力與閱讀測驗較適合發展理解能力之試題。因此,本研究研發之測驗 是以 CEFR 中「接收型活動與策略」技能為主,也就是「理解能力」之測驗。

參、 研究應用方面

電腦化適性測驗系統之建置必須建構完整之測驗題庫,包含足夠的試題數與 品質優良之試題參數。本研究所建置之華語文聽力與閱讀理解能力電腦化適性測 驗,需要先建立測驗之量尺(測驗題庫之試題參數)。因此,必須先以電腦化測 驗(CBT)進行所有測驗試題之施測(實地測驗),以獲取精準之試題參數值。 最後為了評估電腦化適性測驗系統使用能力估計法之成效,研究者再以實徵資料

(20)

模擬電腦化適性測驗系統之流程,探討不同能力估計法之成效。

第五節 論文架構

為達研究目的,本篇論文的架構主要分成五個章節,其章節安排如下: 第一章:闡述本論文之研究動機、研究目的、名詞界定、研究範圍與限制。 第二章:針對研究相關背景知識進行探究,包括國際公認的語言評鑑標準、華語 文能力測驗發展現況、標準化測驗之建置流程、試題反應理論之探究、 測驗等化、電腦化評量系統。 第三章:詳述研究設計與實施,闡述本研究流程、基礎級華語文理解能力測驗之 編制、華語文電腦化適性評量系統分析與設計、研究工具。 第四章:結果與討論,包括施測結果描述、基礎級華語文能力表現之差異性分析、 華語文電腦化適性評量系統、華語文電腦化適性評量系統成效評估。 第五章:統整本篇論文之結論與建議,並描述未來華語文能力測驗研發過程中能 持續探究之相關議題。

(21)
(22)

第二章 文獻探討

本研究以 CEFR 為基礎,透過標準化測驗之建置流程,發展一套具信度、效 度的基礎級華語文聽力與閱讀理解能力電腦化適性測驗。在試題研發與系統建置 過程中,必須針對研究相關背景知識進行探究,因此,文獻探討的內容如下:第 一節為國際公認的語言評鑑標準,主要是探討國際著名的外語能力指標,各自發 展的核心理念與特色;第二節為華語文能力測驗發展現況,針對華語文能力測驗 之差異性與限制進行探究;第三節為標準化測驗之建置流程,參考國外大型測驗 之標準化建置程序,以發展基礎級華語文理解能力測驗;第四節為試題反應理論 之探討,透過測量模式與模式適合度指標之探討,以確認適合本測驗之測量模式; 第五節為測驗等化,主要介紹不同的等化設計與方法之優缺點,以評估適合本測 驗之等化設計與方法;第六節為電腦化評量系統,介紹電腦化測驗的優勢與限制, 並探討國內外電腦化測驗的實施概況與系統介面。

第一節 國際公認的語言評鑑標準

目前國際上公認的三種重要語文能力指標為:(一)歐洲議會的歐洲共同語 文參考架構(CEFR);(二)美國外語教師協會編定的外語能力指標(American Council on the Teaching of Foreign Language, ACTFL);(三)加拿大語言能力指 標(Canadian Language Benchmarks, CLB)。以下將針對上述三個語文能力指標 進行介紹:

壹、 歐洲共同語文參考架構

1991 年歐洲理事會(Council of Europe)建立一套共同的語言能力參考指標: 「歐洲共同語文參考架構:學習、教學、評估」,是歐洲理事會組織各成員國共 同制定的關於語言教學、學習、以及評估的整體指導方針與行動綱領(白樂桑、 張麗,2008),其提供一個共同的理論基礎,來闡述全歐洲語文的教學綱要、課 程指引、語文測驗以及教科書編撰(多媒體英語學會,2007)。CEFR 是依據 1991

(23)

年 11 月在瑞士召開各國政府研討會(international symposium)提出之建議,並 於 1993 年至 1996 年間,透過國際工作小組(international working party)與小型 研發單位(smaller authoring group)之發展,於 2001 年發行英文版與法文版 (Council of Europe, 2001)。 CEFR 主要目的在克服歐洲語文專業人士之間的溝通障礙,這些障礙原自歐 洲境內不同教育體系的差異性。藉由可以清楚描述目標、內容與方法的共同理論 基礎,提供描述語文應用能力的客觀標準,有利於共同認定學習者在不同環境中 所獲得的語文能力證書(多媒體英語學會,2007)。CEFR 對於學習外語能力的 分級描述相當廣泛與完整,依照學習者語言程度分成三階段與六等級。其中,各 等級分別命名為 A1、A2、B1、B2、C1、C2,並透過分級建立總體分級標準。

此外,CEFR 是以行動為導向的方法(action-oriented approach),視語言學 習者和使用者為主要的社群分子,並且能在某些狀況與特殊環境、或某些特定的 行為範疇之中,達成溝通任務(多媒體英語學會,2007;Council of Europe, 2001)。 CEFR 外語分級是以學習者的外語能力指標為準則,但並非針對單一外國語言而 進行分級,而是將外語泛稱為非第一母語的廣泛定義(多媒體英語學會,2007)。 透過這些發展性的成就水準或表現水準,可以用來了解學習者的學習成就趨勢。 然而,CEFR 主要特徵是以六級來涵蓋歐洲語言學習者的學習空間,整體能力說 明概述如表 2-1(張莉萍,2007)。 為了便於進行評估,CEFR 依據溝通能力進行語言學習之分級,將溝通語言 活動分成:產出型活動與策略、接收型活動與策略、互動型活動與策略、傳達型 活動與策略四個類型,並藉由溝通語言活動的表現形式(口語或書面)再加以次 分類,以針對語言能力等級進行全面性的描述。蔡雅薰(2009)以學習者能夠達 到與人溝通之任務,將溝通語言活動依據華語文能力指標訂定為表達能力、理解 能力、互動能力、轉述能力等四個能力向度,其分項能力指標如下: 1. 表達能力:口語表達能力、書面表達能力、表達策略 2. 理解能力:聽覺理解能力、視覺理解能力、視聽理解能力、理解策略

(24)

3. 互動能力:口語互動能力、寫作互動能力、互動策略 4. 轉述能力:口語轉述能力、書面轉述能力、轉述策略 表 2-1 CEFR 整體能力分級說明 程度 級數 說明 C C2 對所有聽到、讀到的信息,能輕鬆地做觀想式瞭解。能由不同的口 頭書面信息作摘要,再於同一簡報場合中重做論述及說明。甚至能 於更複雜的情況下,隨心所欲地自我表達且精準地區別出言外之意。 C1 能瞭解多智識領域且高難度的長篇文字,認識隱藏其中的深意。能 流利隨意地自我表達而不會太明顯地露出尋找措辭的樣子。針對社 交、學術及專業的目的,能彈性地、有效地運用言語工具。能清楚 的針對複雜的議題進行撰寫,結構完整的呈現出體裁及其關聯性。 B B2 針對具體及抽象主題的複雜文字,能瞭解其重點。主題涵蓋個人專 業領域的技術討論。能即時地以母語作互動,有一定的流暢度且不 會感到緊張。能針對相當多的主題撰寫出一份完整詳細的文章,並 可針對所提各議題重點做出優缺點說明。 B1 針對一般職場、學校、休閒等場合,常遇到的熟悉事物時,在收到 標準且清晰的信息後,能瞭解其重點。在目標語言地區旅遊時,能 應付大部分可能會出現的一般狀況。針對熟悉及私人感興趣之主題 能簡單地撰稿。能敘述經驗、事件、夢想、希望及志向,對看法及 計畫能簡短地解釋理由及做出說明。 A A2 能了解大部分切身相關領域的句子及常用辭,例如:非常基本之個 人及家族資訊、購物、當地地理環境,工作等。針對單純例行性任 務能夠做好溝通工作,此一任務要求簡單直接地對所熟悉例行性的 事務交換信息。能簡單地敘述出個人背景,週遭環境及切身需求事 務等狀況。 A1 能了解並使用熟悉的日常表達方式,及使用非常簡單之詞彙以求滿 足基礎需求。能介紹自己及他人並能針對個人背景資料,例如住在 哪裡、認識何人以及擁有什麼事物等問題作出問答。能在對方語速 緩慢、用詞清晰並提供協助的前提下作簡單的交流。 CEFR 於 2001 年開始被 41 個歐盟會員國採用,作為外語課程設計、教學方 法、教材規劃、師資培訓與評量工具的依據。在歐洲以外還有香港、日本、紐西 蘭、澳洲、智利、墨西哥、哥倫比亞、加拿大等多個國家採用 CEFR 作為語言測 驗的分級標準。

貳、 美國外語教師協會編定的外語能力指標

(25)

美國 21 世紀外語學習標準(standards for foreign language learning in the 21st century)提到美國外語教學最重要的教學準則 ACTFL,包含五個目標(簡稱 5C) 與三個溝通模式,其中,五個目標分別簡要說明如下(孟慶明,2007): 一、溝通(communication):能運用中文與人溝通、瞭解適合本身年齡的中國語 文教材、以及用中文表達自己的思想、感情和意見。 二、文化(cultures):能瞭解中國歷史文化淵源、地大物博、以及各地的風俗習 慣,並培養對中國文化產物的體認與欣賞。 三、連接(connections):能透過中文學習增廣見聞,達到觸類旁通與擴展新知 識。並加強對其他學科的學習,能對所學的中國語言文化知識舉一反三。 四、比較(comparisons):能將所學的中文跟自身的母語做比較,並能與同年齡 中國學童的生活習俗比較相異之處,以增進對多元文化的認識。 五、社區(communities):除了在學校學習時使用中文之外,能將中文的學習擴 展到家庭、華人社區與國際社區,並將中國語言文化融入日常生活,而成為 以學習中文為樂的終身學習者。 三個溝通模式簡要說明如下(蔡雅薰,2009): 一、語言溝通(interpersonal):語言溝通包括了聽、說、讀、寫四項語言技能, 學習者能用中文與人溝通,表達思想、感情與意見。 二、理解詮釋(interpretive):學習者能夠理解並且詮釋各種話題的書面或口頭 語言。 三、表達演示(presentational):學習者能夠對聽眾或讀者表達各種話題的信息、 概念或觀點。

ACTFL 頒布的能力標準指南(proficiency guidelines)依據學習者是否具有五 項語言交際能力,對於自己熟悉或不熟悉的事件是否能以說明(explanation)、 描述(description)、敘述(narration)、辯證(argument)、以及假設(hypothesis) 等方式來達成語言交際任務。此外,學習者的詞彙、語法使用的廣度與準確性, 成段表達的連貫性,甚至是否能自在、自信地運用該語言,都是評定外語能力級

(26)

別的依據(孟慶明,2007)。 ACTFL 的能力標準指南將學習者於聽力、口說、閱讀、寫作四項語言技能 細分成四等級,包含初級(novice)、中級(intermediate)、進階級(advanced)、 優級(superior)。其中,初級與中級再細分為低(low)、中(mid)、高(high) 三個層級,進階級再細分為進階(advanced)與進級(advanced plus)兩個層級。 此外,聽力與閱讀屬於接收性技能(receptive skills),最高等級為傑出等級,口 說與寫作屬於產出性技能(productive skills)最高等級為優級。ACTFL 每一個能 力等級有詳細之定義,以及描述各等級在語言能力上的差異。 ACTFL 不以單一語言為範圍,在分級指標制定上,對聽力與閱讀兩項接收 性技能的描述,以語言使用情境、功能、題材內容為主;在口說與寫作兩項產出 性技能上,除了聽力與閱讀內容外,亦將語言使用者的表達與對方接收之情況列 入指標(周中天、張莉萍,2007)。因此,TOCFL 原先的初、中、高等級劃分 參考 ACTFL 編訂的中文程度綱要(Chinese proficiency guidelines);美國大學理 事會增設的 AP 中文課程與測驗也是採用 ACTFL 制訂的學習目標外語能力指標 為基準。

參、 加拿大語言能力指標(CLB)

CLB 為評量新移民的第二語言能力標準,主要是以英文作為第二語言能力 (English as a second language, ESL)。根據加拿大語言基準,將學習者能力分為 初等(basic)、中等(intermediate)、進階(advanced)等級。其中,各等級再 細分為 4 層級,包含初始(initial)、進展(developing)、充足(adequate)、流 暢(fluent)。因此,共包含 12 個基準點(benchmarks),每一個基準點皆描述 ESL 學習者使用英語完成溝通任務的具體能力,敘述內容包含整體表現指標、表 現情境、能力成果與標準等三部分,分別說明如下(蔡雅薰,2009): 一、整體表現指標:對於各基準點提供聽力、口說、閱讀、寫作等 4 項語言技能 之一般語言能力簡短描述。 二、表現情境:給予溝通、場所、聽眾、主題、時間限制、任務期限、可用資源

(27)

等特定情境。 三、能力成果與標準:告訴學習者可以做到什麼,例如:溝通任務和文字,加上 學習者應該表現達到的基準成果。 CLB 的基準規範,除了列出每一基準點的整體表現(global performance descriptor)與表現條件(performance conditions)之外,並於聽力、口說、閱讀、 寫作四項技能表現上,分別詳細描述在該基準點上,使用者能力表現(what the person can do)、活動與文段示例(examples of tasks and texts)、表現指標 (performance indicators),如表 2-2 所示。加拿大各省的語言學習與評量編制皆 依據 CLB,以訂定更周詳閱讀、寫作的教學策略與評量機制,因此,於 2006 年 促進國際閱讀素養研究(Progress in International Reading Literacy Study, PIRLS) 的評量中,在 45 個參與評比的國家或地區,亞伯達省(Alberta)排名第 3 名, 卑詩省(British Columbia, B.C.)排名第 5 名,皆有不錯的表現。

(28)

表 2-2 CLB 分級能力架構 能力等級 聽 / 說 讀 寫 初等 能力 初始 在日常、輕鬆的環 境 中 , 就 社 會 互 動、說明、說服、 資訊等類型言談, 能夠說出或理解 就 社 會 互 動 的 文 字、說明、商業或 服務的文字、資訊 文字等,能理解簡 單的文段 就社會互動、紀錄 資訊、商業或服務 訊 息 、 呈 現 資 訊 等,能創作簡單的 文段 進展 尚可 流暢 中等 能力 初始 在適度需要專注的 環境中,就社會互 動、說明、說服、 資訊等類型言談, 能夠說出或理解 就 社 會 互 動 的 文 字、說明、商業或 服務的文字、資訊 文字等,能理解略 為複雜的文段 就社會互動、紀錄 資訊、商業或服務 訊息、呈現資訊或 觀念等,能創造適 度複雜的文段 進展 尚可 流暢 進階 能力 初始 在極度需要專注的 環境中,就社會互 動、說明、說服、 資訊等類型言談, 能夠說出或理解 就 社 會 互 動 的 文 字、說明、商業或 服務的文字、資訊 文字等,能理解複 雜及非常複雜的文 段 就社會互動、紀錄 資訊、商業或服務 訊息、呈現資訊或 觀念等,能創造複 雜及非常複雜的文 段 進展 尚可 流暢 資料來源:華語文教材分級研制原理之建構,50 頁,蔡雅薰,2009,正中。

肆、 小結

世界各地對於外語能力的分級標準之目的性不同,語言學習與評量架構發展 的核心理念亦有其重點特色,目前尚未能達成全面整合的統一標準模式。然而, 隨著 CEFR 在歐洲各國語言教育領域的不斷推廣與應用,逐漸影響歐洲以外各國 的語言教學與學習。近年來,臺灣也採用 CEFR 為語言學習與評量之參考架構, 例如:教育部於 2005 年 6 月 28 日(台社(一)字第 0940075287C 號函)函示, 各機關學校在推動英語能力檢定時,除了其他法令另有規定之外,應採用 CEFR 為推動英語語言測驗之重要政策;並於 2006 年與 2007 年兩次邀請法國教育部華 語總督學白樂桑博士進行 CEFR 相關議題之專題演講。此外,近年來,許多外語 能力測驗陸續參考 CEFR 之能力等級架構進行修訂。例如:TOCFL 於 2011 年起

(29)

規劃之新版華語文能力測驗,已將測驗規劃為四個等級(基礎級、進階級、高階 級、流利級),分別對應於 CEFR 的 A2、B1、B2 及 C1 級。並於 2013 年正式推 出三等六級之新版華語文聽力與閱讀能力測驗(分別為入門級、基礎級、進階級、 高階級、流利級、精通級,共六級),詳見表 2-3(國家華語測驗推動工作委員 會,2012a);新 HSK 為成為國際漢語能力標準化測驗,也將能力等級劃分成六 級,並分別對應於 CEFR 六級的架構中詳見表 2-3(中國漢語水平考試,2012)。 此外,英語能力檢定的雅思(The International English Language Testing System, IELTS)測驗成績 6.5 級分對應到 C1 等級(Taylor, 2004);TOEFL 紙筆測驗成 績 560 分對應到 C1 等級(Tannenbaum & Wylie, 2005)。

表 2-3 新 TOCFL 及新 HSK 與 CEFR 分及對應表 新 TOCFL 新 HSK CEFR 入門級 HSK(一級) A1 基礎級 HSK(二級) A2 進階級 HSK(三級) B1 高階級 HSK(四級) B2 流利級 HSK(五級) C1 精通級 HSK(六級) C2 許多研究認為 CEFR 分級之標準最受推崇之處在於證明對教學與課程皆帶來 潛在正面之影響,以及對於評量標準具有正面功能性之導向,所強調的是學習者 能做什麼,而不是無法做什麼。同時還能應用於不同的語言學習需求,例如:為 了工作、讀書、社會活動或旅遊而學習。在 APEC 經濟體的調查中,CEFR 也被 評為最佳的模範或參照(余慕薌,2008)。CEFR 提供語言能力具體描述與清晰 易懂的能力架構,使其除了對於歐洲的語言教學、學習與評量產生重大之影響, 歐洲以外的國家也逐漸採用 CEFR 作為語言能力描述的參考架構,目前已翻譯成 31 種語言(藍珮君,2007;Council of Europe, 2001),這些訊息皆顯示 CEFR 對 於世界語言測驗有極大的影響力。因此,本研究將以 CEFR 為基礎發展基礎級華 語文聽力與閱讀理解能力電腦化適性測驗。

(30)

第二節 華語文能力測驗發展現況

目前國際上幾個主要的華語文能力測驗包括:(一)臺灣的華語文能力測驗; (二)中國大陸的華語文能力測驗(HSK 與 C. Test);(三)美國大學理事會 舉辦的華語文能力測驗(SAT 與 AP 中文測驗)。以下將介紹上述 3 個國家發展 的華語文能力測驗:

壹、 臺灣的華語文能力測驗

TOCFL 是由國家華語測驗推動工作委員會所舉辦的測驗,自 2003 年 12 月 起於國內舉辦第一次測驗以來,至今已超過五千人應試,考生國籍遍布世界六十 多國家,並於 2006 年起正式跨入國際,目前已於日本、韓國、泰國、越南、美 國、英國、法國等海外各國舉行測驗。 TOCFL 自 2003 年 12 月起舉辦初等(basic)、中等(intermediate)、高等 (advanced)三級測驗,並於 2007 年 11 月舉辦基礎(for beginners)測驗,考題 內容主要是與生活相關之情境,試題以活潑多元的方式呈現,同時兼具實用性及 趣味,能力分級是依據華語學習者的「學習時數」和具備的「詞彙量」進行劃分。 自 2011 年起華測會在臺灣正式推出「新版華語文能力測驗」,新版測驗有四個 等級:基礎級、進階級(舊版初等)、高階級(舊版中等)、流利級(舊版高等), 分別對應 CEFR 之 A2、B1、B2 及 C1。除基礎級外,其它三級測驗變更部分題 型,題數則從原 120 題減為 100 題,測驗時間為 110 分鐘。基礎級測驗時間為 80 分鐘,測驗題目共 80 題。四個等級的題型分為聽力及閱讀兩大部份。測驗題目 皆為單選題,每題一分;答錯不倒扣(國家華語測驗推動工作委員會,2012)。 近年來,TOCFL 為使測驗能夠與國際語言標準接軌,提供學習者能夠衡量 其語言能力的國際評量工具,華測會於 2008 年積極著手研擬「新版華語文能力 測驗」,並將於 2013 年正式推出。其中,測驗類型包括:聽力測驗、閱讀測驗、 口說測驗、寫作測驗、以及兒童測驗,分別說明如下(國家華語測驗推動工作委 員會,2012): 一、 聽力與閱讀測驗

(31)

新版華語文聽力與閱讀能力測驗之測驗架構將語言能力分成三等六級,三等 分別為入門基礎級、進階高階級及流利精通級,而每一等又可再依據測驗成績細 分為兩級,分別為入門級、基礎級、進階級、高階級、流利級、精通級,共六級。 三等聽力測驗題數皆為 50 題,且皆為選擇題(multiple choice),測驗時間約為 60 分鐘。各級適用對象整理成表 2-4,施測重點(測驗題型與內容)整理成表 2-5。 表 2-4 TOCFL 聽力與閱讀測驗各等級適用對象 測驗等級 適用對象 入門基礎級 1. 母語非華語之初學者 2. 在臺灣學習華語的時數達 120-360 小時,或是在其他國家、地 區學習 240-720 小時 3. 具備基本語法及 500-1000 個基礎詞彙量 進階高階級 1. 母語非華語之人士 2. 在臺灣學習華語的時數達 360-960 小時,或是在其他國家、地 區學習 720-1920 小時 3. 具備 2500-5000 個詞彙量 流利精通級 1. 母語非華語之人士 2. 在臺灣學習華語的時數達 960 小時以上,或是在其他國家、地 區學習 1920 小時以上 3. 具備 8000 個詞彙量

(32)

表 2-5 TOCFL 聽力與閱讀測驗各等級施測重點 測驗等級 聽力題型 閱讀題型 內容 入門基礎級 看圖回答 單句理解 著重在日常生活的 一般簡易溝通能力 問答理解 看圖釋義 對話理解 選詞填空 完成段落 進階高階級 對話 選詞填空 著重在語言段落的 理解分析能力 段落 閱讀理解 流利精通級 對話 選詞填空 著重在語言使用的 廣度與精熟度 段落 閱讀理解 二、 口語與寫作測驗 TOCFL 口語與寫作測驗是以「溝通任務」為導向,考題內容主要是貼近於 真實情境中需要達成的各種溝通任務,評量則注重於考察受試者能否在特定語境 之下,藉由口語或書面表達,有效地傳遞訊息。測驗方式使用電腦化測驗,採整 體式評分,評分重點包含內容組織、表達能力、語言運用。計分方式採級分制, 分為 0-5 級分。在評量方面,口語測驗著重於考察應試者能否在特定語境下,藉 由口說有效地傳遞訊息、完成溝通任務;寫作測驗則以 3 分為通過門檻,主要評 量項目包括:情境任務的符合度與充實度、結構完整性與句法正確度、以及詞語 適切度與豐富性。此外,次要評量項目則是字數、錯別字和標點符號的使用。 口語測驗之測驗題型有兩部分,其中,入門基礎級第一部分為熱身題(2 題); 第二部分包括回答問題、經驗描述、影片描述三大題型(7 題)。進階高階級第一 部分為熱身題(2 題);第二部分包括經驗描述、圖片描述及陳述意見三大題型(6 題)。流利精通級試題仍在研發中。熱身題不計分,其餘題型皆採用 0-5 級分之計 分方式。 寫作測驗之測驗題型有兩部分,其中,基礎級第一部分為應用文(便條、電 子郵件、邀請函、感謝信、道歉信、卡片等);第二部分為記敘文(看圖作文)。 進階級第一部分為應用文(私人書信);第二部分為記敘文(真實事件或虛構故 事)。高階級第一部分為應用文(申訴信、推薦信、建議信等);第二部分為論說

(33)

文。

三、 兒童華語文能力測驗(CCCC)

SC-TOCFL 有鑑於世界各地華語學習者的年齡層逐漸下降,因應各國中小學 陸續增設華語課程之趨勢,研發一套適合七至十二歲母語非華語兒童的華語能力 檢定。CCCC 分為萌芽級(sprouting)、成長級(seedling)、茁壯級(blossoming) 三個等級,考題內容涵蓋所有與兒童生活經驗相關之主題,測驗題型為選擇題與 是非題,測驗內容包含聽力理解與閱讀理解。其中,萌芽級測驗題數為 40 題, 測驗時間為 40 分鐘;成長級測驗題數為 50 題,測驗時間為 50 分鐘;茁壯級測 驗題數為 60 題,測驗時間為 60 分鐘,各等級測驗以答對 60%以上試題數者可獲 得證書,測驗方式為紙筆測驗(國家華語測驗推動工作委員會,2012b)。各等級 適用對象整理如表 2-6: 表 2-6 CCCC 各等級適用對象 測驗等級 適用對象 萌芽級 150 個學習時數;具備 400 個詞彙量 成長級 300 個學習時數;具備 700 個詞彙量 茁壯級 450 個學習時數;具備 1100 個詞彙量

貳、 中國大陸的華語文能力測驗

一、 中國漢語水平考試(HSK) HSK 為測試母語非漢語者(包括外國人、華僑和中國少數民族考生)的漢語 水準而設立的國家級標準化考試,自 1984 年由北京語言學院(現北京語言大學) 開始研發,截至 2005 年底,參加考生累計達 100 萬人次。HSK 主要目的如下(中 國漢語水平考試,2012): 1. 作為達到進入中國高等院校入系學習專業或報考研究生所要求的實際漢語水 準的證明。 2. 作為漢語水準達到某種等級或免修相應級別漢語課程的證明。 3. 作為聘用機構錄用人員時評價其漢語水準的依據。

(34)

HSK 舉辦的測驗包括 HSK 基礎、HSK 初等、HSK 中等、HSK 高等,且依 據受試者表現分成 11 級,分別為基礎水平 1-3 級、初等水平 3-5 級、中等水平 6-8 級、高等水平 9-11 級。其中,HSK 基礎測驗內容包含聽力理解、語法結構、閱 讀理解,測驗題數為 140 題,測驗時間為 135 分鐘;HSK 初中等測驗內容包含聽 力理解、語法結構、閱讀理解、綜合填空,測驗題數為 170 題,測驗時間為 145 分鐘;HSK 高等測驗題型包含筆試(測驗內容包含聽力理解、閱讀理解、綜合表 達)、作文與口語考試,筆試測驗題數為 120 題,測驗時間為 110 分鐘、作文考 試為完成 400-600 字的作文,測驗時間為 30 分鐘、口語考試進行朗讀與口語回答 測驗,測驗時間為 20 分鐘(中國漢語水平考試,2012)。 HSK 依據原本考試的基礎,借鑒近年來國際語言測試研究最新成果,推出新 漢語水準考試(HSK)。新 HSK 重點在考查漢語非第一語言的學習者在生活、學 習與工作中運用漢語進行交際的能力。考試依據 CEFR 之框架,分成六級(HSK 一級至六級),其中,各級學習者能力表現與詞彙量整理如表 2-7(中國漢語水平 考試,2012)。 新 HSK 主要的調整為(中國漢語水平考試,2012): 1. 著重綜合語言能力和交際能力 2. 改善 HSK 等級劃分過細的狀況,將原本 11 級調整為初級、中級和高級,而 各等級再細分為合格和優秀 3. 為了實用和交際性的原則,各等級測驗增加口語和寫作的電腦化測驗

(35)

表 2-7 新 HSK 能力說明 等級 詞彙量 能力表現 HSK(一級) 150 能理解並使用一些非常簡單的漢語詞語和句子,滿足 具體的交際需求,具備進一步學習漢語的能力。 HSK(二級) 300 能用漢語就熟悉的日常話題進行簡單而直接的交流, 達到初級漢語優等水準。 HSK(三級) 600 能用漢語完成生活、學習、工作等方面的基本交際任 務,在中國旅遊時,可應對遇到的大部分交際任務。 HSK(四級) 1200 能用漢語就較廣泛領域的話題進行談論,比較流利地 與漢語為母語者進行交流。 HSK(五級) 2500 能閱讀漢語報刊雜誌,欣賞漢語影視節目,用漢語進 行較為完整的演講。 HSK(六級) 5000 以上 能輕鬆地理解聽到或讀到的漢語資訊,以口頭或書面 的形式用漢語流利地表達自己的見解。 二、 實用漢語水準認定考試(C. Test) 北京語言大學中國漢語水平考試於 2006 年 7 月發展 C. Test,用來測試母語 非漢語的外籍人士在國際環境下社會生活以及日常工作中實際運用漢語的能力, 主要目的是考查受試者在商務、貿易、文化、教育等國際交流環境中使用漢語的 熟練程度,對受試者的漢語實際應用能力給予權威的認定,並可用於人員招聘、 選拔、晉升等參考依據。 C. Test 分為 2 等級:初級(E-F)與中高級(A-D),初級測驗包含「聽力理 解」與「文法和閱讀」等 2 類型;中高級測驗包含「聽力理解」與「綜合運用」 等 2 類型,測驗方式為紙筆測驗。然而,C. Test 亦發展面試型口語考試,依據受 試者能力分成初級(E-F)、中級(C-D)、高級(A-B)、專業級等 4 級。測驗時 間約 10 分鐘,若遇到專業級的受試者,則加考 5 分鐘(實用漢語水平認定考試, 2012)。 此外,HSK 與 C. Test 測驗的報導分數是透過原始分數轉換成標準分數(Z 分數)為基礎,再進行 Z 分數的線性轉換而成匯出分數,以匯出分數作為學習者 是否達到各等級表現水準的對照。每一級設有合格分數,通過者發給證書,且各 等級獲得證書的條件皆有清楚之規範(中國漢語水平考試,2012;實用漢語水平

(36)

認定考試,2012)。

參、 美國大學理事會舉辦的華語文能力測驗

目前美國大學理事會舉辦的中文測驗包括 SAT II 與 AP 中文測驗,說明如 下: 一、 SAT II 中文測驗 SAT II 中文測驗為美國高中生舉辦的全國性專科標準測試,測驗成績為美國 大學錄取新生的重要依據。由於在美國的教育體系中,中文課程是一種外語課程, 注重的是學生對生活語言的實際應用能力,因此,課程設計是以生活實用語言與 文字的運用為導向。測驗試題主要是依據教學目標設計,以實用語言為主,考試 內容與日常生活(食、衣、住、行、娛樂)息息相關。 SAT II 中文測驗是以日常實用語言為範圍,測驗題型為選擇題,測驗內容為 聽力、語用(usage)、以及閱讀。測驗題數為 85 題,試題的難易比照美國高中二 至四年級的中國語文教學程度。其中,測驗時間為 60 分鐘,測驗方式為紙筆測 驗(College Board, 2009a)。SAT II 中文測驗屬於成就測驗(achievement test),受 試者成績是以百分位(percentile)顯示,測驗成績使用大學理事會的公式計算, 依據聽力、語法、閱讀各部份成績經過加權計算而得。因此,測驗的分數報告呈 現學習者的原始分數、複合總分(composite total score)、以及百分位數(percentile)。 其中,原始分數是以答對 1 題獲得 1 分計算,答錯則有倒扣;複合總分是透過各 單項分數乘上加權值的加總,加權值的計算是依照各類型試題作答時間的比例, 測驗總分在 200-800 分之間(NCACLS, 2012)。

(37)

二、 AP 中文測驗 AP測驗是大學學科先修課程的一種檢定考試,自2003年美國大學理事會根據 ACTFL制定的國家外語教學與考試標準,增設AP中文課程與測驗。並且於2007 年成為美國大學理事會六種AP外語考試之ㄧ,其他的為法文、徳文、意大利文、 日文、西班牙文。AP中文測驗為美國公立高中中文大學學分先修課,參與測驗成 績合格者,可以獲得大學四學期的學分,即能選讀大學第五學期的中文課程,或 選修中文高級課程。 AP中文測驗屬於能力測驗(proficiency test),主要強調語言在實際生活中的 實際應用,試題研發是針對人際關係(interpersonal)能力、理解詮釋(interpretive) 能力、表達演示(presentation)能力,測驗題型分為選擇題試題(包含聽力與閱 讀)與開放式(free response)試題(寫作與口說),全程採用電腦化測驗,測驗 時間約為180分鐘(College Board, 2009b)。其中,測驗時藉由螢幕顯示試題,聽 力測驗是由受試者配戴耳機進行施測;寫作測驗是由電腦打字進行測驗,因此, 受試者必須學會中文輸入法才能夠進行寫作測驗。測驗進行中受試者可以在紙上 紀錄訊息,但考試完畢必須收回紀錄之訊息,且紀錄內容不列入計分。此外,螢 幕所顯示之試題具有繁體、簡體,受試者可以依照需求轉換。且中文輸入法有拼 音與注音符號兩種輸入方式可選擇。 大學理事會在訂定測驗常模時,會先將華裔學生的測驗成績排除,以英文為 母語的學生成績為基準。而測驗成績分為五等級,考生成績由原始成績轉換為五 等級分,最低1分,最高5分。

肆、 小結

根據上述華語文能力測驗之探究,顯示雖目前華語文能力測驗對於受試者能 力等級並沒有一個統一的基準,也未使用一個相同的參考架構作為評量基準,然 而,近年來,陸續有許多測驗重新採用 CEFR 為其測驗發展之參考架構,例如: 新版的 TOCFL、新 HSK。更能突顯 CEFR 逐漸被接受,且更具流通性。此外, 華語文能力測驗主要仍以紙筆測驗為主,但也陸續將 CBT 作為未來發展的重要

(38)

項目,這皆顯示未來華語文能力測驗邁向電腦化測驗或是電腦化適性測驗,是必 然的方向。因此,測量模式也將會逐漸由原始成績轉變成以 IRT 模式為基礎,例 如:新版的 TOCFL 在聽力與閱讀測驗之分數等級,將以受試者的量尺分數呈現。 此外,除了上述幾個主要的華語文能力測驗之外,仍有幾個具規模的華語測 驗,包括:

1. 中小學生漢語考試(Young Learner Chinese Test, YCT) 2. 日本的中國語檢定試驗與中文溝通能力測驗(TECC) 3. IB(International Baccalaureate)中文課程

4. IGCSE(International General Certificate of Secondary Education)中文課程 但由於其測驗類型與目的和本研究研發之華語文能力測驗較不相同,因此, 在此章節中便不進行撰述。

第三節 標準化測驗之建置流程

標準化測驗是由測驗專家、學科專家、課程專家、教師等共同建構完成,包 括測驗編制、施測流程、測量模式、等化設計與方法、量尺化程序、以及建置題 庫等都必須有客觀統一標準與固定的實施程序。因此,本研究以 NAEP、TIMSS、 PISA 建置流程為依據,探討測驗實施過程中幾個重要的技術層面,將標準建置 流程整理如圖 2-1 所示,分別說明如下(Allen, Donoghue, & Schoeps, 2001; Martin, Mullis, & Chrostowski, 2004; OECD, 2005)。

(39)

圖 2-1 大型測驗之標準建置流程

壹、 確認測驗目的、發展試題與背景問卷

必須先確認測驗目標,才能進行施測學科試題之研發,例如:NAEP 是美國 評量學生成就之代表,自 1969 年便開始定期地對 4 年級、8 年級及 12 年級學生 進行閱讀、數學、科學等科目之評量;TIMSS 主要目的為進行學生數學與科學教 育成就趨勢調查研究;PISA 由數學、科學及閱讀三個領域中選定一個主要領域 進行評量(PISA 2000 為閱讀,PISA 2003 為數學,PISA 2006 為科學)。

確認測驗目的與研究對象之後,才能進行試題規劃,例如:TIMSS 2003 針 對四年級學生研發 313 題試題(161 題數學試題與 152 題科學試題);八年級學生 研發 383 題試題(194 題數學試題與 189 題科學試題)。此外,針對參與施測之相 關人員研發問卷,以進行受試者學習之評估,其問卷類型包括:課程問卷、學校 問卷、教師問卷、學生問卷等。 確認測驗目的、發展試題與背景問卷 抽樣設計與資料收集 測量模式與參數估計 資料分析與量尺化程序 成就表現描述

(40)

貳、 抽樣設計與資料收集設計

NAEP、TIMSS、PISA 皆是透過多階段的抽樣方法抽取受試樣本,主要分成 兩個階段:受試學校與受試學生之選取,如表 2-8 所示。然而,NAEP、TIMSS、 PISA 使用之資料收集設計並不相同,主要仍以平衡不完全區塊設計(balanced incomplete block design, BIB design)與部分平衡不完全區塊設計(partially BIB design, PBIB design)或其變化類型為主,如表 2-9 所示(Allen, Donoghue, & Schoeps, 2001; Martin, Mullis, & Chrostowski, 2004; OECD, 2005; OECD, 2009)。 表 2-8 大型測驗之抽樣設計

NAEP TIMSS PISA

多階段分層抽樣設計,主 要分為四個階段:第一階 段抽樣單位是郡、第二階 段抽樣單位是學校、第三 階段抽樣為學校考科類型 與樣本類型的分配、第四 階段為學生選取與考科類 型的分配。 多階段分層之集群抽樣設 計 ( multistage stratified cluster design):第一階段 進 行 學 校 樣 本 的 分 層 抽 樣、第二階段則根據抽樣 學 校 進 行 施 測 班 級 的 抽 樣。 二階段分層抽樣的抽樣設 計:第一階段完成學校層 面的抽樣;第二階段為完 全隨機抽樣。 表 2-9 大型測驗之資料收集設計

NAEP TIMSS PISA

1996 與 1998 年技術報告 指出,各科目使用的資料 收集設計為:數學、科學、 公民評量使用 BIB 設計; 閱讀、寫作評量使用 PBIB 設計。 每個題本由四個試題區塊 組合而成(每個題本均包 含數學與科學各兩個試題 區塊),而為了連結不同題 本,每個試題區塊在題本 中出現 2 次。 PISA2006 年使用每個題 本包含 4 個試題區塊,每 個試題區塊在題本中出現 次數 4 次,成對試題區塊 在各題本中出現次數 1 次 之 BIB 設計

(41)

參、 測量模式與參數估計

表 2-10 為 NAEP、TIMSS、PISA 於不同測驗題型所使用的測量模式,由表 2-9 顯示各測驗所使用的測量模式不盡相同。例如:NAEP 與 TIMSS 針對二元計 分試題(dichotomously scored items)使用二參數對數模式(two-parameter logistic model, 2PL)與三參數對數模式(three-parameter logistic model, 3PL)、PISA 使用 單參數對數模式(one-parameter logistic model, 1PL),例如:選擇題、填 充 題 等 試 題;NAEP 與 TIMSS 針對多點計分試題(polytomously scored items)使用一般 化部分給分模式(generalized partial credit model, GPCM)、PISA 使用部份計分模 式(partial credit model, PCM),例如:問答題、寫作題等開放性試題。此外,PISA 針對多向度測驗則使用多向度隨機係數多項洛基模式(multidimensional random coefficients multinomial logit model, MRCMLM)進行分 析 。

表 2-10 大型測驗所使用之測量模式

題型 NAEP TIMSS PISA

選擇題 3PL(Birnbaum, 1968; Lord, 1980) 1PL(Rasch, 1960) 填充題 2PL(Birnbaum, 1968) PCM(Masters, 1982) 開放性試題 GPCM(Muraki, 1992)

此外,在測驗軟體使用方面,NAEP 使用結合 BILOG-MG 軟體(Zimowski, Muraki, Mislevy, & Bock, 2003)與 PARSCALE 軟體(Muraki & Bock, 1991)的 NAEP BILOG/PARSCALE 軟體;TIMSS 分別使用 BILOG-MG 軟體(Zimowski, Muraki, Mislevy, & Bock, 2003)與 PARSCALE 軟體(Muraki & Bock, 1991);PISA 使用 ConQuest 軟體(Wu, Adams, & Wilson, 1998)。

(42)

肆、 資料分析與量尺化程序

1. 測驗資料分析

試題的信度分析、試題特性分析、差別試題功能(differential item functioning, DIF)分析、維度分析(dimensionality analysis)等。此外,PISA 提出異常值與 品質不佳試題(dodgy items)兩個準則進行試題品質的檢視。

2. 量尺化程序

大型測驗中的量尺化方法是指受試者於一個學科領域之表現,此表現為描述 受試者量尺分數或次級量尺分數(scale score)。各學科領域之量尺是以 IRT 為基 礎,並使用多重插補法(multiple imputation)或可能值(plausible values)的方法 論估計量尺分數分布的特徵。因此,量尺化程序是描述不同測驗題本間的量尺化 過程。

伍、 成就表現描述

受試者不同表現水準決斷值(cut-off points)的建立,需經過複雜的步驟與 討論。NAGB 為學生在 NAEP 的表現設定成就目標(achievement goals),以告知 社會大眾學生在學校內學了什麼與能做什麼的訊息。因此,透過三個成就水準以 界定成就目標,並將其定義為基礎(basic)、精熟(proficient)、進階(advanced)。 TIMSS 提供一個國際的評價基準(international benchmark),以幫助了解成就量 尺之意義,並且藉由描述量尺定錨程序應用來描述學生於這些基準之表現,其評 價基準分成四個等級:進階國際評價基準、高國際評價基準、中等國際評價基準、 低國際評價基準。PISA 則是將分數量尺依據受試者表現水準分成六等級。

陸、 小結

若欲建立一套具有信度、效度的基礎級華語文聽力與閱讀能力電腦化適性測 驗,圖 2-1 的步驟是必須確實完成。雖然 NAEP、TIMSS、PISA 提供相當詳盡的 經驗,但本研究所研發之華語文能力測驗是否能適用於所有程序仍需要進行探究, 因此,有關於選擇適合華語文能力測驗的測量模式、建置題庫所需考慮的等化設 計與方法等步驟,分別於第四節與第五節中進行探討。

數據

表 2-2    CLB 分級能力架構  能力等級  聽  /  說  讀  寫  初等  能力  初始  在日常、輕鬆的環 境 中 , 就 社 會 互動、說明、說服、資訊等類型言談, 能夠說出或理解  就 社 會 互 動 的 文字、說明、商業或服務的文字、資訊文字等,能理解簡單的文段  就社會互動、紀錄資訊、商業或服務 訊 息 、 呈 現 資 訊等,能創作簡單的文段 進展 尚可  流暢  中等  能力  初始  在適度需要專注的環境中,就社會互動、說明、說服、資訊等類型言談, 能夠說出或理解  就 社 會
表 2-3    新 TOCFL 及新 HSK 與 CEFR 分及對應表  新 TOCFL  新 HSK  CEFR  入門級  HSK(一級)  A1  基礎級  HSK(二級)  A2  進階級  HSK(三級)  B1  高階級  HSK(四級)  B2  流利級  HSK(五級)  C1  精通級  HSK(六級)  C2          許多研究認為 CEFR 分級之標準最受推崇之處在於證明對教學與課程皆帶來 潛在正面之影響,以及對於評量標準具有正面功能性之導向,所強調的是學習者 能做什麼,而不
表 2-5    TOCFL 聽力與閱讀測驗各等級施測重點  測驗等級  聽力題型  閱讀題型  內容  入門基礎級  看圖回答  單句理解  著重在日常生活的 一般簡易溝通能力 問答理解 看圖釋義 對話理解 選詞填空  完成段落  進階高階級  對話  選詞填空  著重在語言段落的 理解分析能力  段落  閱讀理解  流利精通級  對話  選詞填空  著重在語言使用的 廣度與精熟度  段落  閱讀理解  二、 口語與寫作測驗          TOCFL 口語與寫作測驗是以「溝通任務」為導向,考題內容主要
表 2-7    新 HSK 能力說明  等級  詞彙量  能力表現  HSK(一級) 150  能理解並使用一些非常簡單的漢語詞語和句子,滿足 具體的交際需求,具備進一步學習漢語的能力。  HSK(二級) 300  能用漢語就熟悉的日常話題進行簡單而直接的交流, 達到初級漢語優等水準。  HSK(三級) 600  能用漢語完成生活、學習、工作等方面的基本交際任 務,在中國旅遊時,可應對遇到的大部分交際任務。  HSK(四級) 1200  能用漢語就較廣泛領域的話題進行談論,比較流利地 與漢語為母語者進行交
+7

參考文獻

相關文件

• e-Learning Series: Effective Use of Multimodal Materials in Language Arts to Enhance the Learning and Teaching of English at the Junior Secondary Level. Language across

 In the context of the English Language Education, STEM education provides impetus for the choice of learning and teaching materials and design of learning

• e‐Learning Series: Effective Use of Multimodal Materials in Language Arts to Enhance the Learning and Teaching of English at the Junior Secondary Level. Language across

Objectives  To introduce the Learning Progression Framework LPF for English Language as a reference tool to identify students’ strengths and weaknesses, and give constructive

• Assessment Literacy Series: Effective Use of the Learning Progression Framework to Enhance English Language Learning, Teaching and Assessment in Writing at Primary Level. •

• Assessment Literacy Series - Effective Use of the Learning Progression Framework to Enhance English Language Learning, Teaching and Assessment in Writing at Primary Level.

• To enhance teachers’ knowledge and understanding about the learning and teaching of grammar in context through the use of various e-learning resources in the primary

中國語文科卷一 閱讀理解 學生做小測.. 中國語文科卷一 閱讀理解