• 沒有找到結果。

第一章 緒論

第一節 研究動機

本研究是以歐洲語言共同參考架構:學習、教學、評量(the common European framework of reference for languages: learning, teaching, assessment, CEFR)為基礎,

透過現代測驗理論(item response theory, IRT)之技術,建立一套具有信度、效 度的基礎級華語文聽力與閱讀理解能力測驗與電腦化適性評量系統。本論文共分 畫(the national security language initiative)將中文認定為攸關國家安全的戰略語 言,並規劃從幼稚園到大學與進入職場的全民外語學習計畫(籃玉如,2009;U.S.

Department of State, 2006);2007 年美國參議員於「美中文化交流法案」建議美 國政府應於未來五年內出資 13 億美金,用於美國學校發展中文和中國文化教育 的課程(郭珠美,2009)。這足以證明華語學習在各國之間逐漸受到重視,以及 突顯華語學習市場的龐大需求。

許多國家為因應華語文學習熱潮,除了開始致力於華語文學習之專業化、國

際化之外,亦開始積極地培育優秀華語師資,並透過多元管道推展華語教學。隨 著華語文學習需求日益升高,使得以「母語為非華語者」的華語文能力測驗也逐 漸受到各國矚目,包括臺灣的華語文能力測驗(Test of Chinese as a Foreign Language, TOCFL) 與 兒 童 華 語 文 能 力 測 驗 ( Children’s Chinese Competency Certification, CCCC);中國大陸的漢語水平考試(Hanyu Shuiping Kaoshi, HSK)

與實用漢語水準認定考試(Test of Practical Chinese, C. Test);日本中國語交流 協會開發的中文溝通能力測驗(Test of Communicative Chinese, TECC);以及美 國大學理事會(College Board)舉辦的學術評量測驗(Scholastic Assessment Test, SAT)與跳級安置測驗(Advanced Placement Exams, AP Exams)也發展 SAT 中 文測驗(SAT subject test in Chinese with listening)與 AP 中文測驗(AP Chinese language and culture exams)等。這些測驗主要目的皆是為了檢定以華語為外語或 第二語言能力的學習者,具備何種程度的華語文能力,以進行申請工作、學校、

華語文課程,以減輕學習者與教學機構對於學習者表現解釋之負擔。此外,這將 利於不同國家或地區能相互認證學習者的語言能力。因此,本研究以近年來普遍 受世界各國肯定、且獲得教育部認可於國內推廣的「歐洲共同語文參考架構

(CEFR)」作為測驗發展之依據。CEFR 已經是目前世界各國語言能力檢定常使 用的參考架構,例如:國際溝通英語測驗(Test of English for International Communication, TOEIC)、托福(Test of English as a Foreign Language, TOEFL)、

劍橋國際英語認證(Cambridge Main Suite)、劍橋職場外語檢測(Business Language Testing Service, BULATS) 、德 語檢 定 考試 (Test Deutsch als Fremdsprache, TestDaF)、日本語能力試驗(The Japanese Language Proficiency Test, JLPT)、

法語檢定考試(Diplôme D'Etudes en Langue Française, DELF)等(張莉萍,2007;

藍珮君,2007;Kecker & Eckes, 2007; Tannenbaum & Wylie, 2005)。是故,本研 究以 CEFR 為測驗研發之參考準則,除了順應世界潮流之外,CEFR 本身建構一

SAT 中文測驗則呈現學習者的原始分數、複合總分(composite total score)、百 分位數(percentile)(NCACLS, 2012);TOCFL 寫作與口語測驗使用整體式評 分法(holistic scoring)作為通過分數(國家華語測驗推動工作委員會,2012a);

CCCC 以答對 60%以上試題數為通過該等級之測驗(國家華語測驗推動工作委員 會,2012b)等。Wright(1999)指出原始分數將不能達到單向度、線性、以及客 觀性等有意義測量(meaningful measurement)的基本要求。且若使用測驗之原始 分數作為各等級的決斷分數(cut scores),當同等級不同測驗之難度有所不同時,

將會造成相同能力之受試者得到不同施測結果。也就是說,若以 CTT 為主要的

理論依據,將產生同等級不同測驗分數無法提供有意義比較之缺點。此外,Lord

(1980)指出 IRT 模式改進 CTT 模式的諸多缺點,例如:單一測量標準誤、樣 本相依的參數估計、平行測驗的假設等。而且 IRT 模式需符合受試者能力估計值 不變性之性質,此一性質能使得施測不同測驗的受試者能力估計值可相互比較。

因此,若以 IRT 為主要的理論依據,透過測驗等化(test equating)之技術,使用 定錨不等組設計(non-equivalent groups with anchor test design, NEAT design)建 立華語文學習者分數量尺(scale score)。除了能使同等級不同測驗分數能進行比 較之外,且能將不同等級的分數量尺轉換到共同量尺上,以建立華語文能力測驗 題庫。

最後,由於電腦科技的發達,使得過去數十年間,許多測驗進行方式逐漸由 紙筆測驗轉變成電腦化測驗(computer based testing,CBT)。目前華語文能力測 驗主要仍以紙筆測驗的方式進行,卻也陸續將 CBT 列為重要發展項目,例如:

AP 中文測驗施測方式已完全使用 CBT 進行、TOCFL 發展口語與寫作的電腦化 能力測驗(College Board, 2012a; 國家華語測驗推動工作委員會,2012a)。CBT 不僅是世界測驗發展的趨勢,相較於紙筆測驗也佔有相當程度的優勢,藉由多媒 體科技之運用,加入 3D 動畫影像、互動式實作試題或是在電腦中模擬真實世界 之情境,能研發更多元的測驗題型,將有助於提高測驗真實性與測驗之效度。CBT 已是目前華語文能力測驗發展的重點,且隨著測驗理論與電腦科技之演進,較複 雜 的 測 量 模 式 已 經 引 進 到 電 腦 化 測 驗 系 統 中 , 例 如 : 電 腦 化 適 性 測 驗

(computerized adaptive testing, CAT)與多向度電腦化適性測驗(multidimensional computerized adaptive testing, MCAT)等。其中,CAT 能依據學習者的學習狀態,

提供適合學習者能力的試題進行測驗,且藉由 CAT 施測程序將能有效地節省測 驗題數與縮短測驗時間。因此,CAT 是測驗理論與實務伴隨電腦科技發展所形成 之產物(何榮桂,2006)。

現今世界各國語文能力檢定皆紛紛發展電腦化測驗系統,例如:英國劍橋大 學英文考試院(Cambridge ESOL)為了進行英語能力檢定,發展 BULATS 作為

國際性英語能力檢定分級檢定測驗,並透過適性化的測驗方式評量受試者的英語 能力;主辦跨國性大型測驗的美國教育測驗服務社(Educational Testing Service, ETS)所承辦的 TOEFL 與 GRE(Graduate Record Examinations)等測驗,也已經 完成電腦化並陸續在全球進行施測。是故,本研究將藉由語言檢定電腦化測驗之

相關文件