• 沒有找到結果。

口試在國家考試應用之再檢討與改進

N/A
N/A
Protected

Academic year: 2021

Share "口試在國家考試應用之再檢討與改進"

Copied!
21
0
0

加載中.... (立即查看全文)

全文

(1)

專 題

* 國立政治大學教育學系特聘教授(Distinguished Professor, Department of Education, National

Chengchi University)

口試在國家考試應用之再檢討

與改進

摘要

本文的目的,旨在重新評估與檢討當前口試在國家考試中應用的現況, 經過方法學的介紹、文獻評閱、與相關法條的檢視後,反思當前口試的作法 還有哪些亟待改進的地方,最後,作者並提出改進的具體建議。 關鍵詞:口試、國家考試、口試評量訓練

余民寧

*

(2)

Abstract

The purpose of this article is to re-exam and assess the current status of oral exam on the application of National Official Examination. By the introduction to the oral assess-ment methodologies, literature reviews, and examination of legislative regulations, this article re-assesses the possibilities of improvement of oral exam on the usage in National Official Examination. Finally, several concrete suggestions for improvement in oral exam are also proposed.

Keywords: oral exam, National Official Examination, oral assessment training

Min-Ning Yu

Re-examination and

improvement of oral exam on the

application of National Official

Examination.

(3)

專 題

口試(oral exam)或口試評量(oral assessment),歸屬於實作評量(perfor-mance assessment)的一種,它有別於 大眾所熟悉的傳統紙筆測驗,作為一種 評量應考人學習成就或實際能力表現的 替代方法,已在學校的教學評量、升學 考試、就業考試,乃至國家考試中,已 被廣泛使用多年。近年來,在「 多元評 量 」觀念興起後,有愈來愈受到重視的 趨勢(余民寧,2011;胡悅倫,2008; 胡悅倫、陳世芬、呂秋萍,2008;彭 錦鵬,2009,2010;Bunting, 2007; Po-pham, 2008)。 過去,口試評量常因為評分者(即 口試委員)的主觀因素(如:口試委員 個人的偏見與意識型態、口試委員對 應考人持有先入為主的月暈效應與類我 效應、口試委員沒有問到重點問題、口 試委員天馬行空詢問一堆與考試目標無 關的問題、口試委員詢問應考人個人隱 私或敏感的問題等)、口試流程的客觀 因素限制(如:口試時間過短、口試問 的問題數偏少、口試問的問題沒有經過 標準化設計、口試場地與情境的限制、 口試評分沒有規準化等)、以及其他干 擾因素的影響(如:口試成本支出高而 無法經常舉行、應考人的回答偽裝與作 假、口試委員沒有經過訓練等),致口 試評量結果的信度偏低,遭人質疑其實 施的公信力,而重傷口試評量作為一種 實作評量方法的效用(吳復新,2000, 2007)。但是,口試評量具有可同時評 估應考人在許多面向上表現的資料等優 點(如:表情儀態、情意態度、心理動 作技能、認知能力、組織與邏輯能力、 口語表達能力、溝通技巧、音色與音量 大小、發音正確性與說話速度、甚至是 部分人格特質等),這些優點讓口試評 量逐漸成為一種在紙筆測驗外,還能兼 顧收集應考人在其他能力向度表現的參 考資料,以提供評分者充分的資訊,做 出一個審慎、客觀、而又正確的判斷。 這是口試評量在多元評量觀念盛行後, 會逐漸受到重視的原因所在。 口試評量是用來評估應考人專業 知識的一種評量方式。它之所以日漸 備受歡迎且廣為施行採用的原因,即在 於它是用來判斷應考人所回應的專業內 容,是否真的為應考人真實所擁有的首 選方式。在口試評量的歷程中,我們可 以清晰地觀察到應考人是否真實擁有我 們所期待的專業能力,此外,透過真實 的互動討論情境,能讓應考人在正向積 極的評量氛圍中完成任務、展現自我所 擁有的專業知能(Thorburna & Collins, 2006)。因此,現在的口試評量如果作 為一種高風險測驗與評量(high-stake testing and assessment)方法,則測驗 與評量學術領域的專家們就會要求口 試評量也要有自己的「 標準作業流程 」 (standard operation process, SOP);也就

(4)

不僅要事先周詳規劃,也要遵守類似於 測驗編製與題庫建置的標準化流程(余 民寧,2010a),做到在內容、程序、與 評分上都必須遵守一套標準化的處理方 式(余民寧,2011;余民寧、謝進昌、 林顯達、陳柏霖、許嘉家、湯雅芬, 2011;胡悅倫、陳世芬、莊俊儒、楊念 湘、洪雅琪,2010;胡悅倫、陳皎眉、

洪光宗,2009;Dixon, Wang, Calvin, Dineen, & Tomlinson, 2002)。

下列所述,即針對口試評量的近代 方法學作法進行概述,再將它應用到當 前的國家考試,並對當前國家考試應用 口試評量的現況作法做一評估,再針對 評估結果提出改進建議事項。

 口試評量方法學概述

當 代 的 口 試 評 量 , 都 是 使 用 所 謂的「 結構化口試(structured oral exam)」方法(呂秋萍,2004;林文 銘,2004;胡悅倫,2008;陳淑慧, 2005;Arthur, 2005; Campion, Palmer, & Campion, 1997; Dipboye, 1994; Taylor & O’Driscoll, 1995)。簡單的說,這種方 法就是要求口試必須做到下列三項標 準:(1) 在內容上,口試的題目必須事 先擬定,題目必須具有鑑別力;(2) 在 程序上,口試前、口試進行中、及口試 後的種種作業流程與實施細節都必須標 準化;(3) 在評分上,口試委員必須事 先經過訓練,根據事先擬定的問題來 詢問,並且根據應考人的實際回答來 與事先設定的評分標準做比較後,予 以公正、客觀、一致地評分(吳復新, 2007)。換句話說,即是要一致性、標 準化地處理下列十五項議題(胡悅倫,

2008;Campion, Palmer, & Campion, 1997): 1. 口試問題的擬定。 2. 每一位應考人均被詢問到相同的問 題。 3. 即興問題與後續追問的處理。 4. 問題的形式與內容。 5. 口試的時間與問題題數。 6. 輔助訊息的控制。 7. 應考人的發問時機。 8. 立即評分或總結性評分。 9. 定錨量表(anchor rating)的使用。 10. 筆記的運用。 11. 多重的口試方式。 12. 應考人都能接受相同口試委員的詢 問。 13. 口試間口試委員的問題討論。 14. 口試訓練。 15. 事先擬定計分標準與方式。

(5)

專 題

一般而言,欲有效實施一場結構化 的口試評量,往往需要考量許多因素, 例如:時間、人力、物力、成本、各種 資源的支援、承辦單位的想法與意願 等。而大多數的學者專家們,都會一致 地同意下列程序是其標準化流程: 一、職能分析(job analysis) 職能分析係指針對某工作領域的 專家學者們,使用問卷調查、專家座 談、焦點訪談,甚至是德懷術(Delphi technique)、結構化概念形成法(struc-tured conceptualization method)(余民 寧,1997;胡悅倫、余民寧,2009; Voskuijl, 2005)等技術或方法,分析特 定工作的重要細節與相關細項,使能對 工作內容有一定階層綱目的瞭解,以便 列舉達成這些工作細目所需具備的核心 能力為何。口試委員能藉由職能分析結 果,進一步擬定與發展出口試問題形式 與內容,以諮詢問應考人,並由應考人 回答這些問題所做出的反應、能力表現 與特質行為,以利口試委員做出正確的 評分與決策,達到選才的目的。通常, 職能分析必須在舉行口試之前,即已完 成結果分析,並列舉出該工作領域的核 心能力細項,以便作為口試委員擬題的 參考。 二、口試問題的擬定 在職能分析確立重要的核心職能與 評估細項後,緊接著就是由口試委員針 對此分析結果擬定、改寫、創造、並轉 化成具體的問答句。口試委員可朝六 大方向來詢問問題(Campion, Palmer, & Campion, 1997): 1. 情境式口試問題(situational inter-view)。即針對「某個特定情境下的 行為反應為何 」來發問問題。 2. 過去行為式口試問題(behavioral interview)。即針對「 過去某件事 件發生時,應考人當時的行為和 行為結果為何 」來發問問題,又可 分成兩類問題來提問:最佳表現 (maximum performance)與典型表 現(typical performance)的問題。 3. 背景式口試問題(context inter-view)。即針對「某事件發生的背景 原因或條件,應考人是否有所認知 或瞭解為何 」來發問問題。 4. 與 工 作 知 識 有 關 的 口 試 問 題 (knowledge-related interview)。即 針對「 某件工作的相關知識,應考 人是否得知或瞭解程度為何 」來發 問問題。 5. 真實工作的模擬口試問題(simu-lated interview)。即針對「 某件假 想事件若發生,應考人會如何因應 或反應為何 」來發問問題。 6. 心理特質的口試問題(psychologi-cal properties interview)。即針對 「 執行某件工作時,應考人所需具

(6)

備的心理特質或行為傾向為何 」來 發問問題。 此外,考選單位也可以從過去詢 問過的口試題目庫來抽題準備,並經 由改寫、仿作、創新或修飾等步驟,來 重擬一道新的口試題目。當然,有系統 地蒐集並建立口試題庫(oral exam item banks),並針對題庫內容做分析歸類, 也是未來針對口試評量研究改進很重要 的努力方向。 三、定錨評量 定錨量表(anchor rating)的建立, 即是在建立評分規準(scoring rubrics) 或評分量尺(scoring scale);它的目的 即是希望未來每一位口試委員在評定應 考人的回答時,都能有一套具體的定 錨試題(anchor items)可作為評分的參 考,並針對高低得分者各應該符合哪些 表現條件或程度,都有一個明確的界定 和說明,才能使得口試委員根據此一定 錨試題,得到具體精確的評分依據,以 減少評分者間誤差,提高評分者間的 評分信度(Perie, 2008; Taylor & Small, 2002)。 一般而言,可以作為「 定錨評量 」 用的定錨試題,通常可以粗分成四類 (胡悅倫、陳皎眉、洪光宗,2009): 1. 範例式答案(example answer)。即 具有明確答案可供評分參考的例 子,或應考人可以明確回答的實際 例子。 2. 對答案的敘述(description)或定義 (definition)。即口試委員可針對欲 探知或瞭解之概念的描述或定義方 式來詢問的例子。 3. 對答案的評價(evaluation)。即應 考人的答案內容可以明顯分成優、 良、可、劣等不同等級的例子。 4. 比較式的答案(comparative an-swer)。即可將所有答案歸類成前 30%、中 40%、或後 30%等不同 類型或程度評分的例子。 在實務應用上,口試委員通常需要 綜合及交互使用上述各種定錨評量方 式,而成為「 多元定錨評量 」方式; 其次,也可以是僅使用量尺化的範例 (scaled example)或描述式答案的量尺 化評量,而成為「 單一類型的定錨評 量 」方式;當然,也可以只是使用數字 或形容詞來為定錨試題進行描述,而成 為「 非定錨式評量 」方式;或者,不使 用任何「 數量 」的語詞評斷,而只使用 一些摘要、相對性的評語,或團體討論 方式等,以作為評定成績等第的「 一般 或傳統評量 」方式。 四、口試評量訓練 這是關乎口試評量實施成敗的核心 程序所在。訓練口試委員去執行一場公 平、公正、客觀的口試評量,就像在發 展一套標準化成就測驗去評量學生的學

(7)

專 題

習成就一樣的重要。口試委員的口試評 量訓練目的,即是在確保所有口試委員 都能使用同一套標準去對待每一位應考 人,並且給於同等公平、公正、客觀的 評分。在這種評分過程標準化之下,應 考人的口試成績評定結果,才會具有理 想的信度和效度可言。 在實務的口試評量訓練作法上, 通常需要訓練全體口試委員達到下列 的評分共識為止(余民寧、謝進昌、 林顯達、陳柏霖、許嘉家、湯雅芬, 2011;胡悅倫、陳世芬、莊俊儒、楊念 湘、洪雅琪,2010): 1. 確定想要詢問的口試問題總數,並 且要求每位口試委員都詢問相同的 問題。 2. 先針對某一題問題的模擬回答答 案,並根據定錨試題的評分量尺或 等級標準進行各自評分。 3. 針對上述評分結果提出各別給分的 理由說明,並且進行交互討論與辯 論,以謀求評分標準的共識。 4. 再次針對另一題問題的模擬回答答 案,並根據剛才的共識,再次進行 各自評分。 5. 重複上述第 3 至 4 步驟,直到各自 評分結果間未達顯著差異為止。 經過訓練達到評分共識標準後,口 試委員即可開始展開一場口試評量。因 此,經過這種標準化的訓練程序,可以 提升口試評量的結構性程度,讓評分標 準達成一致性,進而達到提昇口試評量 效度的目的。 此外,在口試訓練的過程中,也必 須確實要求口試委員做到應該遵守的工 作事項,包括:(1) 口試委員應遵守結 構化口試的標準化流程,(2) 口試委員 應表現專業且適當的態度,(3) 預先命 題及適時提問,(4) 每位應考人被詢問 的問題數應均等,(5) 每位應考人獲得 延伸詢問問題的機會應均等,(6) 盡量 給予每位應考人立即且多次的問題, (7) 秉公、獨立、客觀評分,及 (8) 善用 筆記,協助評分。同時,也有一些規 定是必須要求口試委員應該要避免的 事項,包括:(1) 避免負面的想法與態 度,(2) 避免過早下定論及受無關干擾 因素(如:類我效應)的影響,(3) 避免 詢問與工作無關的問題,(4) 避免詢問 隱含答案的問題,(5) 避免牽涉假設性 道德之問題,(6) 避免牽涉性別、族群 等背景之不公平的問題,及(7) 避免比 較應考人之間有關性別、族群等背景之 不公平的問題。 上述四大步驟,即是有效實施口 試評量的「 標準作業流程 」。凡是經 過此道嚴謹程序所實施的口試評量, 均能大幅提高口試評量效度至.35 到 .62 之間(Campion, Palmer, & Campion, 1997; Huffcutt & Arthur, 1994; Marchese & Muchinsky, 1993; McDaniel, Whetzel, Schmidt, & Maurer, 1994)。這也是口試

(8)

評量為什麼必須要嚴守「 標準作業流 程 」的原因所在,其重要性自是不言可 喻。

 口試評量相關文獻回顧的啟示

口試評量素來自有其重要性及價值 性,學者們陸續投入心力作研究,以企 圖全面瞭解影響口試評量的信效度及相 關面向的因素。 近十年來,隨著時代的進步,口試 方法日新月異,尤其是電腦科技的視訊 技術,有逐漸取代傳統面對面的口試方 法之勢,而以國外的大學或研究所入學 考試最常使用電腦視訊口試為最,除了 能瞭解學生的外語能力與表達溝通外, 也能藉此廣納國際學生,不失為未來可 以採取口試的方法之一。例如,鄭學隆 (2006)即採用實驗法,探討 63 位臺北 縣地區國中學生接受傳統面對面與電腦 視訊的英語口試方式,對學業成就表現 的差異表現,結果發現電腦視訊相較於 傳統面對面的英語口試方式,男學生比 女學生好、平均分數會增加、緊張度降 低等,所以未來可以思考透過電腦視訊 進行口試,以減少人力、空間和時間, 增加效率。 有些研究主要探討口試委員與應考 人的互動過程,可知不同文化環境、口 試委員的身份與應考人的背景等,均會 使口試互動過程中,產生微妙的變化。 例如,陳鈺如(2008)探討臺灣與美國 的兩組口試委員如何在問答時段中提 問,以及不同語言背景的博士候選人如 何回應口試委員提出的意見問題。研 究結果發現,三方的參與者(即口試委 員,指導教授及博士候選人)似乎因為 文化和語言背景的差異,而採取了一些 不同的言談策略;首先,美國的口試委 員傾向以與候選人討論的口吻進行,而 台灣的口試委員則偏向直接給予批評或 提供看法;再者,美國和台灣的候選人 相比,前者回應及答辯較積極;最後, 美國的指導教授類似其他口試委員,以 針對論文提問為主,而台灣的老師則傾 向針對論文回應其他口試委員。 吳盈儒(2007)依據「 關係辯證觀 點 」,探討在口試活動中,以深度訪談 二十名參加研究所入學口試並順利錄 取的學生,發現「 親密性 」矛盾主要發 生在非本科系的應考人,將採用「 整 合 」、「 避重就輕 」策略;「 確定性 」矛 盾主要出現在本科系的應考人,將採用 「 重新定義 」策略;至於「 開放性 」矛 盾則與應考人的背景無關,主要是因 為應考人在口試過程中,面臨了「 隱瞞

(9)

專 題

事實 」或「 誠實揭露 」的兩難,將採用 「 第三人的觀點 」或是「 未來的改進方 向 」,以作為一種回答的策略。由此可 見,在未來的口試過程中,比較不同文 化差異、針對不同口試委員身份增加訓 練、以及因應不同應考人提供管道諮詢 等,都是未來可以努力的方向。 影響口試評量信效度的因素,常常 都是多元面向的,「 口試評分 」的歷程 即是其中之一。Huffcutt(2011)即回顧 過去多篇研究,綜合提出一個影響口試 評分的相關因素概念圖,如圖1 所示。 該學者指出,影響口試委員評分的相 關因素,主要可分為三個層面:與工 作相關的口試內容(如:該工作專業知 識)、應考人的表現(如:應考人印象 管理策略)、個人或人口統計學上的特 徵(如:應考人的外表吸引力)。 舉例來說,應考人的表現(如: 印象管理)會影響到口試委員的評分 客觀性。過去,學者曾發現到應考人 表現出印象管理戰術,的確可以影響 口試委員的評分;例如,Levashina 與 Campion(2007)的研究即發現:印象 管理策略中的自我導向與非語言印象管 理,確實會影響到口試委員的決策及評 分。此外,研究亦指出,應考人的一些 非語言表現,也會影響口試委員的評 分高低;如果,應考人表現出傾聽者 (listener)、輪流發言者(turn-taker)的 特質,則口試委員在評分上會給予較高 的分數。換言之,應考人可以藉由一些 非語言的表現及特質,來彌補自我在專 業能力內容回答上的不足,而獲得較高 的口試分數,影響口試委員給予正向 決策(DeGroot & Kluemper, 2007; Huff-cutt, Conway, Roth, & Stone, 2001)。

再者,口試委員對個人或人口統計 學上的特徵偏好(如:應考人的外表吸 引力、性別、種族、背景),亦可能影 響其口試評量分數的客觀性。個人或人 口統計學上的特徵,往往在專業能力的 考量上是不具影響力的,也通常不會被 納入評分的客觀準則之中。但是,口試 委員的個人偏好卻使其在評分、決策的 過程中,受其影響而產生了主觀意義。 社會學相關理論指出,人們對於與自己 內在或外在特質相似的他人,較容易產 生好感(即類我效應(similar-to-me ef-fect))。由此推論,口試委員給予與自己 特質相似(如:同性別)的應考人之評 分,將會高於與自己特質不相似(如: 不同性別)的應考人。因此,評分者 效應(rater effects)的問題,確實存在 於口試評分當中,應該值得重視與研 究(Farrokhi & Esfandiari, 2011; O’Brien & Rothstein, 2011; Sears & Rowe, 2003; Touchie, Humphrey-Murto, Ainslie, My-ers, & Wood, 2010; Tsai, Huang, & Yu, 2012)。

(10)

此外,口試委員在進行口試時,必 須注意自己的語氣及行為表現,這都有 可能影響到應考人的回應與表現。「 口 試 」的歷程,是口試委員與應考人彼此 互動的過程,但在這個互動的歷程中, 口試進行方向的主導者是口試委員。 口試委員依據自己在該領域所累積的專 業知能,引導應考人回答核心的專業 問題(Dipboye, 2005; Thorburna & Col-lins, 2006)。因此,口試委員在口試面 談中,擔任主導者的角色;而應考人則 通常抱持著緊張不安的心情進入口試場 域。在口試的過程中,口試委員通常會 給予應考人一些提示,然而給予提示的 語氣及態度,即可能明顯地影響整個口 試評量的氛圍。舉例來說,如果口試委 員的語氣不佳時,即可能將「 面試 」的 氛圍轉變為「 審問 」的狀態,進而負向 影響到應考人的表現、無法有效表現自 我的真實實力。 所以,口試委員在進行口試評量 時,建議在非語言的態度上,表現出 對於應考人感到興趣,並且適度給予提 示,將有效降低其焦慮感。在筆試的歷 程中,應考人可以先將不熟悉、一時不 知該如何作答的題目先放著,等會兒再 回頭來作答(leave and go back)。但是 在口試評量的歷程中,應考人卻無法採 用此種方式作答;因此,應考人在進行 口試時,建議以和藹、適度給予提示等 圖一 影響口試評分的相關因素模式圖 註:圖中的曲線表示應考人的一般特質及經驗背景因素,會同時影響到其核心工作特質及其在口試的表 現。

JOB-RELATED INTERVIEW CONTENT INTERVIEWEE PERFORMANCE General Traits

Mental ability Personality Interests, goals, & values

Social Effectiveness Skills Social influence behaviors Interpersonal presentation

Experiential Factors Experience Education Training

Core Job Elements Declarative knowledge Procedural skills & abilities

Motivation

INTERVIEW RATINGS

PERSONAL / DEMOGRAPHIC CHARACTERISTICS

Personal / Contextual Factors Interview training & experience Interview self-efficacy Interview motivation

Attractiveness Race & gender

Background & attitudinal similarity Cultural background and/or setting

(11)

專 題

方式來對於應考人進行提問(Thorburna & Collins, 2006),使應考人能將自己的 真實實力作最大的表現,進而有效提升 口試評量的信效度。

 口試在當前國家考試應用的現況

過去,即有多位學者專家們針對 國家考試方法的檢討與改進,提出許 多建議與改進事項(王成基,2004; 吳復新,2000,2007;彭錦鵬,2009, 2010),就僅以口試評量面向而言,這 些事項計有:國家考試宜增加口試的實 施、口試委員難招募、應以工作分析 為口試基礎、使用行為定錨評等尺度 法(BARS)、進行訓練主試者、應以行 為的及工作知識為主的問題作為發問問 題、個別口試與集體口試的評量項目的 描述過於籠統等,可說是琳瑯滿目。 之後,考選部為此舉辦多次的口試 方法技術研討會,進行相關考選方法 與技術的精進與改良(考選部,2004, 2005,2006),至今,諸多有關考選 法規已日趨完備(考選部,2012)。以 「 口試規則 」為例,從民國89 年制訂公 布至今,歷經民國91 年的修訂,民國 101 年的再次修訂,如今已是國家考試 非常完備的口試辦法的依據。 依據「 口試規則 」第2 條條文的規 定,現行國家考試的口試方式分成下列 三種:(1) 個別口試:指個別應考人回 答口試委員之問題,藉以評量其儀態、 溝通能力、人格特質、才識、應變能 力;(2) 集體口試:指二位以上之應考 人分別回答口試委員之問題,藉以評量 其儀態、溝通能力、人格特質、才識、 應變能力;(3) 團體討論:指五位以上 之應考人輪流擔任主持人,藉以評量其 主持會議能力、口語表達能力、組織與 分析能力、親和力與感受性、決斷力、 及參與討論時之影響力、分析能力、團 體適應能力、壓力忍受力、積極性。 第3 條條文規定,個別口試、集體口試 每組口試委員以二至五人,團體討論每 組口試委員以三至五人為原則。此外, 其他相關條文亦分別將口試的評分項目 及配分、口試委員會前會議、口試進行 方式、口試時間、問與答順序、評分標 準、計算評分成績方式、相關人員之親 等迴避、及保密措施等,詳實地在法條 裡進行明確規定,可說是已將口試評量 的標準作業程序法規化,成為一套完備 的結構化口試評量準則。同時,針對個 別口試、集體口試、及團體討論的評分 方式,「 口試規則 」亦提出兩類評分表 的參考附表及一種應考人書面報告參考 附表,以供口試委員作為評分的依據與

(12)

規準。 在實務作法上,「 口試規則 」係從 多年來的努力修訂過程,而逐漸日趨完 備的。舉例來說,近年來,考選部除了 舉辦多次的口試方法技術研討會外,亦 增加針對國家考試試題是否應該公布的 議題(余民寧,2010b;余民寧、謝進 昌、黃馨瑩,2010)及專技人員考試的 職能分析(李登科、余民寧、林進忠, 2011)等涉及口試評量的基礎核心問題 進行委託研究,同時,也針對相關的口 試應該有哪些具體作法而委託學者專家 們進行研究,共計完成個別口試參考手 冊(考選部,2003;胡悅倫、陳世芬、 莊俊儒、楊念湘、洪雅琪,2010)與集 體口試參考手冊(余民寧、謝進昌、 林顯達、陳柏霖、許嘉家、湯雅芬, 2011)各一份,可作為爾後每年新聘口 試委員進行口試評量訓練時的參考之 用。此外,考選部為使口試結構化,部 分考試突破以往常規辦理之口試模式, 均已採行創新改進措施,如:召開口試 技術座談會、入圍繕製試題、增加口試 委員人數、以減少因少數口試委員主觀 評分因素,及使評分標準趨於客觀性與 一致性,儘量使口試的內容與流程標準 化等。這些努力與改進使「 口試規則 」 逐漸落實口試評量方法學所應有的標準 化作業流程,使當前國家考試的口試方 法,能夠達到提昇口試評量信度與效度 的目的。 現在,回頭檢視當前口試評量的作 法現況,這些過去曾提出的寶貴建議事 項,均已在民國101 年再修訂後的「 口 試規則 」裡,具體載明,並已在考選部 每年舉辦的國家考試裡,確實地逐步、 逐考科、逐年採行實施中。從上述幾項 研究委託案與口試參考手冊的完成,均 已證實口試評量的理想,已逐漸在國家 考試的應用裡,逐步踏實。

 口試在國家考試應用的再檢討

然而,檢視近年來國家考試的「 口 試規則 」實施結果,筆者發現仍有幾項 工作可以有再改善的空間。茲舉絡絡幾 項大者如下: 1. 口試委員的遴聘問題:雖然「口試 規則 」第4 條條文規定,口試委員 的遴聘,除由該項考試之典(主) 試委員擔任外,必要時得另就相 關用人機關、請辦考試機關、職 業(目的事業)主管機關簡任級以 上公務人員或有關團體富有研究經 驗者或專家學者遴聘之,並得視需 要遴聘預備口試委員若干人。但在 實務作法上,不同官科職種有不同

(13)

專 題

的學科專業性質與特殊人才的考 量需求,「 遴聘 」或「 不遴聘 」非 本科專業人員加入口試委員團的組 成(如:司法官或外交領事人員口 試委員中加入遴聘心理學家或測驗 專家等組成),都各有其優劣點存 在。關於這一項遴聘問題,可能需 要未來透過逐科的職能分析、相關 人員的訪談、相關人員的試作評 分、再進行統計調查研究分析數據 後,才能判定「 遴聘非本科專業人 員加入口試委員團 」的利弊得失, 最後做出「 聘或不聘 」的決策。 2. 口試評分訓練的時數不足:由於每 年報名參加口試的公務人員考試及 專技人員考試應應考人及官科職種 很多,在實務上,考選單位很難招 募到足夠數量的口試委員,因此, 往往需要採行分組或分梯次口試進 行。雖然,這種作法也是「 口試規 則 」第7 條條文規定所許可的。然 而,分組或分梯次的組數或梯次數 愈多,各組或各梯次口試委員評分 結果的組間差距與組內差距就有可 能愈大(這一點可由各組評分結果 的平均數與變異數大小看出);此 時,光是靠舉行口試前的預備會議 是不夠的,口試委員們需要更長時 間(如:半天、一整天、甚或數天) 的口試評分訓練才行,才能建立起 口試委員們都有一致的評分標準與 共識,才能克服評分者間差異的評 分懸殊問題,才能進一步運用類似 測驗等化技術(余民寧,2009)來 調節及校正組間與組內的評分差 距,以建立起真正的評分一致性。 3. 口試題目庫的建立不足:由於每年 均會舉行口試,每年外聘的口試委 員不一定都是同一批人選,難免會 有新手加入。而考選單位每每會要 求口試委員每年都不能詢問一樣的 問題時,致使預先所擬詢問的問 題,難免會有江郎才盡之憾。因 此,各考科亟需於平時即有系統 地收集與建立口試問題的題目庫 (item bank),才能滿足這項口試問 題支出的需求。如果考選單位能有 一個常設部門或工作小組,專職於 此一口試問題的收集與建立工作, 則口試題目庫不足的問題,即可逐 漸迎刃而解。 4. 口試時間不夠長:雖然,「 口試規 則 」第7 條條文規定,個別口試每 一應考人口試時間二十至九十分 鐘,集體口試每組口試時間一至二 小時,團體討論每組口試時間二至 四小時。就以實際比較常舉行的個 別口試而言,有時會因為口試成本 與口試人數的考量,每一應考人的 口試時間就真的只能有二十分鐘, 然而,光憑二十分鐘簡短時間的回 答,就要求口試委員據以做出一個

(14)

正確的評分判斷,其實,這項作法 會造成評分誤差的風險是蠻大的。 如果可能的話,延長口試時間是可 以改善此評分風險的可行作法之 一;其次,即是同步配合增加口試 委員人數和問問題的題數,也可以 有補強的效果出現。當然,成本、 時間、人力、物力等資源的支出, 也需要考慮在內;因此,在眾多因 素的考量下,只能追求平衡的思維 與佈局而已。 5. 口試規準可再分科細緻化一些:由 於「 口試規則 」第5 條條文對評分 項目與配分的規定,只是大方向、 原則性、籠統性的規定,無法滿足 適用到每一個不同官科職種考科的 口試評分上。因此,考選單位應該 繼續執行各官科職種的職能分析工 作外,更需要逐年建立起分科的口 試評分項目、各評分等級的表現水 準描述(performance level descrip-tion, PLD)、各評分細項及其配分 多寡等制訂工作項目,以建立起客 觀的口試評分規準,供作每位口試 委員的評分參考依據。 6. 口 試 評 分 分 數 的 差 距 可 以 再 加 大:由於「 口試規則 」第5 條條文 對評分項目與配分的規定,都已經 把評分分數定死了,「 六十分 」通 常都是作為一個分界的門檻分數, 如「 口試規則 」的第9條與第10條 條文的規定。在這種情況下,應考 人的總成績不包含口試成績在內, 口試成績未達六十分者,亦不予 錄取,此時,口試成績便具有「 門 檻 」的篩選標準,顯現口試成績係 決定最後錄取與否的先備條件之 一,這將會使口試考試大幅度受到 重視。但是,若總成績係由口試成 績與其他成績(如:筆試或實作成 績)所組成時,此時,口試成績占 總成績的比重如果沒有超過三成或 四成以上的話,則會造成口試成績 對總成績影響力薄弱的情形,致使 應應考人不重視口試時的表現,或 即使口試委員努力評選潛在優秀的 人才,卻沒有發揮太多實質影響 決策(錄取與否)的效用存在等現 象。因此,各評分細項的評分,宜 允許口試委員加大其間的評分差 距,以避免評分趨中,而終至評分 成績無法發揮區辨應考人表現優劣 的篩選效用。至於,口試要不要 作為最後錄取應應考人與否的「 門 檻 」條件,可以看看它在實務上的 需求與效用,再做出實質上的決 定。 7. 盡量減少評分者效應的影響:無可 諱言的,即使確實做到遵守口試評 量的「 標準作業流程 」,要做到全 面遏止評分者效應對口試評分的不 良影響,仍然是不太容易的事。但

(15)

專 題

是,我們可以逐漸透過學術研究的 瞭解,找出到底有哪些可能產生影 響的因素來,然後在未來的口試評 分訓練中,將這些因素納入訓練的 課程範圍裡,並且在未來進行口試 的歷程中,設法將這些干擾因素平 衡掉或排除掉,以降低評分者效應 的不良影響到最小的程度。

 口試在國家考試應用的改進建議

檢視上述評論,「 口試規則 」歷經 屢次的修訂,即是反應出口試評量在國 家考試應用的重要性及受重視的程度, 以及作為考試評量方法成長改進的最佳 典範。為了更加精進「 口試規則 」的落 實,我們還是有需要回溯到最基本的起 點,看看我們是否已經確實落實口試評 量的標準作業流程(SOP)。 以下幾項建議,即是要確立最基礎 的口試評量標準作業流程是否已經做 到,並且展望未來可行的創新作為。 一、職能分析方面 口試評量的根本,還是必須追溯到 最原始的「 職能分析 」部分。當今,無 論是公務人員考試或專技人員的考試, 都尚未完成所有官科職種用人所需的職 能分析工作。因此,想要以同一份口試 評量策略,即套用到所有官科職種的口 試工作上,無疑是一件不可能的任務, 也難免會遭遇漏洞百出的窘境。所以, 當務之急,還是需要優先逐步完成各官 科職種的職能分析工作。職能分析若能 做得好,則考試評量的工作已經完成一 大半了! 透過職能分析,能夠幫助找出各官 科職種所需工作上的核心能力為何。這 些核心能力指標,勢必會涉及到各種專 業知識、工作經驗、人格特質、或背景 條件等需求。接著,即需要針對這些核 心能力所示,再進一步細擬出各評分細 項,同時也需研訂各評分細項應考人應 該有的「 行為表現描述(PLD)」,據以 作為口試委員評分時之依據,以建立起 各官科職種的口試評分規準。 二、口試評量訓練方面 由於每年需要遴聘口試委員的數量 很大,每每可能都會有新手委員加入或 不同領域的專家參與其中。因此,如何 建立起這群經驗不一、專長領域不一的 口試委員們的評分共識,則唯有透過紮 實的口試評量訓練,才能建立起大家的 評分共識。因此,建議考選單位可以朝 下列幾個方向做起: 1. 建立各官科職種的口試委員人才

(16)

庫。慎選負責盡職、公正客觀、且 經驗豐富的人選擔任口試委員,以 建立初步的口試委員人才庫。同 時,也有必要每隔一段時間即評估 或評鑑這批人才庫人選在口試表現 上的績效與適切性,必要時,人才 庫的名單也要不斷地汰換更新。 2. 口試委員的遴聘宜有多元化來源。 職能分析所顯示的各項核心能力, 必定會涉及到專業知識、工作經 驗、人格特質、或背景條件等變 因。因此,除遴聘該官科職種的用 人機關之高階主管、有研究經驗之 學者專家組成口試委員團外,建議 可新增像臨床或諮商心理學家、心 理測驗學家、或相關實務工作者, 才能組成完善的口試團隊,朝多元 角度來進行口試甄選適當的人才。 3. 新手委員應接受標準化的制式口試 訓練。由於每年可能都會有新手委 員或不同領域的專家參與組成口試 團隊。因此,考選單位務必要針 對這批新手委員(尤其是第一次參 加國家考試的口試工作者)進行標 準化的制式口試訓練。訓練方式除 了目前現有的作法(參見前述「 口 試評量訓練 」一節)外:口試規則 的說明、閱讀相關的口試(個別或 集體)參考手冊、範例舉例說明與 討論、評分演練及共識協調會議 等,建議可由資深口試委員擔任小 組長,帶頭訓練新加入的成員;甚 至,初步經過講習訓練過的口試委 員,應先行在臨場口試情境中擔任 觀察員身份,至少先有一次以上的 臨場觀摩經驗後,下一次口試時才 真正上場擔任口試委員。這種訓練 方式就像是「 職校建教合作的實習 訓練 」一般,先讓實習生臨場觀摩 演練幾次,等到習慣、熟練、適應 臨場情境後,才真正上場實作表現 一樣。這種作法不僅可以增進新手 的臨場實務表現,也可累積實務工 作經驗,培訓出優質的口試委員, 以作為加入口試委員人才庫的儲備 名單。 4. 口試訓練的時數宜足夠。資深、有 經驗的口試委員,可能無須接受太 長時間的口試訓練,他們只需要接 受口試會議或口試預備會議的說 明、討論,以形成共識即可。但針 對初次新聘的新手口試委員或即將 執行臨場口試的儲備口試委員,則 至少應該接受半天以上的講習訓 練,才能謀求出評分一致性的共 識。如果是進行集體口試或團體討 論等口試方式,則新手委員們甚至 需要接受更長時間的訓練,才能作 為加入口試委員人才庫的潛在名 單。

(17)

專 題

三、口試問題題目庫建立方面 如果職能分析明確了、口試委員人 才庫也建立了,接下來,就是需要有常 設單位從事口試問題題目庫的收集與建 置工作。就像在發展建置一般測驗題 目的試題庫一樣,前述「 口試問題的擬 定 」一節所述的六大類問題擬定可供參 考,所擬建置口試問題的題目庫,不僅 數量要龐大,且品質也要優良才行; 因此,建議設置一個常設單位或任務小 組,才比較能勝任此事。該單位可於平 時,即可有系統的邀聘口試委員們腦力 激盪設計題目,復經同領域專家評審 後,便可逐步累積建置起適量的題目 庫,作為口試委員小組會議時,抽題、 選題、修題、或潤試題目的參考依據, 以建置起源源不絕的優質口試問題題目 庫。同樣的,每次口試的問題,如果能 夠回收且不公布,那麼,這些優質、有 鑑別力、重要且基本的口試題目,便可 以一用再用,而不必擔任題目有用謦之 虞。 四、降低口試評分的影響因素方面 口試評量屬於實作評量的一環,要 做到評分完全的公平、公正、客觀的程 度,實屬不易。各種干擾因素,從人員 (口試委員及應考人)、評分方式(分析 性計分或整體性計分)、口試情境(燈 光、噪音、空調、場務布置)、突發狀 況(地震、強風、火警)、到各干擾因 素之間的交互作用等,都多多少少足以 影響口試評分的公正客觀性。因此,建 議透過各種委託學術研究,陸續找出各 種可能干擾評分的影響因素來,並且在 未來的口試評分訓練中,將這些因素納 入訓練的課程範圍裡,同時,在未來進 行口試的過程中,設法將這些干擾因素 平衡掉或排除掉,以降低各種干擾因素 對口試評分的不良影響到最低程度。 五、延長口試時間方面 口試時間偏短,可能是每位參與口 試的應考人個人的主觀感受,他們總覺 得無法暢所欲言,口試委員無法完全理 解他們的潛能與內涵。事實上,考選主 辦單位也是經過多方考量各種因素(包 括:時間、人力、物力、成本、各項資 源等)後,才於「 口試規則 」中做出各 種相關的法條規定。因此,為了降低 應考人這種主觀感受,建議可採行口試 前預備工作的輔助作法;也就是說,不 是在口試時才開始起算考試,而是提早 時間進行考試,等於變相延長每位應考 人被詢問的口試時間。這種輔助作法即 是:要求每位應考人提早報到,並於報 到後,接受某種心理(人格、性向、或 其他特殊實作)測驗、自我優點轟炸撰 寫(類似自傳)、或問卷式訪談紀錄(即 問卷調查)一段時間(如30 分鐘至 1 小 時),而行政幕僚人員需要迅速將這些 資訊記錄摘要出來,以作為接續口試委

(18)

員詢問問題的參考資料。這樣一來,不 僅是在法規允許與實作因素考量下,變 相延長每位應考人的口試時間,不僅降 低應考人的緊張與疑慮,也同時增進口 試委員對應考人的瞭解程度,進而得以 做出更高品質的詢問,以及做出更精確 的評分決策。 六、嘗試創新口試方法方面 拜科技進步之賜,未來也許可以嘗 試引進電腦輔助口試方式,以降低口試 成本並減少人為的評分誤差;例如: 採行視訊口試方式、虛擬實境的操作演 練方式、或非面對面錄音口試評量方式 等。不過,這些創新作為都必須先經過 學術研究的評估後,才可考慮是否成為 一種口試的新選擇。

參考書目

王成基(2004)。加強公務人員考試口試功 能之研究。臺北市:考選部。 李登科、余民寧、林進忠(2011)。外交 領事人員國家考試與其核心職能之研 究。考試院考選部委託之專題研究案 結案報告,臺北市。 余民寧(1997)。有意義的學習:概念構圖 之研究。臺北市:商鼎。 余民寧(2009)。測驗等化對專技考試標準 設定之啟示。國家菁英, 5(4),15-33。 余民寧(2010a)。測驗建置流程及新概 念。載於國家教育研究院籌備處主編 「 測驗及評量專論文集─題庫建置與 測驗編製 」(第四章,80-99 頁)。臺 北市:國家教育研究院籌備處。 余民寧(2010b)。論國家考試試題是否應 該公布。人事行政月刊,173,9-19。 余民寧(2011)。教育測驗與評量—成就測 驗與教學評量(第三版)。臺北市:心 理。 余民寧、謝進昌、黃馨瑩(2010)。各國國 家考試試題公布之研究。考試院考選 部委託之專題研究案結案報告,臺北 市。 余民寧、謝進昌、林顯達、陳柏霖、許嘉 家、湯雅芬(2011)。國家考試集體口 試參考手冊(含集體口試範例光碟)。 考試院考選部委託之專題研究案結案 報告,臺北市。 呂秋萍(2004)。國中教師甄選口試決策 歷程之研究-- 以結構方程模式檢驗。 國立政治大學教育研究所碩士碩士論 文,未出版,臺北市。 考選部(2003)。國家考試口試參考手冊 告。臺北市:考選部。 考選部(2004)。考選研究系列 10—國家 考試口試技術研討會會議實錄。臺北 市:考選部。

(19)

專 題

考選部(2005)。國家考試口試制度檢討報 告。臺北市:考選部。 考選部(2006)。九十五年度考選制度研討 會—國家考試口試方法與技術研討會 會議實錄。臺北市:考選部。 考 選 部(2012)。考選法規彙編。臺北 市:考選部。 吳盈儒(2007)。從辯證觀點探討面談的矛 盾類型及管理策略: 以研究所入學口試 為例。世新大學口語傳播學研究所碩 士論文,未出版,臺北市。 吳復新(2000)。面談的問題及其改進之 道:兼評高考一級口試改革方案。空 大行政學報,10,27-67。 吳復新(2007)。國家考試口試方法技術 檢討與改進之研究。空大行政學報, 18,1-24。 林文銘(2004)。陸軍指職軍官甄選制度之 研究- 以情境口試建構為例。玄奘人 文社會學院公共事務管理學系碩士論 文,未出版,臺北市。 胡悅倫(2008)。結構化教師甄試口試之 初步調查。教育與心理研究,31(1), 65-96。 胡悅倫、余民寧(2009)。中學教師甄選口 試題目圖像及其教育理念之研究。教 育與心理研究,32(1),29-56。 胡悅倫、陳世芬、呂秋萍(2008)。教師 甄選面試結構化問卷之編制。測驗學 刊,55(1),185-212。 胡悅倫、陳世芬、莊俊儒、楊念湘、洪雅 琪(2010)。國家考試口試參考手冊。 臺北市:考選部。 胡悅倫、陳皎眉、洪光宗(2009)。國家 考試口試之命題與評分。國家菁英, 5(4),35-56。 陳鈺如(2008)。如何在一場學術戰爭中 生存:博士學位論文口試的言談策略 分析。元智大學應用外語學系碩士論 文,未出版,桃園縣。 陳淑慧(2005)。在低結構化口試情境下 應試者人格特質與口試結果之關係 --從五大人格、自我監控、自我效能談 起。國立政治大學學校行政碩士在職 專班碩士論文,未出版,臺北市。 彭錦鵬(2009)。考選制度的觀念革新:以 簡併考試類科及考試及格人員地方歷 練為例。國家菁英,5(1),49-67。 彭錦鵬(2010)。公務人員考選制度的變 革與未來展望。國家菁英, 6(1),17-40。 鄭學隆(2006)。面對面英語口試和視訊 英語口試的差異研究--- 以國中三年級 學生為研究對象。國立交通大學理學 院碩士在職專班網路學習學程碩士論 文,未出版,新竹市。

Arthur, D. (2005). Recruiting, interviewing, selecting & orienting new employ-ees (4th ed.). New York: AMACOM. Bunting, S. (2007). The interviewer’s

hand-book. London: Kogan Page.

Campion, M. A., Palmer, D. K., & Campi-on, J. E. (1997). A review of structure in the selection interview. Personnel

(20)

Psychology, 50, 655-702.

DeGroot, T., & Kluemper, D. (2007). Evi-dence of predictive and incremental validity of personality factors, vocal attractiveness and the situational in-terview. International Journal of Se-lection and Assessment, 15, 30-39. Dipboye, R. L. (1994). Structured and

un-structured selection interviews: Be-yond the job-fit model. In G. R. Ferris (ED.), Research in personnel and human resources management, Vol.12 (pp.79-123). Greenwich, CT: JAI Press.

Dipboye, R. L. (2005). The selection/re-cruitment interview: Core processes and contexts. In A. Evers, N. R. Ander-son, & O. F. Smit-Voskuijl (Eds.), The Blackwell handbook of personnel selection (pp. 121-142). Malden, MA: Blackwell.

Dixon, M., Wang, S., Calvin, J., Dineen, B., & Tomlinson, E. (2002). The panel interview: A review of empirical re-search and guidelines for practice. Public Personnel Management, 31(3), 397-428.

Farrokhi, F. & Esfandiari, R. (2011). A ma-ny-facet Rasch model to detect halo effect in three types of raters. Theory and Practice in Language Studies, 1(11), 1531-1540.

Huffcutt, A. I. (2011). An empirical review of the employment interview con-struct literature. International Journal of Selection and Assessment, 19(1), 62-81.

Huffcutt, A. I., & Arthur, W. Jr. (1994). Hunter and Hunter(1984) revisited: Interview validity for entry-level jobs. Journal of Applied Psychology, 79, 184-190.

Huffcutt, A. I., Conway, J. M., Roth, P. L., & Stone, N. J. (2001). Identification and meta-analytic assessment of psychological constructs measured in employment interviews. Journal of Applied Psychology, 86, 897-913. Levashina, J., & Campion, M. A. (2007).

Measuring faking in the employment interview: Development and valida-tion of an interview faking behavior scale. Journal of Applied Psychology, 92, 1638-1656.

Marchese, M. C., & Muchinsky, P. M. (1993). The validity of the employ-ment interviews: A meta-analysis. In-ternational Journal of Selection and Assessment, 1, 18-26.

McDaniel, M. A., Whetzel, D. L., Schmidt, F. L., & Maurer, S. (1994). The validity of employment interviews: A compre-hensive review and meta-analysis. Journal of Applied Psychology, 79,

(21)

專 題

599-616.

O’Brien, J. & Rothstein, M. G. (2011). Leni-ency: Hidden threat to large-scale, interview-based selection systems. Military Psychology, 23, 601–615. Perie, M. (2008). A guide to

understand-ing and developunderstand-ing performance level descriptors. Educational Mea-surement: Issues and Practice, 27(4), 15-29.

Popham, W. J. (2008). Classroom assess-ment: What teachers need to know (5 ed.). Boston, MA: Pearson.

Sears, G., & Rowe, P. (2003). A personality-based similar-to-me effect in the employment interview: Conscien-tiousness, affect-versus compe-tence-mediated interpretations, and the role of job relevance. Canadian Journal of Behavioural Science, 35(1), 13-24.

Taylor, P. J., & O’Driscoll, M. P. (1995). Structured employment interviewing. England: Gower Publishing.

Taylor, P. J., & Small, B. (2002). Asking ap-plicants what they would do versus what they did do: A meta-analytic comparison of situational and past behavior employment interview questions. Journal of Occupational and Organizational Psychology, 75, 277-294.

Thorburna, M., & Collins, D. (2006). Ac-curacy and authenticity of oral and written assessments in high-stakes school examinations. The Curriculum Journal, 17(1), 3-25.

Touchie, C., Humphrey-Murto, S., Ainslie, M., Myers, K., & Wood, T. J. (2010). Two models of raters in a structured oral examination: Does it make a dif-ference? Advanced Health Science Education, 15, 97-108.

Tsai, W. C., Huang, T. C., & Yu, H. H. (2012). Investigating the unique predictabil-ity and boundary conditions of ap-plicant physical attractiveness and non-verbal behaviours on interviewer evaluations in job interviews. Journal of Occupational and Organizational Psychology, 85, 60-79.

Voskuijl, O. F. (2005). Job analysis: Current and future perspectives. In A. Evers, N. Anderson, & O. Voskuijl (Eds.). Hand-book of Personnel Selection (pp.27-46). New York: Blackwell Publishing.

參考文獻

相關文件

In order to apply for a permit to employ Class B Foreign Worker(s), an Employer shall provide reasonable employment terms and register for such employment demands with local

Should an employer find it necessary to continue the employment of the Class A Foreign Worker(s), the employer shall, within four (4) months prior to the expiration of the

You are given the wavelength and total energy of a light pulse and asked to find the number of photons it

Reading Task 6: Genre Structure and Language Features. • Now let’s look at how language features (e.g. sentence patterns) are connected to the structure

好了既然 Z[x] 中的 ideal 不一定是 principle ideal 那麼我們就不能學 Proposition 7.2.11 的方法得到 Z[x] 中的 irreducible element 就是 prime element 了..

Wang, Solving pseudomonotone variational inequalities and pseudocon- vex optimization problems using the projection neural network, IEEE Transactions on Neural Networks 17

Hope theory: A member of the positive psychology family. Lopez (Eds.), Handbook of positive

volume suppressed mass: (TeV) 2 /M P ∼ 10 −4 eV → mm range can be experimentally tested for any number of extra dimensions - Light U(1) gauge bosons: no derivative couplings. =>