口試在國家考試應用之再檢討與改進

(1)

專題

* _{國立政治大學教育學系特聘教授（Distinguished Professor, Department of Education, National}

Chengchi University）

口試在國家考試應用之再檢討

與改進

摘要

本文的目的，旨在重新評估與檢討當前口試在國家考試中應用的現況，經過方法學的介紹、文獻評閱、與相關法條的檢視後，反思當前口試的作法還有哪些亟待改進的地方，最後，作者並提出改進的具體建議。關鍵詞：口試、國家考試、口試評量訓練

余民寧

*

(2)

Abstract

The purpose of this article is to re-exam and assess the current status of oral exam on the application of National Official Examination. By the introduction to the oral assess-ment methodologies, literature reviews, and examination of legislative regulations, this article re-assesses the possibilities of improvement of oral exam on the usage in National Official Examination. Finally, several concrete suggestions for improvement in oral exam are also proposed.

Keywords: oral exam, National Official Examination, oral assessment training

Min-Ning Yu

Re-examination and

improvement of oral exam on the

application of National Official

Examination.

(3)

專題

口試（_{oral exam）或口試評量（oral} assessment），歸屬於實作評量（perfor-mance assessment）的一種，它有別於大眾所熟悉的傳統紙筆測驗，作為一種評量應考人學習成就或實際能力表現的替代方法，已在學校的教學評量、升學考試、就業考試，乃至國家考試中，已被廣泛使用多年。近年來，在「多元評量」觀念興起後，有愈來愈受到重視的趨勢（余民寧，_{2011；胡悅倫，2008；} 胡悅倫、陳世芬、呂秋萍，_2008；彭錦鵬，_{2009，2010；Bunting, 2007;} Po-pham, 2008）。過去，口試評量常因為評分者（即口試委員）的主觀因素（如：口試委員個人的偏見與意識型態、口試委員對應考人持有先入為主的月暈效應與類我效應、口試委員沒有問到重點問題、口試委員天馬行空詢問一堆與考試目標無關的問題、口試委員詢問應考人個人隱私或敏感的問題等）、口試流程的客觀因素限制（如：口試時間過短、口試問的問題數偏少、口試問的問題沒有經過標準化設計、口試場地與情境的限制、口試評分沒有規準化等）、以及其他干擾因素的影響（如：口試成本支出高而無法經常舉行、應考人的回答偽裝與作假、口試委員沒有經過訓練等），致口試評量結果的信度偏低，遭人質疑其實施的公信力，而重傷口試評量作為一種實作評量方法的效用（吳復新，_2000， 2007）。但是，口試評量具有可同時評估應考人在許多面向上表現的資料等優點（如：表情儀態、情意態度、心理動作技能、認知能力、組織與邏輯能力、口語表達能力、溝通技巧、音色與音量大小、發音正確性與說話速度、甚至是部分人格特質等），這些優點讓口試評量逐漸成為一種在紙筆測驗外，還能兼顧收集應考人在其他能力向度表現的參考資料，以提供評分者充分的資訊，做出一個審慎、客觀、而又正確的判斷。這是口試評量在多元評量觀念盛行後，會逐漸受到重視的原因所在。口試評量是用來評估應考人專業知識的一種評量方式。它之所以日漸備受歡迎且廣為施行採用的原因，即在於它是用來判斷應考人所回應的專業內容，是否真的為應考人真實所擁有的首選方式。在口試評量的歷程中，我們可以清晰地觀察到應考人是否真實擁有我們所期待的專業能力，此外，透過真實的互動討論情境，能讓應考人在正向積極的評量氛圍中完成任務、展現自我所擁有的專業知能（_{Thorburna & Collins,} 2006）。因此，現在的口試評量如果作為一種高風險測驗與評量（_high-stake testing and assessment）方法，則測驗與評量學術領域的專家們就會要求口試評量也要有自己的「標準作業流程」（_{standard operation process, SOP）；也就}

(4)

不僅要事先周詳規劃，也要遵守類似於測驗編製與題庫建置的標準化流程（余民寧，_{2010a），做到在內容、程序、與} 評分上都必須遵守一套標準化的處理方式（余民寧，_{2011；余民寧、謝進昌、} 林顯達、陳柏霖、許嘉家、湯雅芬， 2011；胡悅倫、陳世芬、莊俊儒、楊念湘、洪雅琪，_{2010；胡悅倫、陳皎眉、}

洪光宗，_{2009；Dixon, Wang, Calvin,} Dineen, & Tomlinson, 2002）。

下列所述，即針對口試評量的近代方法學作法進行概述，再將它應用到當前的國家考試，並對當前國家考試應用口試評量的現況作法做一評估，再針對評估結果提出改進建議事項。

壹

　口試評量方法學概述

當代的口試評量，都是使用所謂的「結構化口試（_{structured oral} exam）」方法（呂秋萍，2004；林文銘，_{2004；胡悅倫，2008；陳淑慧，} 2005；Arthur, 2005; Campion, Palmer, & Campion, 1997; Dipboye, 1994; Taylor & O’Driscoll, 1995）。簡單的說，這種方法就是要求口試必須做到下列三項標準：_{(1) 在內容上，口試的題目必須事} 先擬定，題目必須具有鑑別力；_{(2) 在} 程序上，口試前、口試進行中、及口試後的種種作業流程與實施細節都必須標準化；_{(3) 在評分上，口試委員必須事} 先經過訓練，根據事先擬定的問題來詢問，並且根據應考人的實際回答來與事先設定的評分標準做比較後，予以公正、客觀、一致地評分（吳復新， 2007）。換句話說，即是要一致性、標準化地處理下列十五項議題（胡悅倫，

2008；Campion, Palmer, & Campion, 1997）： 1. 口試問題的擬定。 2. 每一位應考人均被詢問到相同的問題。 3. 即興問題與後續追問的處理。 4. 問題的形式與內容。 5. 口試的時間與問題題數。 6. 輔助訊息的控制。 7. 應考人的發問時機。 8. 立即評分或總結性評分。 9. 定錨量表（anchor rating）的使用。 10. 筆記的運用。 11. 多重的口試方式。 12. 應考人都能接受相同口試委員的詢問。 13. 口試間口試委員的問題討論。 14. 口試訓練。 15. 事先擬定計分標準與方式。

(5)

專題

一般而言，欲有效實施一場結構化的口試評量，往往需要考量許多因素，例如：時間、人力、物力、成本、各種資源的支援、承辦單位的想法與意願等。而大多數的學者專家們，都會一致地同意下列程序是其標準化流程：一、職能分析（_{job analysis）} 職能分析係指針對某工作領域的專家學者們，使用問卷調查、專家座談、焦點訪談，甚至是德懷術（_Delphi technique）、結構化概念形成法（struc-tured conceptualization method）（余民寧，_{1997；胡悅倫、余民寧，2009；} Voskuijl, 2005）等技術或方法，分析特定工作的重要細節與相關細項，使能對工作內容有一定階層綱目的瞭解，以便列舉達成這些工作細目所需具備的核心能力為何。口試委員能藉由職能分析結果，進一步擬定與發展出口試問題形式與內容，以諮詢問應考人，並由應考人回答這些問題所做出的反應、能力表現與特質行為，以利口試委員做出正確的評分與決策，達到選才的目的。通常，職能分析必須在舉行口試之前，即已完成結果分析，並列舉出該工作領域的核心能力細項，以便作為口試委員擬題的參考。二、口試問題的擬定在職能分析確立重要的核心職能與評估細項後，緊接著就是由口試委員針對此分析結果擬定、改寫、創造、並轉化成具體的問答句。口試委員可朝六大方向來詢問問題（_{Campion, Palmer, &} Campion, 1997）： 1. 情境式口試問題（situational inter-view）。即針對「某個特定情境下的行為反應為何」來發問問題。 2. 過去行為式口試問題（behavioral interview）。即針對「過去某件事件發生時，應考人當時的行為和行為結果為何」來發問問題，又可分成兩類問題來提問：最佳表現（_{maximum performance）與典型表} 現（_{typical performance）的問題。} 3. 背景式口試問題（context inter-view）。即針對「某事件發生的背景原因或條件，應考人是否有所認知或瞭解為何」來發問問題。 4. 與工作知識有關的口試問題（_{knowledge-related interview）。即} 針對「某件工作的相關知識，應考人是否得知或瞭解程度為何」來發問問題。 5. 真實工作的模擬口試問題（simu-lated interview）。即針對「某件假想事件若發生，應考人會如何因應或反應為何」來發問問題。 6. 心理特質的口試問題（psychologi-cal properties interview）。即針對「執行某件工作時，應考人所需具

(6)

備的心理特質或行為傾向為何」來發問問題。此外，考選單位也可以從過去詢問過的口試題目庫來抽題準備，並經由改寫、仿作、創新或修飾等步驟，來重擬一道新的口試題目。當然，有系統地蒐集並建立口試題庫（_{oral exam item} banks），並針對題庫內容做分析歸類，也是未來針對口試評量研究改進很重要的努力方向。三、定錨評量定錨量表（_{anchor rating）的建立，} 即是在建立評分規準（_{scoring rubrics）} 或評分量尺（_{scoring scale）；它的目的} 即是希望未來每一位口試委員在評定應考人的回答時，都能有一套具體的定錨試題（_{anchor items）可作為評分的參} 考，並針對高低得分者各應該符合哪些表現條件或程度，都有一個明確的界定和說明，才能使得口試委員根據此一定錨試題，得到具體精確的評分依據，以減少評分者間誤差，提高評分者間的評分信度（_{Perie, 2008; Taylor & Small,} 2002）。一般而言，可以作為「定錨評量」用的定錨試題，通常可以粗分成四類（胡悅倫、陳皎眉、洪光宗，_2009）： 1. 範例式答案（example answer）。即具有明確答案可供評分參考的例子，或應考人可以明確回答的實際例子。 2. 對答案的敘述（description）或定義（_{definition）。即口試委員可針對欲} 探知或瞭解之概念的描述或定義方式來詢問的例子。 3. 對答案的評價（evaluation）。即應考人的答案內容可以明顯分成優、良、可、劣等不同等級的例子。 4. 比較式的答案（comparative an-swer）。即可將所有答案歸類成前 30％、中 40％、或後 30％等不同類型或程度評分的例子。在實務應用上，口試委員通常需要綜合及交互使用上述各種定錨評量方式，而成為「多元定錨評量」方式；其次，也可以是僅使用量尺化的範例（_{scaled example）或描述式答案的量尺} 化評量，而成為「單一類型的定錨評量」方式；當然，也可以只是使用數字或形容詞來為定錨試題進行描述，而成為「非定錨式評量」方式；或者，不使用任何「數量」的語詞評斷，而只使用一些摘要、相對性的評語，或團體討論方式等，以作為評定成績等第的「一般或傳統評量」方式。四、口試評量訓練這是關乎口試評量實施成敗的核心程序所在。訓練口試委員去執行一場公平、公正、客觀的口試評量，就像在發展一套標準化成就測驗去評量學生的學

(7)

專題

習成就一樣的重要。口試委員的口試評量訓練目的，即是在確保所有口試委員都能使用同一套標準去對待每一位應考人，並且給於同等公平、公正、客觀的評分。在這種評分過程標準化之下，應考人的口試成績評定結果，才會具有理想的信度和效度可言。在實務的口試評量訓練作法上，通常需要訓練全體口試委員達到下列的評分共識為止（余民寧、謝進昌、林顯達、陳柏霖、許嘉家、湯雅芬， 2011；胡悅倫、陳世芬、莊俊儒、楊念湘、洪雅琪，_2010）： 1. 確定想要詢問的口試問題總數，並且要求每位口試委員都詢問相同的問題。 2. 先針對某一題問題的模擬回答答案，並根據定錨試題的評分量尺或等級標準進行各自評分。 3. 針對上述評分結果提出各別給分的理由說明，並且進行交互討論與辯論，以謀求評分標準的共識。 4. 再次針對另一題問題的模擬回答答案，並根據剛才的共識，再次進行各自評分。 5. 重複上述第 3 至 4 步驟，直到各自評分結果間未達顯著差異為止。經過訓練達到評分共識標準後，口試委員即可開始展開一場口試評量。因此，經過這種標準化的訓練程序，可以提升口試評量的結構性程度，讓評分標準達成一致性，進而達到提昇口試評量效度的目的。此外，在口試訓練的過程中，也必須確實要求口試委員做到應該遵守的工作事項，包括：_{(1) 口試委員應遵守結} 構化口試的標準化流程，_{(2) 口試委員} 應表現專業且適當的態度，_{(3) 預先命} 題及適時提問，_{(4) 每位應考人被詢問} 的問題數應均等，_{(5) 每位應考人獲得} 延伸詢問問題的機會應均等，_{(6) 盡量} 給予每位應考人立即且多次的問題， (7) 秉公、獨立、客觀評分，及 (8) 善用筆記，協助評分。同時，也有一些規定是必須要求口試委員應該要避免的事項，包括：_{(1) 避免負面的想法與態} 度，_{(2) 避免過早下定論及受無關干擾} 因素（如：類我效應）的影響，_{(3) 避免} 詢問與工作無關的問題，_{(4) 避免詢問} 隱含答案的問題，_{(5) 避免牽涉假設性} 道德之問題，_{(6) 避免牽涉性別、族群} 等背景之不公平的問題，及_{(7) 避免比} 較應考人之間有關性別、族群等背景之不公平的問題。上述四大步驟，即是有效實施口試評量的「標準作業流程」。凡是經過此道嚴謹程序所實施的口試評量，均能大幅提高口試評量效度至_{.35 到} .62 之間（Campion, Palmer, & Campion, 1997; Huffcutt & Arthur, 1994; Marchese & Muchinsky, 1993; McDaniel, Whetzel, Schmidt, & Maurer, 1994）。這也是口試

(8)

評量為什麼必須要嚴守「標準作業流程」的原因所在，其重要性自是不言可喻。

貳

　口試評量相關文獻回顧的啟示

口試評量素來自有其重要性及價值性，學者們陸續投入心力作研究，以企圖全面瞭解影響口試評量的信效度及相關面向的因素。近十年來，隨著時代的進步，口試方法日新月異，尤其是電腦科技的視訊技術，有逐漸取代傳統面對面的口試方法之勢，而以國外的大學或研究所入學考試最常使用電腦視訊口試為最，除了能瞭解學生的外語能力與表達溝通外，也能藉此廣納國際學生，不失為未來可以採取口試的方法之一。例如，鄭學隆（_{2006）即採用實驗法，探討 63 位臺北} 縣地區國中學生接受傳統面對面與電腦視訊的英語口試方式，對學業成就表現的差異表現，結果發現電腦視訊相較於傳統面對面的英語口試方式，男學生比女學生好、平均分數會增加、緊張度降低等，所以未來可以思考透過電腦視訊進行口試，以減少人力、空間和時間，增加效率。有些研究主要探討口試委員與應考人的互動過程，可知不同文化環境、口試委員的身份與應考人的背景等，均會使口試互動過程中，產生微妙的變化。例如，陳鈺如（_{2008）探討臺灣與美國} 的兩組口試委員如何在問答時段中提問，以及不同語言背景的博士候選人如何回應口試委員提出的意見問題。研究結果發現，三方的參與者（即口試委員，指導教授及博士候選人）似乎因為文化和語言背景的差異，而採取了一些不同的言談策略；首先，美國的口試委員傾向以與候選人討論的口吻進行，而台灣的口試委員則偏向直接給予批評或提供看法；再者，美國和台灣的候選人相比，前者回應及答辯較積極；最後，美國的指導教授類似其他口試委員，以針對論文提問為主，而台灣的老師則傾向針對論文回應其他口試委員。吳盈儒（_{2007）依據「關係辯證觀} 點」，探討在口試活動中，以深度訪談二十名參加研究所入學口試並順利錄取的學生，發現「親密性」矛盾主要發生在非本科系的應考人，將採用「整合」、「避重就輕」策略；「確定性」矛盾主要出現在本科系的應考人，將採用「重新定義」策略；至於「開放性」矛盾則與應考人的背景無關，主要是因為應考人在口試過程中，面臨了「隱瞞

(9)

專題

事實」或「誠實揭露」的兩難，將採用「第三人的觀點」或是「未來的改進方向」，以作為一種回答的策略。由此可見，在未來的口試過程中，比較不同文化差異、針對不同口試委員身份增加訓練、以及因應不同應考人提供管道諮詢等，都是未來可以努力的方向。影響口試評量信效度的因素，常常都是多元面向的，「口試評分」的歷程即是其中之一。_{Huffcutt（2011）即回顧} 過去多篇研究，綜合提出一個影響口試評分的相關因素概念圖，如圖_{1 所示。} 該學者指出，影響口試委員評分的相關因素，主要可分為三個層面：與工作相關的口試內容（如：該工作專業知識）、應考人的表現（如：應考人印象管理策略）、個人或人口統計學上的特徵（如：應考人的外表吸引力）。舉例來說，應考人的表現（如：印象管理）會影響到口試委員的評分客觀性。過去，學者曾發現到應考人表現出印象管理戰術，的確可以影響口試委員的評分；例如，_{Levashina 與} Campion（2007）的研究即發現：印象管理策略中的自我導向與非語言印象管理，確實會影響到口試委員的決策及評分。此外，研究亦指出，應考人的一些非語言表現，也會影響口試委員的評分高低；如果，應考人表現出傾聽者（_{listener）、輪流發言者（turn-taker）的} 特質，則口試委員在評分上會給予較高的分數。換言之，應考人可以藉由一些非語言的表現及特質，來彌補自我在專業能力內容回答上的不足，而獲得較高的口試分數，影響口試委員給予正向決策（_{DeGroot & Kluemper, 2007;} Huff-cutt, Conway, Roth, & Stone, 2001）。

再者，口試委員對個人或人口統計學上的特徵偏好（如：應考人的外表吸引力、性別、種族、背景），亦可能影響其口試評量分數的客觀性。個人或人口統計學上的特徵，往往在專業能力的考量上是不具影響力的，也通常不會被納入評分的客觀準則之中。但是，口試委員的個人偏好卻使其在評分、決策的過程中，受其影響而產生了主觀意義。社會學相關理論指出，人們對於與自己內在或外在特質相似的他人，較容易產生好感（即類我效應（_{similar-to-me} ef-fect））。由此推論，口試委員給予與自己特質相似（如：同性別）的應考人之評分，將會高於與自己特質不相似（如：不同性別）的應考人。因此，評分者效應（_{rater effects）的問題，確實存在} 於口試評分當中，應該值得重視與研究（_{Farrokhi & Esfandiari, 2011; O}’Brien & Rothstein, 2011; Sears & Rowe, 2003; Touchie, Humphrey-Murto, Ainslie, My-ers, & Wood, 2010; Tsai, Huang, & Yu, 2012）。

(10)

此外，口試委員在進行口試時，必須注意自己的語氣及行為表現，這都有可能影響到應考人的回應與表現。「口試」的歷程，是口試委員與應考人彼此互動的過程，但在這個互動的歷程中，口試進行方向的主導者是口試委員。口試委員依據自己在該領域所累積的專業知能，引導應考人回答核心的專業問題（_{Dipboye, 2005; Thorburna &} Col-lins, 2006）。因此，口試委員在口試面談中，擔任主導者的角色；而應考人則通常抱持著緊張不安的心情進入口試場域。在口試的過程中，口試委員通常會給予應考人一些提示，然而給予提示的語氣及態度，即可能明顯地影響整個口試評量的氛圍。舉例來說，如果口試委員的語氣不佳時，即可能將「面試」的氛圍轉變為「審問」的狀態，進而負向影響到應考人的表現、無法有效表現自我的真實實力。所以，口試委員在進行口試評量時，建議在非語言的態度上，表現出對於應考人感到興趣，並且適度給予提示，將有效降低其焦慮感。在筆試的歷程中，應考人可以先將不熟悉、一時不知該如何作答的題目先放著，等會兒再回頭來作答（_{leave and go back）。但是} 在口試評量的歷程中，應考人卻無法採用此種方式作答；因此，應考人在進行口試時，建議以和藹、適度給予提示等圖一　影響口試評分的相關因素模式圖註：圖中的曲線表示應考人的一般特質及經驗背景因素，會同時影響到其核心工作特質及其在口試的表現。

JOB-RELATED INTERVIEW CONTENT INTERVIEWEE PERFORMANCE General Traits

Mental ability Personality Interests, goals, & values

Social Effectiveness Skills Social influence behaviors Interpersonal presentation

Experiential Factors Experience Education Training

Core Job Elements Declarative knowledge Procedural skills & abilities

Motivation

INTERVIEW RATINGS

PERSONAL / DEMOGRAPHIC CHARACTERISTICS

Personal / Contextual Factors Interview training & experience Interview self-efficacy Interview motivation

Attractiveness Race & gender

Background & attitudinal similarity Cultural background and/or setting

(11)

專題

方式來對於應考人進行提問（_Thorburna & Collins, 2006），使應考人能將自己的真實實力作最大的表現，進而有效提升口試評量的信效度。

參

　口試在當前國家考試應用的現況

過去，即有多位學者專家們針對國家考試方法的檢討與改進，提出許多建議與改進事項（王成基，_2004；吳復新，_{2000，2007；彭錦鵬，2009，} 2010），就僅以口試評量面向而言，這些事項計有：國家考試宜增加口試的實施、口試委員難招募、應以工作分析為口試基礎、使用行為定錨評等尺度法（_{BARS）、進行訓練主試者、應以行} 為的及工作知識為主的問題作為發問問題、個別口試與集體口試的評量項目的描述過於籠統等，可說是琳瑯滿目。之後，考選部為此舉辦多次的口試方法技術研討會，進行相關考選方法與技術的精進與改良（考選部，_2004， 2005，2006），至今，諸多有關考選法規已日趨完備（考選部，_{2012）。以} 「口試規則」為例，從民國_{89 年制訂公} 布至今，歷經民國_{91 年的修訂，民國} 101 年的再次修訂，如今已是國家考試非常完備的口試辦法的依據。依據「口試規則」第_{2 條條文的規} 定，現行國家考試的口試方式分成下列三種：_{(1) 個別口試：指個別應考人回} 答口試委員之問題，藉以評量其儀態、溝通能力、人格特質、才識、應變能力；_{(2) 集體口試：指二位以上之應考} 人分別回答口試委員之問題，藉以評量其儀態、溝通能力、人格特質、才識、應變能力；_{(3) 團體討論：指五位以上} 之應考人輪流擔任主持人，藉以評量其主持會議能力、口語表達能力、組織與分析能力、親和力與感受性、決斷力、及參與討論時之影響力、分析能力、團體適應能力、壓力忍受力、積極性。第_{3 條條文規定，個別口試、集體口試} 每組口試委員以二至五人，團體討論每組口試委員以三至五人為原則。此外，其他相關條文亦分別將口試的評分項目及配分、口試委員會前會議、口試進行方式、口試時間、問與答順序、評分標準、計算評分成績方式、相關人員之親等迴避、及保密措施等，詳實地在法條裡進行明確規定，可說是已將口試評量的標準作業程序法規化，成為一套完備的結構化口試評量準則。同時，針對個別口試、集體口試、及團體討論的評分方式，「口試規則」亦提出兩類評分表的參考附表及一種應考人書面報告參考附表，以供口試委員作為評分的依據與

(12)

規準。在實務作法上，「口試規則」係從多年來的努力修訂過程，而逐漸日趨完備的。舉例來說，近年來，考選部除了舉辦多次的口試方法技術研討會外，亦增加針對國家考試試題是否應該公布的議題（余民寧，_{2010b；余民寧、謝進} 昌、黃馨瑩，_{2010）及專技人員考試的} 職能分析（李登科、余民寧、林進忠， 2011）等涉及口試評量的基礎核心問題進行委託研究，同時，也針對相關的口試應該有哪些具體作法而委託學者專家們進行研究，共計完成個別口試參考手冊（考選部，_{2003；胡悅倫、陳世芬、} 莊俊儒、楊念湘、洪雅琪，_{2010）與集} 體口試參考手冊（余民寧、謝進昌、林顯達、陳柏霖、許嘉家、湯雅芬， 2011）各一份，可作為爾後每年新聘口試委員進行口試評量訓練時的參考之用。此外，考選部為使口試結構化，部分考試突破以往常規辦理之口試模式，均已採行創新改進措施，如：召開口試技術座談會、入圍繕製試題、增加口試委員人數、以減少因少數口試委員主觀評分因素，及使評分標準趨於客觀性與一致性，儘量使口試的內容與流程標準化等。這些努力與改進使「口試規則」逐漸落實口試評量方法學所應有的標準化作業流程，使當前國家考試的口試方法，能夠達到提昇口試評量信度與效度的目的。現在，回頭檢視當前口試評量的作法現況，這些過去曾提出的寶貴建議事項，均已在民國_{101 年再修訂後的「口} 試規則」裡，具體載明，並已在考選部每年舉辦的國家考試裡，確實地逐步、逐考科、逐年採行實施中。從上述幾項研究委託案與口試參考手冊的完成，均已證實口試評量的理想，已逐漸在國家考試的應用裡，逐步踏實。

肆

　口試在國家考試應用的再檢討

然而，檢視近年來國家考試的「口試規則」實施結果，筆者發現仍有幾項工作可以有再改善的空間。茲舉絡絡幾項大者如下： 1. 口試委員的遴聘問題：雖然「口試規則」第_{4 條條文規定，口試委員} 的遴聘，除由該項考試之典（主）試委員擔任外，必要時得另就相關用人機關、請辦考試機關、職業（目的事業）主管機關簡任級以上公務人員或有關團體富有研究經驗者或專家學者遴聘之，並得視需要遴聘預備口試委員若干人。但在實務作法上，不同官科職種有不同

(13)

專題

的學科專業性質與特殊人才的考量需求，「遴聘」或「不遴聘」非本科專業人員加入口試委員團的組成（如：司法官或外交領事人員口試委員中加入遴聘心理學家或測驗專家等組成），都各有其優劣點存在。關於這一項遴聘問題，可能需要未來透過逐科的職能分析、相關人員的訪談、相關人員的試作評分、再進行統計調查研究分析數據後，才能判定「遴聘非本科專業人員加入口試委員團」的利弊得失，最後做出「聘或不聘」的決策。 2. 口試評分訓練的時數不足：由於每年報名參加口試的公務人員考試及專技人員考試應應考人及官科職種很多，在實務上，考選單位很難招募到足夠數量的口試委員，因此，往往需要採行分組或分梯次口試進行。雖然，這種作法也是「口試規則」第_{7 條條文規定所許可的。然} 而，分組或分梯次的組數或梯次數愈多，各組或各梯次口試委員評分結果的組間差距與組內差距就有可能愈大（這一點可由各組評分結果的平均數與變異數大小看出）；此時，光是靠舉行口試前的預備會議是不夠的，口試委員們需要更長時間（如：半天、一整天、甚或數天）的口試評分訓練才行，才能建立起口試委員們都有一致的評分標準與共識，才能克服評分者間差異的評分懸殊問題，才能進一步運用類似測驗等化技術（余民寧，_2009）來調節及校正組間與組內的評分差距，以建立起真正的評分一致性。 3. 口試題目庫的建立不足：由於每年均會舉行口試，每年外聘的口試委員不一定都是同一批人選，難免會有新手加入。而考選單位每每會要求口試委員每年都不能詢問一樣的問題時，致使預先所擬詢問的問題，難免會有江郎才盡之憾。因此，各考科亟需於平時即有系統地收集與建立口試問題的題目庫（_{item bank），才能滿足這項口試問} 題支出的需求。如果考選單位能有一個常設部門或工作小組，專職於此一口試問題的收集與建立工作，則口試題目庫不足的問題，即可逐漸迎刃而解。 4. 口試時間不夠長：雖然，「口試規則」第_{7 條條文規定，個別口試每} 一應考人口試時間二十至九十分鐘，集體口試每組口試時間一至二小時，團體討論每組口試時間二至四小時。就以實際比較常舉行的個別口試而言，有時會因為口試成本與口試人數的考量，每一應考人的口試時間就真的只能有二十分鐘，然而，光憑二十分鐘簡短時間的回答，就要求口試委員據以做出一個

(14)

正確的評分判斷，其實，這項作法會造成評分誤差的風險是蠻大的。如果可能的話，延長口試時間是可以改善此評分風險的可行作法之一；其次，即是同步配合增加口試委員人數和問問題的題數，也可以有補強的效果出現。當然，成本、時間、人力、物力等資源的支出，也需要考慮在內；因此，在眾多因素的考量下，只能追求平衡的思維與佈局而已。 5. 口試規準可再分科細緻化一些：由於「口試規則」第_{5 條條文對評分} 項目與配分的規定，只是大方向、原則性、籠統性的規定，無法滿足適用到每一個不同官科職種考科的口試評分上。因此，考選單位應該繼續執行各官科職種的職能分析工作外，更需要逐年建立起分科的口試評分項目、各評分等級的表現水準描述（_{performance level} descrip-tion, PLD）、各評分細項及其配分多寡等制訂工作項目，以建立起客觀的口試評分規準，供作每位口試委員的評分參考依據。 6. 口試評分分數的差距可以再加大：由於「口試規則」第_{5 條條文} 對評分項目與配分的規定，都已經把評分分數定死了，「六十分」通常都是作為一個分界的門檻分數，如「口試規則」的第_{9條與第10條} 條文的規定。在這種情況下，應考人的總成績不包含口試成績在內，口試成績未達六十分者，亦不予錄取，此時，口試成績便具有「門檻」的篩選標準，顯現口試成績係決定最後錄取與否的先備條件之一，這將會使口試考試大幅度受到重視。但是，若總成績係由口試成績與其他成績（如：筆試或實作成績）所組成時，此時，口試成績占總成績的比重如果沒有超過三成或四成以上的話，則會造成口試成績對總成績影響力薄弱的情形，致使應應考人不重視口試時的表現，或即使口試委員努力評選潛在優秀的人才，卻沒有發揮太多實質影響決策（錄取與否）的效用存在等現象。因此，各評分細項的評分，宜允許口試委員加大其間的評分差距，以避免評分趨中，而終至評分成績無法發揮區辨應考人表現優劣的篩選效用。至於，口試要不要作為最後錄取應應考人與否的「門檻」條件，可以看看它在實務上的需求與效用，再做出實質上的決定。 7. 盡量減少評分者效應的影響：無可諱言的，即使確實做到遵守口試評量的「標準作業流程」，要做到全面遏止評分者效應對口試評分的不良影響，仍然是不太容易的事。但

(15)

專題

是，我們可以逐漸透過學術研究的瞭解，找出到底有哪些可能產生影響的因素來，然後在未來的口試評分訓練中，將這些因素納入訓練的課程範圍裡，並且在未來進行口試的歷程中，設法將這些干擾因素平衡掉或排除掉，以降低評分者效應的不良影響到最小的程度。

伍

　口試在國家考試應用的改進建議

檢視上述評論，「口試規則」歷經屢次的修訂，即是反應出口試評量在國家考試應用的重要性及受重視的程度，以及作為考試評量方法成長改進的最佳典範。為了更加精進「口試規則」的落實，我們還是有需要回溯到最基本的起點，看看我們是否已經確實落實口試評量的標準作業流程（_SOP）。以下幾項建議，即是要確立最基礎的口試評量標準作業流程是否已經做到，並且展望未來可行的創新作為。一、職能分析方面口試評量的根本，還是必須追溯到最原始的「職能分析」部分。當今，無論是公務人員考試或專技人員的考試，都尚未完成所有官科職種用人所需的職能分析工作。因此，想要以同一份口試評量策略，即套用到所有官科職種的口試工作上，無疑是一件不可能的任務，也難免會遭遇漏洞百出的窘境。所以，當務之急，還是需要優先逐步完成各官科職種的職能分析工作。職能分析若能做得好，則考試評量的工作已經完成一大半了！透過職能分析，能夠幫助找出各官科職種所需工作上的核心能力為何。這些核心能力指標，勢必會涉及到各種專業知識、工作經驗、人格特質、或背景條件等需求。接著，即需要針對這些核心能力所示，再進一步細擬出各評分細項，同時也需研訂各評分細項應考人應該有的「行為表現描述（_{PLD）」，據以} 作為口試委員評分時之依據，以建立起各官科職種的口試評分規準。二、口試評量訓練方面由於每年需要遴聘口試委員的數量很大，每每可能都會有新手委員加入或不同領域的專家參與其中。因此，如何建立起這群經驗不一、專長領域不一的口試委員們的評分共識，則唯有透過紮實的口試評量訓練，才能建立起大家的評分共識。因此，建議考選單位可以朝下列幾個方向做起： 1. 建立各官科職種的口試委員人才

(16)

庫。慎選負責盡職、公正客觀、且經驗豐富的人選擔任口試委員，以建立初步的口試委員人才庫。同時，也有必要每隔一段時間即評估或評鑑這批人才庫人選在口試表現上的績效與適切性，必要時，人才庫的名單也要不斷地汰換更新。 2. 口試委員的遴聘宜有多元化來源。職能分析所顯示的各項核心能力，必定會涉及到專業知識、工作經驗、人格特質、或背景條件等變因。因此，除遴聘該官科職種的用人機關之高階主管、有研究經驗之學者專家組成口試委員團外，建議可新增像臨床或諮商心理學家、心理測驗學家、或相關實務工作者，才能組成完善的口試團隊，朝多元角度來進行口試甄選適當的人才。 3. 新手委員應接受標準化的制式口試訓練。由於每年可能都會有新手委員或不同領域的專家參與組成口試團隊。因此，考選單位務必要針對這批新手委員（尤其是第一次參加國家考試的口試工作者）進行標準化的制式口試訓練。訓練方式除了目前現有的作法（參見前述「口試評量訓練」一節）外：口試規則的說明、閱讀相關的口試（個別或集體）參考手冊、範例舉例說明與討論、評分演練及共識協調會議等，建議可由資深口試委員擔任小組長，帶頭訓練新加入的成員；甚至，初步經過講習訓練過的口試委員，應先行在臨場口試情境中擔任觀察員身份，至少先有一次以上的臨場觀摩經驗後，下一次口試時才真正上場擔任口試委員。這種訓練方式就像是「職校建教合作的實習訓練」一般，先讓實習生臨場觀摩演練幾次，等到習慣、熟練、適應臨場情境後，才真正上場實作表現一樣。這種作法不僅可以增進新手的臨場實務表現，也可累積實務工作經驗，培訓出優質的口試委員，以作為加入口試委員人才庫的儲備名單。 4. 口試訓練的時數宜足夠。資深、有經驗的口試委員，可能無須接受太長時間的口試訓練，他們只需要接受口試會議或口試預備會議的說明、討論，以形成共識即可。但針對初次新聘的新手口試委員或即將執行臨場口試的儲備口試委員，則至少應該接受半天以上的講習訓練，才能謀求出評分一致性的共識。如果是進行集體口試或團體討論等口試方式，則新手委員們甚至需要接受更長時間的訓練，才能作為加入口試委員人才庫的潛在名單。

(17)

專題

三、口試問題題目庫建立方面如果職能分析明確了、口試委員人才庫也建立了，接下來，就是需要有常設單位從事口試問題題目庫的收集與建置工作。就像在發展建置一般測驗題目的試題庫一樣，前述「口試問題的擬定」一節所述的六大類問題擬定可供參考，所擬建置口試問題的題目庫，不僅數量要龐大，且品質也要優良才行；因此，建議設置一個常設單位或任務小組，才比較能勝任此事。該單位可於平時，即可有系統的邀聘口試委員們腦力激盪設計題目，復經同領域專家評審後，便可逐步累積建置起適量的題目庫，作為口試委員小組會議時，抽題、選題、修題、或潤試題目的參考依據，以建置起源源不絕的優質口試問題題目庫。同樣的，每次口試的問題，如果能夠回收且不公布，那麼，這些優質、有鑑別力、重要且基本的口試題目，便可以一用再用，而不必擔任題目有用謦之虞。四、降低口試評分的影響因素方面口試評量屬於實作評量的一環，要做到評分完全的公平、公正、客觀的程度，實屬不易。各種干擾因素，從人員（口試委員及應考人）、評分方式（分析性計分或整體性計分）、口試情境（燈光、噪音、空調、場務布置）、突發狀況（地震、強風、火警）、到各干擾因素之間的交互作用等，都多多少少足以影響口試評分的公正客觀性。因此，建議透過各種委託學術研究，陸續找出各種可能干擾評分的影響因素來，並且在未來的口試評分訓練中，將這些因素納入訓練的課程範圍裡，同時，在未來進行口試的過程中，設法將這些干擾因素平衡掉或排除掉，以降低各種干擾因素對口試評分的不良影響到最低程度。五、延長口試時間方面口試時間偏短，可能是每位參與口試的應考人個人的主觀感受，他們總覺得無法暢所欲言，口試委員無法完全理解他們的潛能與內涵。事實上，考選主辦單位也是經過多方考量各種因素（包括：時間、人力、物力、成本、各項資源等）後，才於「口試規則」中做出各種相關的法條規定。因此，為了降低應考人這種主觀感受，建議可採行口試前預備工作的輔助作法；也就是說，不是在口試時才開始起算考試，而是提早時間進行考試，等於變相延長每位應考人被詢問的口試時間。這種輔助作法即是：要求每位應考人提早報到，並於報到後，接受某種心理（人格、性向、或其他特殊實作）測驗、自我優點轟炸撰寫（類似自傳）、或問卷式訪談紀錄（即問卷調查）一段時間（如_{30 分鐘至 1 小} 時），而行政幕僚人員需要迅速將這些資訊記錄摘要出來，以作為接續口試委

(18)

員詢問問題的參考資料。這樣一來，不僅是在法規允許與實作因素考量下，變相延長每位應考人的口試時間，不僅降低應考人的緊張與疑慮，也同時增進口試委員對應考人的瞭解程度，進而得以做出更高品質的詢問，以及做出更精確的評分決策。六、嘗試創新口試方法方面拜科技進步之賜，未來也許可以嘗試引進電腦輔助口試方式，以降低口試成本並減少人為的評分誤差；例如：採行視訊口試方式、虛擬實境的操作演練方式、或非面對面錄音口試評量方式等。不過，這些創新作為都必須先經過學術研究的評估後，才可考慮是否成為一種口試的新選擇。

參考書目

王成基（2004）。加強公務人員考試口試功能之研究。臺北市：考選部。李登科、余民寧、林進忠（2011）。外交領事人員國家考試與其核心職能之研究。考試院考選部委託之專題研究案結案報告，臺北市。余民寧（1997）。有意義的學習：概念構圖之研究。臺北市：商鼎。余民寧（2009）。測驗等化對專技考試標準設定之啟示。國家菁英， 5（4），15-33。余民寧（2010a）。測驗建置流程及新概念。載於國家教育研究院籌備處主編「測驗及評量專論文集─題庫建置與測驗編製」（第四章，80-99 頁）。臺北市：國家教育研究院籌備處。余民寧（2010b）。論國家考試試題是否應該公布。人事行政月刊，173，9-19。余民寧（2011）。教育測驗與評量—成就測驗與教學評量（第三版）。臺北市：心理。余民寧、謝進昌、黃馨瑩（2010）。各國國家考試試題公布之研究。考試院考選部委託之專題研究案結案報告，臺北市。余民寧、謝進昌、林顯達、陳柏霖、許嘉家、湯雅芬（2011）。國家考試集體口試參考手冊（含集體口試範例光碟）。考試院考選部委託之專題研究案結案報告，臺北市。呂秋萍（2004）。國中教師甄選口試決策歷程之研究-- 以結構方程模式檢驗。國立政治大學教育研究所碩士碩士論文，未出版，臺北市。考選部（2003）。國家考試口試參考手冊告。臺北市：考選部。考選部（2004）。考選研究系列 10—國家考試口試技術研討會會議實錄。臺北市：考選部。

(19)

專題

考選部（2005）。國家考試口試制度檢討報告。臺北市：考選部。考選部（2006）。九十五年度考選制度研討會—國家考試口試方法與技術研討會會議實錄。臺北市：考選部。考選部（2012）。考選法規彙編。臺北市：考選部。吳盈儒（2007）。從辯證觀點探討面談的矛盾類型及管理策略: 以研究所入學口試為例。世新大學口語傳播學研究所碩士論文，未出版，臺北市。吳復新（2000）。面談的問題及其改進之道：兼評高考一級口試改革方案。空大行政學報，10，27-67。吳復新（2007）。國家考試口試方法技術檢討與改進之研究。空大行政學報， 18，1-24。林文銘（2004）。陸軍指職軍官甄選制度之研究- 以情境口試建構為例。玄奘人文社會學院公共事務管理學系碩士論文，未出版，臺北市。胡悅倫（2008）。結構化教師甄試口試之初步調查。教育與心理研究，31(1)， 65-96。胡悅倫、余民寧（2009）。中學教師甄選口試題目圖像及其教育理念之研究。教育與心理研究，32(1)，29-56。胡悅倫、陳世芬、呂秋萍（2008）。教師甄選面試結構化問卷之編制。測驗學刊，55(1)，185-212。胡悅倫、陳世芬、莊俊儒、楊念湘、洪雅琪（2010）。國家考試口試參考手冊。臺北市：考選部。胡悅倫、陳皎眉、洪光宗（2009）。國家考試口試之命題與評分。國家菁英， 5(4)，35-56。陳鈺如（2008）。如何在一場學術戰爭中生存：博士學位論文口試的言談策略分析。元智大學應用外語學系碩士論文，未出版，桃園縣。陳淑慧（2005）。在低結構化口試情境下應試者人格特質與口試結果之關係 --從五大人格、自我監控、自我效能談起。國立政治大學學校行政碩士在職專班碩士論文，未出版，臺北市。彭錦鵬（2009）。考選制度的觀念革新：以簡併考試類科及考試及格人員地方歷練為例。國家菁英，5(1)，49-67。彭錦鵬（2010）。公務人員考選制度的變革與未來展望。國家菁英， 6(1)，17-40。鄭學隆（2006）。面對面英語口試和視訊英語口試的差異研究--- 以國中三年級學生為研究對象。國立交通大學理學院碩士在職專班網路學習學程碩士論文，未出版，新竹市。

Arthur, D. (2005). Recruiting, interviewing, selecting & orienting new employ-ees (4th ed.). New York: AMACOM. Bunting, S. (2007). The interviewer’s

hand-book. London: Kogan Page.

Campion, M. A., Palmer, D. K., & Campi-on, J. E. (1997). A review of structure in the selection interview. Personnel

(20)

Psychology, 50, 655-702.

DeGroot, T., & Kluemper, D. (2007). Evi-dence of predictive and incremental validity of personality factors, vocal attractiveness and the situational in-terview. International Journal of Se-lection and Assessment, 15, 30-39. Dipboye, R. L. (1994). Structured and

un-structured selection interviews: Be-yond the job-fit model. In G. R. Ferris (ED.), Research in personnel and human resources management, Vol.12 (pp.79-123). Greenwich, CT: JAI Press.

Dipboye, R. L. (2005). The selection/re-cruitment interview: Core processes and contexts. In A. Evers, N. R. Ander-son, & O. F. Smit-Voskuijl (Eds.), The Blackwell handbook of personnel selection (pp. 121-142). Malden, MA: Blackwell.

Dixon, M., Wang, S., Calvin, J., Dineen, B., & Tomlinson, E. (2002). The panel interview: A review of empirical re-search and guidelines for practice. Public Personnel Management, 31(3), 397-428.

Farrokhi, F. & Esfandiari, R. (2011). A ma-ny-facet Rasch model to detect halo effect in three types of raters. Theory and Practice in Language Studies, 1(11), 1531-1540.

Huffcutt, A. I. (2011). An empirical review of the employment interview con-struct literature. International Journal of Selection and Assessment, 19(1), 62-81.

Huffcutt, A. I., & Arthur, W. Jr. (1994). Hunter and Hunter(1984) revisited: Interview validity for entry-level jobs. Journal of Applied Psychology, 79, 184-190.

Huffcutt, A. I., Conway, J. M., Roth, P. L., & Stone, N. J. (2001). Identification and meta-analytic assessment of psychological constructs measured in employment interviews. Journal of Applied Psychology, 86, 897-913. Levashina, J., & Campion, M. A. (2007).

Measuring faking in the employment interview: Development and valida-tion of an interview faking behavior scale. Journal of Applied Psychology, 92, 1638-1656.

Marchese, M. C., & Muchinsky, P. M. (1993). The validity of the employ-ment interviews: A meta-analysis. In-ternational Journal of Selection and Assessment, 1, 18-26.

McDaniel, M. A., Whetzel, D. L., Schmidt, F. L., & Maurer, S. (1994). The validity of employment interviews: A compre-hensive review and meta-analysis. Journal of Applied Psychology, 79,

(21)

專題

599-616.

O’Brien, J. & Rothstein, M. G. (2011). Leni-ency: Hidden threat to large-scale, interview-based selection systems. Military Psychology, 23, 601–615. Perie, M. (2008). A guide to

understand-ing and developunderstand-ing performance level descriptors. Educational Mea-surement: Issues and Practice, 27(4), 15-29.

Popham, W. J. (2008). Classroom assess-ment: What teachers need to know (5 ed.). Boston, MA: Pearson.

Sears, G., & Rowe, P. (2003). A personality-based similar-to-me effect in the employment interview: Conscien-tiousness, affect-versus compe-tence-mediated interpretations, and the role of job relevance. Canadian Journal of Behavioural Science, 35(1), 13-24.

Taylor, P. J., & O’Driscoll, M. P. (1995). Structured employment interviewing. England: Gower Publishing.

Taylor, P. J., & Small, B. (2002). Asking ap-plicants what they would do versus what they did do: A meta-analytic comparison of situational and past behavior employment interview questions. Journal of Occupational and Organizational Psychology, 75, 277-294.

Thorburna, M., & Collins, D. (2006). Ac-curacy and authenticity of oral and written assessments in high-stakes school examinations. The Curriculum Journal, 17(1), 3-25.

Touchie, C., Humphrey-Murto, S., Ainslie, M., Myers, K., & Wood, T. J. (2010). Two models of raters in a structured oral examination: Does it make a dif-ference? Advanced Health Science Education, 15, 97-108.

Tsai, W. C., Huang, T. C., & Yu, H. H. (2012). Investigating the unique predictabil-ity and boundary conditions of ap-plicant physical attractiveness and non-verbal behaviours on interviewer evaluations in job interviews. Journal of Occupational and Organizational Psychology, 85, 60-79.

Voskuijl, O. F. (2005). Job analysis: Current and future perspectives. In A. Evers, N. Anderson, & O. Voskuijl (Eds.). Hand-book of Personnel Selection (pp.27-46). New York: Blackwell Publishing.

口試在國家考試應用之再檢討與改進

專 題

口試在國家考試應用之再檢討

與改進

摘要

余民寧

Abstract

Min-Ning Yu

Re-examination and

improvement of oral exam on the

application of National Official

Examination.

專 題

壹

口試評量方法學概述

專 題

專 題

貳

口試評量相關文獻回顧的啟示

專 題

專 題

參

口試在當前國家考試應用的現況

肆

口試在國家考試應用的再檢討

專 題

專 題

伍

口試在國家考試應用的改進建議

專 題

參考書目

專 題

專 題

專題

專題

　口試評量方法學概述

專題

專題

　口試評量相關文獻回顧的啟示

專題

專題

　口試在當前國家考試應用的現況

　口試在國家考試應用的再檢討

專題

專題

　口試在國家考試應用的改進建議

專題

專題

專題