電腦化適性職涯性向測驗編製研究

(1)

DOl:1O.625I/BEP.20140516

電腦化適性職瀝性向測驗編製研究*

鄭育文

陳柏熹

固立臺灣師範大學教育心理與輔導學系

陳信豪

蕭孟廷

固立臺灣師範大學心理與教育測驗研究發展中心

宋日翟廷

刊出|好的職 iJ¥測驗可讓學生瞭納的身之心血狀態， ~月、 1111'1 為生性規劃與抉擇的 U J，，的if叫人jJt~ 1J之性向測驗大多的紙筆測驗， Jt足(i數較多 i-Lmlll 何至于 w真貨職業情境是與較大，他 lGA她mlJ 反應用 till解釋時有較大的限制 υiH暫iI/!:此，木研'先宮里合測驗、心理計量之過廿一化技 illL!則多媒W:') 技f仙，間創測驗內容、 Ie司度與極刑，“i製 lI 丘!凶化過付一職悴，性向測驗一國 ril版J(CACAT-J ),

Jt包括八個分測驗，分別用品文、數學、空 II\] 、邏輯推理、科學推理、觀察、美感干IlnU泣。此測驗 "J 刊時測量學生多 lilil旬之潛能， t:J. fl' fi; '}l生 Wi]教師在進行生涯輔導與科系媒合|待之 if效 L H 木研究預試樣本人數的 3163 人， [1:):\樣本為 5820 人 c 在 IRT 之樣木屑次佑皮介於 .69-,81: 在效度方面，與凶'Ir拉本學力測驗之扣II糾係數介於 .28- .67 。綜合 I'，述，本測驗共1J良好之信度及敘嫂。在常糢娃但HI側， I人|蚓屯!腦化測驗，，可;定期更新常模資料。透過測驗參!吼叫鴨定期更新，以確保測驗分數的"J 比較們 ιCACAT-J 所提供之測驗結果，很生能暸角l(J tn 身之優勢能力，將-n助於學生J茶余所1";';:抖 1'1 我，進而1(1養!Ulnk策與規畫I)能力關鍵詞:生涯發展、性向測驗、適性化測驗、職涯測驗青少年的分流教育一直以來由lilt各國關注的教育政策，隨著教育理念與凶家政策的不同，各國的分流教育時間亦釘所差異。例如:德國可視為f采用早期分流的代表，該國在學牛.完成初等教育課程(修業年限多為4 1f) 俊，便進入不同類型的中等教育學校拉受教育，不同類型的學校各科不同的課程內涵、教學仆標以及未來的教育方向(梁福鎮，2009) 。採叫晚期分流者，則以美國為代表，至高等教育第叮三時仍不設定就讀科系，可平.大學;此弋作級H手，再進行決定主{I爹的科 IJ 。而臺灣現行的教育體系，目Ij~學童在完成九年的因此義務教育之後，透過基本學力測驗、)(i * J.木研究才立交部分ii!f)I:A:(接利股市I;補助研究經費，計畫編號(NSC 103-2911-1-003-301) 、 (NSC 102-2511-S-003-001-MY3)、 (NSCIOI-2511-S-003-047-MY3)、 (NSCI 00-2631-S-003-00 1- ) 2. 木的論交通 l 川

(2)

272

教育心理學報藉由申請入學或考試分發的管道，進入普通高中、綜合高中或是高職(五專)就讀，屬於中期分流 O 根據教育部 100 學年度之統計，國中畢業學生進入高中( 137084 人)及高職( 131943 人)的學生比例為1. 04

: I

(教育部，

20 II

)。這意味著國中畢業學生有超過13 萬的學生選擇就讀高職，然而現行高職學制為15 群、 80 餘f同類科，學生如何在眾多類科中進行選擇，一直是值得關注的議題 o 在早期和中期分流的國家，學生尚處於生涯發展的探索階段，而教育分流(streaming) 制度谷IJ可能迫使個體必須提前進行關鍵的生涯抉擇o 國內外許多研究發現，青少年最常遭遇的困擾之一就是升學與就業的選擇(胡海圈，

1991 ; Friedman

,

1991; Taveria

,

Silva

,

Rodrigl帥，

& Maia

,

1998) 。的臣決策(

career decision making)

)，{-個複雜的任務，思考如何決策的過程往往導致個體產生焦慮和困惑的感覺，而青少年通常在生涯決策歷程的初步階段產生最多的困難(

Gati

,

Saka

,

&

Krau鈕，

2001 )

0

根據研究發現，歐美國家多透過牛.涯資訊系統來協助學牛進行生涯決定 (Gati &Am汀， 2010)0 一個完擎的生涯資訊系統中，應具備三個不可或缺的成分;對學魚相關(心理)狀態之訊息、外

在職業環境之訊息與如何將前兩者訊思加以適配、w進行選擇(

Gati

,

Gadassi

,

& Shemesh

,

2006)

0 在

瞭解自 1£狀態的部分，包含潛能、興趣及工作價值觀等而|句，其中叉多以測驗作為進行內我探索及了解內我之工具。Whitfield 、 Feller 與 Wood (2009) 更指山毛主涯測驗可作為在進行牛-涯規劃與抉擇的工具之一o 性向測驗(

aptitude

test) 被視為測量個體潛在能力之工具，透過性向測驗的實施來推測或預測個體未來的學習、行為或表現之結果。但因性向測驗所測量到的能力丘，個體目前的能力，而這樣的能力是受到遺傳與外在環境交互作用而成的，因此性向會隨著經驗的累積與環境有所變化 (Linn

& Gronlund

,

2000) 。由上述可知，性向測驗的內涵應隨著時代以及社會文化而有所修正或更新。一、現有之職涯性向測驗及其使用限制性向測驗在牛A涯諮商、學校輔導及人事心理上使用頻率頗高。因為測驗結果可協助個體了解其優勢及劣勢，放可參考個人之興趣、動機以及其他條件，做成有關升學或就業之決策參考資料。在教育場域之中，更採用多元性I句測驗，協助學生進行而我探索及瞭解 o 美國在進行生涯輔導工作時，常透過生涯資訊系統來協助學生或成人進行主涯探索或是生涯決捍 o 美國勞工局所建構的職業探索工具系統 (O*NET，

http://online.onetcenter.orgl)

，提供了能力剖析量表 (Ability Profil缸，

AP)

，採用紙軍方式評量，以測量九種芋，要的能力，作特時間需約兩個小時，試題量為229 題 o 在

測驗結果產出，可透過紙軍司分或是電腦化讀卡o 此外，美國大學測驗中心(

American College Test

,

ACT)的 Discover 系統 (http://www.act. orgldiscover/ )則釘，別於過去採用性|句測驗來瞭解能力，改

採片J 自評(冉說效能)的方式，以能力評估量表 (Inventory

ofwork-relevant abilities

,

IWRA) 來取

代常見之性向測驗，提供紙本及電腦化測驗，採用李克特點量表的作答方式，出受試者自行評估 1436具備該項能力諦，與同f[三齡之學生進行比較，此量表共有十五個職業能力描述，如:社交、助人與銷售等能力。除了上述兩大系統，必一個常見的則為互動性指引及資訊系統 (System

of

Integrated Guidance and Information-Plus

,

SIGI-Plus)

，結合輔導干11教育職業資料的電腦軟體，提供學生及成人進行教育發展計畫或職業發展規劃。此系統在了解能力方面開發了技能自評量表，將五{乍技能分為/:大類別，如:與人工作、用于操作和溝通等，每個類別有四到七句技能的描述，受試者衡量鬥己的能力選擇「擅長」或「不擅長」。表 I 中t1美國常見之大生涯資訊系統所發展與能力相關之測驗，其適山的對象多為雨中至成人階段，這或訐跟美國情晚期分流的教育制度1-i所關聯。此外，所有測驗的題目編排方式採固定題日，而 AP 則為傳統的性向測驗，以測量潛在能力為主，為紙筆式測驗，且施測時間較長。另外兩個系統在進行能力評估峙，其測量的內涵雖涵蓋不同的職業能力，但在作答形式上改採山門陳量表，受試者透過對H1£的評估來進行作祥，其作答時間較短o 但是，內政效能測驗則是對個人信心程度的評估(

Betz & Hackeet

,

1981 )

，拉非反應個人真實之能力，因此採片J 向陳量表來評估，學生能 )J j{-6'1合當，貝 IJ利于寺商榷 O

(3)

測驗內涵 72月o IS 種職業能力

229

9 種能力 6 頃工作技能題量

昕-時鐘

-m

br

一帶分

-L

驗一件(←

加一量式一特表題特表

雄一測方一特量單量

統一叫一定定定

系-題一固回回

喃喃止一

揖-一紙作:

HM

一驗式

-MX

實抓

刷一測方一門枷割

美-表 l 使用對象 5-9 作-級

9 lf.級干成人

AP

16 歲以上成人技能而品，中以上學生、評量表成人註:一表示未提供相關訊息。

120

唯一間

系統名稱

Discover

。*NET

SIGI-Plus

反觀國內各種性自測驗，如表 2 所示 o 現1'J之性向測驗皆採紙本測，驗、題型皆為選擇題，測驗向度方面多相似。在編製1f代方面，除了國中新編多元性向測驗為 2011 作-出版，多數測驗出版年代較為久遠，且平均所需之測驗時間約為一{間半小時，其題量介於 296-496 題，測驗結果提供各個分測驗之分數以及側面圖。透過上述的國內外常用之性向測驗之介紹，可知目前國內使用的性向測驗雖研類不少，但不論是測驗本身或是實務運用上皆;臼其待改進之處，因此導致性向測驗在實務上運作之頻率及其效益不如預期，無法為學牛，提供適切的協助(宋曜廷、田秀蘭、鄭育丈，

2012

)。以下就現行，性向測驗之問題及限制做-整理。表 2 圍內常用之性向測驗測驗結果作答時間 (分鐘) 題壘測驗向度

作宇平

方式施測方式測驗名稱

(

IIU~反{T三代) 測驗分數、側而圖、性向組合分數語文才Iff壁、數學推理、圓形fiE理、機械推理、空間關係、中文詞語、英文詞語、失II覺速度與確度蜀中新編多元性向測驗

(2011 )

紙本選擇題

296

71

語文推理、數學、科學推開、生II覺速度與確度、空間關係、抽象推理、 496 于詞釋義、文法修辭中學多元性向測驗一國中版 (2003

)

紙本選擇是區

80

測驗分數、側面圖 Ii古文推理、機械推蚓、電腦能力、數學推理、抽象推理、電學生"識、文句重組、資料核對多|句度性|句測驗組合

(2003 )

紙本選擇題

383

94

測驗分數、側面圖丘吉丈推理、數學推開、抽象推開、生11覺速度與確度、機械推理、主主間關係、中文字詞、中文語法區分性向測驗第五版

( 1999)

紙本選擇題

420

90

測驗分數、1MU而圖語文推理、數學推開、機械推理、空間關係、抽象推理、錯別，j< 、文法與修辭、生II覺速度與確度多因素性向測驗

( 1994)

紙本選擇題

439

60

測驗分數、側而圖 (一)職灌瀏驗包含之能力向度不符需求，測驗結果無法對應職業學群國內品，職職科可分為 IS 大類，近于1士來更新增不同科別，如:家政群的時尚模特兒科、墊術群的多媒體設計科等。現有的性向測驗所涵蓋之分測驗內涵並無法符合於1 的教育環境之需求，而其測驗結果更難以與職業學群對應，造成教師在進行職涯輔導工作的不便。現{j"的性向測驗所合括之能力|句度不足以對腔III泊的高職類畔，以也\1il可類群的例，此類群必須具備創造力、美感與觀 titbitιEER 區

(4)

274

教育心理學報察等能力，但現有的測驗並未有相關能力(宋曜廷、出秀蘭、鄭育文，2012) 。因此必須納入新的概念並加以整合，根據現代教育環境增加新要素。 (二)受限於紙.式瀏眉，導致瀏擻題型無法反應真實能力由於過去皆採用紙筆測驗，測驗題型較受限制。例如:在空間測驗方面，主要希望能透過測驗測量個體之空間能力。以高職土木建築群為例，其所需要之空間能力多展現於俯視圖或娃多角度轉換空間的能力。但門前現行使用之性向測驗其空問題型多採用平面的方式早現題日，谷IJ乏立體圖、多角度轉換等不同的題型。然現今測驗技術及資訊科技已經優於從前，所以應利用新技filtj 發展新題型或改荐題曰旱現方式及內容，以增進性向測驗之豐富性及效益。 (三)題數過多，施瀏時間過長 I~ 1前性向測驗的題數都相當多，施測時間都可青少要花費l 個半小時的時間來完成。受試者常因作符時間過長而感到控憊，而在測驗過程後段容易出現精神不濟、隨意作祥的情形，所以無法達到標準化施測標準'而影響測驗的結果，則測驗結果的可信度就會受到影響。若能透過電腦化

適性測驗(

computerized adaptive testing

,

CAT) 的技術，讓受試只需較少的題數就能達到與傳統測

驗相同的測量精準度(

Sand

,

Water

,

&

McBride

,

1997) 。 (四)常模建置年代久遺導致瀏驗結果解釋力下降多數常使用之性向測驗，多為一、二十年前所編製，使用測驗出版前所建置之常模來解釋現在學生的測驗結果，其效度是否恰當，則有待商榷。若能有一定的機制能在固定的時間更新常模，才能確保測驗結果的解釋力。 (五)瀏艙結果之取得需耗費較多的時間多數，性向測驗採用紙筆測驗，無論是施測或成績計算，皆由人工進行處呵，需耗費較多時間等待測驗結果。 (六)瀏胎結果應用受限，群科建讀指揮住不足多元性向測驗實施的口的之一，即是提供學校進路輔導，但illl測驗結果作往缺乏相關資訊加以解釋與應肘，亦即測驗結果往往無法和實際的情況相互符應。現有之性向測驗指導手冊，於解釋的部分多僅呈現各分測驗的百分比或折線圖，學生僅能從中得知l各個分測驗之分數表現，無法獲得其他的訊息。因此若是要透過性向測驗結果，作為未來生涯抉擇的輔助工具其功效;有限。相對於美國相關測驗的發展，在國內現有之性向測驗則面臨了六大問題及限制。本研究將針對這些限制，試圖透過開發新型態及新技術的性自測驗解決相關問題，並根據國內高中及高中所嵩之能力作為編製之架構。二、電腦化適性測驗電腦化適性測驗 (CAT) 的技術就足利用測驗計量技術根據受試者的答題反應，即時估計受試者當下的能力，位選出適合該受試者能力的試題作為下一題進行施測，直到達到能力佔計精準度或是測驗題數上限。受試者所接受的試題之難度特相當符合其能力，所以受試者僅需施測較少

的題 H 即能達到與傳統測驗相同的測量精準度 (Sand，

Water

,

&

McBride

,

1997)

0 CAT 的主要理論

基礎是試題反應理論 (item

response theory

,

IRT)

，由於 lRT 的單向度假定，其可利用概似函數

(likelihood

function) 來佔計施測不同試題之受試者的潛在能力(Hambleton

& Swaminathan

,

1985

)。在 IRT 架構下，接受不同試題的受試者能力可被放在同一量尺上相互比較，故受試者能力具備跨測驗的可比較性，此特點為 CAT 的重要基也-之一。

以下介紹幾個適性測驗施行的重要程序:測驗起始選題、能力估計、選題及測驗結束條件。 (一)割驗起始選題

(5)

(二)能力估計

門前常用的能力估計方法有一部電:最大概似法 (maximum

likelihood

,

ML) 、貝氏最大後，驗法

( maximum a posteriori

,

MAP) 及民氏期望後驗法(

expected a posteriori

,

EAP ) ( Embretson

&

Reise

,

2000)

0 ML 雖具一致性、漸進的常態性與量尺不變性的特性，但甜，在題數夠多時才成立，且當受

試者答題反應為全對或哥哥錯時 'ML 無法進行估計(

Hambleton

&

Swaminathan

,

1985)

0 ML 雖較無

迴歸性偏誤，但估計誤差較大，而 MAP 及 EAP 估計誤差較小，且不受答題反應全對或哥哥錯之限

制，但因受到能力先驗分佈之影響，會有迴歸性的誤差(

Hambleton

&

Swaminathan

,

1985)

0

Bock

與 Mislevy

(

1982

)指山 EAP 因無須送代，計算上相對簡單有效率。此外，雖然 EAP 與 MAP 特

有迴歸性偏誤，但 EAP 的迴歸性偏誤較小，故本研究採 EAP 進行能力估計。

(三)選題

依上述能力估計方法，根據受試者所有施測過之試題的羊年題狀況來佔計受試者暫時的能力佔計值，技選擇1:EJl:t能 )J1fA:下，能提供最大訊息量的試題作為下道試題。在最大訊息法中，最常使

用的訊息函數為費雪訊息函數 (Fisher

information function

,

F1)。在 Rasch 模式下，訊息、函數恰府

對某道試題的答對機率與答錯機率相乘，計算上相當便利。:to在其他 IRT 模式下，訊息函數則略有不同 o ~:以能力區間估計骯代替點估計，即為費雪區間訊息函數 (Fisher

interval information

function

,

FII)

，此舉:是因為測驗初期能力估計的不確定性，因而考量θ 附近能力f回來計算訊息函數，隨著測驗進行，區間縮小後，FII 就會變成 Flo 除了上述的局部訊息函數外，KL 訊息函數

(Kullback-Leibler information

,

KLI) 則是一全域訊息函數，也可被用來做為選題策略。由於過去模擬研究指出，在測驗初期時，受試者能力按逗 O 時則 FI 的表現較佳，隨著題長增加，各種選題

方式結果相似。且當測驗長度大於 10 題時，平均偏誤( bias) 與均方根誤(

root mean square of

err肘，

RMSE) 在前述選題策略上的表現爺沒有太太差異(

Chen

,

Ankenmann

,

&

Chang

,

2000

)。因此考量計算便利性與系統選題效能下，故本研究採叫最簡單的FI 作為選題的訊息、函數。 (四)瀏驗結束條件常見的測驗終止方式有「固定題長」與「固定精準度」。固定題長，是施測前就已經決定受試者的作特題數。固定精準度，是當估計前達到特定標準後，停止施測。考慮到在學校場域中有課程安排之時間限制，因此僅能在{f限題數進行施測'，lei能對於所有題I-l皆持對或;1JJ特錯之人進行能 )J佔計，因此本研究採用具氏期望後驗法(EAP) 進行，能力估計，以及採肘費雪訊息、函數(

F

I)

作為選題之依據，最終測驗結束條件採肘固定題長。 14·鑑於上述現有職涯性向測驗的限制，本研究的門的為利用電腦化技術提升職涯J性向測驗實施的效益，以協助解決上述問題。隨著時代進步，電腦化技術被廣泛應用在許多測驗有關的活動，如題刊編寫、建立題庫、測驗編製、施測和評分、分析和印製成績報告等。比起傳統紙筆測驗，本研究所開發之電腦化適性職涯性向測驗之主要優勢在於: 1.利用資訊和多媒體科技技術擴充性向測驗新架構與新題型的開發有別於過去測驗|白j度，為融入高職類群與高中所需之能力，杆，新開發之測驗架構方而，增加了觀察、創意以及美感等分測驗。透過多樣化之題型，如:空間測驗使山模型題型來測量空間定位能力、美感測驗使肘拖曳題型來測量學牛:!tt於美的感受，透過電腦做為媒介，在題型設計上可以更接近真實生活情境以及能更附近半所欲測量之能力。 2. 利用電腦化適性測驗技術提升施測效率如果增加題型，學牛泊:作千年峙的時間勢必增加。為避免產牛施測時間過長，反而影響作答動機的問題，本研究將透過CAT 的技術，讓受試只需較少的題數就能達到與傳統測驗相同的測量精

準度(

Sand

,

Water

,

&

McBride

,

1997

)。

3. 常模更新快速將有效的結果資料納入常模的計算，即時更新常模，以確保測驗對個人分數的解釋力 O 4. 快速獲得測驗結果增進測驗實施與結果產魚的便利性，節省施測人 )J 與紙張戚本，提升學校與學生便叫測驗的意顧。 5. 與現釘，雨中 ~i~類群結合，提供學牛

(6)

報提供學生自身之個人性向組型與自職類群、高中建議，增加兩者媒合的效度，作為生涯抉擇之參考工具 o 綜上所述，本研究將結合電腦化、多媒體和計量技術編製一套電腦化適性職涯性向測驗，透過較少的題量以及較能反應學生各方面的題型測量學生多面向之潛能。透過本研究所開發之測驗，提供學生瞭解其自身之優勢能力，將有助於探索與掌握自我、培養生涯抉擇與規劃能力 o 自主 --r 理 1 l..J'、育教

276 電腦化遍性職瀝性向測驗緝製過程

本研究以不同於傳統測驗之題型、內容與架構之設計，建構一套完整且適用於國中學生之電

腦化適性職涯性向測驗 (Computerized

Adaptive Career Aptitude Test-Junior

,

CACAl三J)。以下將 CACAT-J 發展步驟分別敘述之 o 一、測驗架構研究者蒐集國內外相關丈獻與多種性向測驗，、，lf~進行焦點團體與問卷調查後，確立本測驗架構、題型及命題原則。首先，本研究參酌過去相關研究和數種多元性|句測驗進行內容分析，其分析面向含括測驗向廈、題型(含內容)、信度、效度、施測方式等面向進行細項分析，探究相關測驗其內涵與現況，並且嘗試提出新觀點作為後續發展測驗之參考與指標。第二階段，邀請高職的群科中心學校代表教師(為高職各類科之任教超過十可之教師，在此定位為專家教師)以及一般高中教師共計 17 位教師，填寫高職群科所需之能力問卷，填寫完畢後寄回本研究單位。第三階段，邀請上述之專家教師進行兩次的焦點團體，針對能力問卷內容進行討論，並取得各類能力定義，以及高中和自.職各群科能力與各能力間之對應分析。為透過內容分析、專家問卷以及焦點團體後所獲得之能力分析，並以此做為本研究之測驗架構，如表 3 所示 o 高中及高職各群科能力分析能力科學推理

V

表 3 創意

VVVVV

V

美感

V

觀察

V

邏輯推理

VVVVVV

V

擱一

vvv

吶們 i

V

數學

V

語文機械群動力機械群電機電子群化工群土木建築群商業管理群外語群設計群農業群食品群家政群餐旅群水產群海事群藝術群普通高中

y

註 :y 為該群科所需具備之能力。

VVVV

V

函中及品，職群科

(7)

本研究所開發之測驗共計八個分測驗，如表 4 所示，包括語文、數學、空間、邏輯推理、觀察、科學推理、美感與創意測驗。此外，本研究利用資訊和多媒體科技擴充測驗題型，提供更豐富化的施測內容以及測驗題型，讓題曰呈現與其實生活情境更加貼近，以提升測驗效度。表 4 電腦化適性職5JI性向測驗之定義與題型測驗名稱定義題型三三o五口文在不同情境下與人之間的溝通、互動之語言表達以及理解文本內容的能力。選擇題數學在數字與數量概念的運用能力，以及與數量方面有關的推理能力，又稱「數選擇題、感」能力。填充題空間對於物體在腦海中方向轉換如:翻轉、接轉與折疊，以及對於PR間、圓形選擇題中的線索和小空間距離感判斷的能力。邏輯推理對於找出事物共同原理原則，及可將既有的原則應用到相似的情境，來協選擇題助問題解決的能力。觀察對於覺察和辨別寶物或現象在圖形與外形上的改變或細小差別，並快速擷選擇題、取資訊的能力。熱點題科學推理在運用線索解決日常生活相關之情境所遭遇到之科學問題的能力。選擇題在視覺感知的表達能力和判斷視覺形象的敏感度。透過色彩、線條與畫面選擇題、美感等方式，並運用不同的作答方式展現出美感。拖曳題、配對題創意測在有限時間內針對某個主題，能夠提出不同的構想並且能夠改變思考方多媒體式，突破成規的能力。二、預試設計與預試資料分析在測驗向度以及題型確認後，隨即召開命題人員說明會編製試題，在試題設計上，力求描述清晰以及符合所欲測量之構念。體過多次的各領域專家之內、外審查作業，確立試題品質。最後將審查通過之題目匯入題庫系統之中，以利進行後續正式施測 o (一)據本本測驗施測對象為臺灣各公私立國民中學 8 年級之男女學生，抽樣方式係採分層隨機抽樣，先根據各縣市學校班級數，計算各縣市在全國所佔班級比率，以此比例制定各縣市的抽樣班級數口，為達有效樣本數量，預計抽樣 51 問學校，共 102 個班級。將母群學校依據縣市區分後，則以亂數值隨機排列該縣市之學校，然後配合 H 標抽樣數取得抽樣學校，各地區抽樣數分別為北部 19 間、中部 16 間、南部的問以及東部 l 間。施測時間為 2010 年 4 月中旬開始，至 2010 年 6 月下旬結束，資料收集完畢後，即進行分析。其中北部門間、中部 16 問及南部 10 間，而東部學校因施測期間學校業務繁|亡無法配合，所以未能進行施測，共計施測的問學校。總有效施測人數為 3163 人，由表 5 可知，各地區學校分布表可失lJ其分布情形為北部地區樣本數為 53.05% 、中部地區樣本數為 28.64% 、南部地區樣本數為 18.31% 。由上述可知，預試樣本與母體分配情況大致符合。在性別部分的分布是男生 1635 人 (5 1.69% )、女牛:.1528 人 (48 .3 1%) 。

(8)

278

地區學校數

人數

人數比例(%) 表 5 教育心理學報

各地區國中八年級學生受試者人數

北部中部南部

19

16

10 1678

906

579

53.05

28.64

18 .3

1

總計

45 3163

100

(二)題本設計

在大型測驗中，常見的資料收集設計有平衡不完全區塊(

balanced incomplete block design

,

BIB )

與定錯不等組(

non-equivalent groups anchor test

,

NEAT)

0 BIB 設計須考量題庫題本數、題庫區塊

數、每一題本的試題區塊數、每一試題區塊在題本山現的次數等等基本條件限制，因此在實務上 BIB 題本配置的相關參數並不易取得，所以組卷的困難度也較高。在 NEAT 設計下，所有受試者都會作答同一組定錯試題，然而非定錯試題則僅有少部分的受試者作答，因此，定錯試題的參數 ;有較高的估計精準度，但非定錯試題的佔計精準度則較差。因此，在考量不同題本編排方式之優點及限制，以及受試者無法在有限時間內作容所有試題的情況下，本研究採肘改良內 NEAT 的

NEVAT (non-equivalent groups with variable anchor test

,

Ch凹，

Kuo

,

&

Sung

,

2011) 的等化設計。 NEVAT 有多組定錯試題，採用不同的試題區塊作為定錯試題，能夠使各試題區塊內試題難度的估

計精準度較為一致。在 Chen 、 Kuo 與 Sung

(2011

)的模擬研究指出，雖然NEVAT 的 RMSE 比

BIB 高，但 NEVAT 的 RMSE 比 NEAT 低。再者， NEVAT 的題本配置比 BIB 設計更為簡單，因此該研究建議可採用 NEVAT' 兼顧題本配置的便利，性與試題參數估計精準度。本研究將各分測驗之試題分成34 個試題區塊，總計34 個題本，各題本下皆含3 個試題區塊，而成對區塊出現在每個題本中的次數為l 次，設計方式如下圖 l 所示:題本 l 包含區塊 l 、區塊 2 與區塊 5' 則其他題本中若有出現區塊I '將不會再配對區塊2 或區塊 5 。各題本之題目均與其他題本為相互之共同題。在題本與學生的配對上，本研究亦使各題本在男牛學與女生的施測比例上盡量相近。圖 1 預試題本試題排序之NEVAT 設計示意圖

(三)計分方式

在計分方面，採三元計分及多元計分，如表6 所示。二元計分方面，容對正確解答者即可得一分，反之零分。部分測驗因為受到測驗內涵、題型等影響而採用多元計分法。以美感測驗為例，由於美感、是一種感知能力的強弱，並無唯一客觀的標準，因此美感測驗的拖曳題型中關於測量美感、表達方面，採用專家(大學美術及藝術相關科系教授、高中美術教師及國中美術教師)認定之最佳容案以及完全錯誤答案之位置為標準'若受試者之作答位置與專家認定最佳範圍相同者給予2 分，反之則 O 分，若是範圍有所落差，則依受試者拖曳座標的範圍和專家認定的範圍進行比較給予部分計分。在觀察測驗的熱點題型方面，則紀錄)以始作持反應數量(0-5 個) ，根據後續作羊年反應進行 PCM 分析取得階難度後進行轉換，最後取得該題日之分數，例如:反應數量。~I 個為一分、 2~3 個為兩分、 4-5 個為玉分。創意測驗方而，其計分準則乃依據則採流暢)J 、變通力以及獨創力之(同構念。在流暢力方面，流暢)J 旨在計算一個體同祥的總反應數，答案寫得愈多則得分愈面;變

(9)

通力旨在計算個體同答的不同類別變化數(本測驗共可區分為六類別，分別為合原始結構-橫豎、單古巴件﹒橫堅、單部件﹒撇點撩挑勾折、多部件上下結構、多古巴件左右結構、多古巴件內外結構)，寫出的符案分屬於愈多類別則得分愈、高;獨創力冒在計算個體同答於常模中的分配比率，分配比例與獨創力分數的計算，即個體每寫出一個常模當中反應頻率比例低於2%的合法件案得2 分，每寫出一個常模當中反應頻率比例介於2%-10%的合法答案得 1 分，每寫出一個常模當中反應頻率比例大於 10%的合法替案則得 O 分，整體而言，寫出的特案於常模分配中山現的比例愈低則得分愈、口 { 作司U (四)施測方式各題本包含 8 個分測驗，測驗出現|價序為固定設計，崙兩堂課時間的作帶時間，第一半謀依序為語文、美感、數學、科學推理;第二常課依序而飛間、創意、觀察、邏輯蚱，理，題量分配及計分方式，如表6 所示。時間安排表 6 各分測!u之時間限制、題量及計分方式分測驗時間限制題量語文

1ttt

9 美感

1ttt

9

數學單題限II幸

9

科學推理無

9

7;可間無

9

創意單極限時

l

觀察部分單題限時

9

邏輯推坤. 無

13 t-一兀元

王一二一

方一元元一兀一一兀一兀一兀

分一二已二.一一一一多

t

二

L| 一 -Y -Y 口多多第一部分第千二部分 (五)試圖分析

本研究採J-H

Con

Quest 電腦軟體進行試題分析。根據 Masters

( 1982

)的部分計分模式 (PCM)

進行分析， I而千二元計，分可以視為部分計分之特例，公式(

1

)如下:

x

exp[

L

(θ-

";;)]

P;v(O) 二 m.j=0υ

(I)

叫

去 [exp 乏的一札)]

r=O

j=。 υ 其中， m

_j

表示第

i題的最高得分， δ.

_表示第

i題中第

_j

個得分的階難度，則表示受試者在第 1題得 υ

至Jj x 分的機率。判斷的試題配適度有兩種指標 i ，分別為非加權均方誤(

unweighted mean square

err肘，

Outfit

MNSQ) 以及加權均方誤(

weighted mean square error

,

Infit MNSQ

)。兩者的相同處在於甘為 ~' I 由度為 l 的卡方統計量，數值介於O 與無限大之間，期望值為1.0 0 相異處在於非加榷均方誤較容易受到能力概端者之不合理，作答反應，導致較劇烈的數值變化;相反的，加權均方誤則較不受桶端怕影響(

Li

nacre

&

Wright

,

1994

)。本研究將以加構均方誤為主要指標，當某試題之配適度超山 0.8~ 1. 2 區間之外，則視為不適配試題(

misfit items) (Linacre

&

Wright

,

1994) 。此外，除了適

配度檢定之外，亦參考古典測驗理論(

classical test theory

,

CTT

)之鑑別度，挑山鑑別度不佳之試

題(小於 .3) ，進行試題內容分析。本研究將以IRT 適配度為芋，而 CTT 鑑別度為輔，、w透過領域專家進行試題是百合保留或刪除之綜合性評佔。

(10)

280 三、正式 CAT 測驗與資料分析

教育心理學報 (一)據本從表 7 可得知，不同地區及性別之人數分佈情形。因為採各校自主登記，導致有部分地區之樣本數較少。總人數為 5820 人，在性別部分，男午為 2949 人 (50.67% )、女生為 2871 人 (49.33% )。表 7 正式施測樣本之描述性統計

年級

地區

_人數

比例(

%)

性別

_人數

比例(

%)

~t古巴

4399

75.58 八年級

中古巴

274

4.71

男

2949

50.67 +

南部

313

5.38 九年級

東部

₈₃₄

_14.33

_女

₂₈₇₁

_49.33

總計

5820

100 5820

100

(二)模式選取及題本設計根據預試資料分析後所得之試題參數，進行 CAC A'下J 測驗設計 O 每一個分測驗(除創意測驗

以外)之參數估計與選題昀採用單向度模式，計分方式採用部分計分模式 (parial

credit model

,

PCM) 。此外，試題訊息、函數公式(2)為:

n.2

li(θ)= 云主:

(2)

rlUl 咒，為月對θ 的一階微分， Qi 則為 1- p; 。在終止測驗方而，採用固定題長作為終止測驗的條件，除了邏輯推理測驗作答題數為13 題和創意測驗為 1 題，其餘各分測驗的作平等題數皆為9 題，共計作特數量為 68 題。 (三)信度擻驗在古典測驗理論中，觀察分數變異(σ; )由其實分數變異 (σ} )與誤差變異所組成 (σ"; )。而信度的定義為真實分數變異除以觀察分數變異數之比率，如公式(3)所示。在IRT 中，也有類

似傳統情度的概念O 本研究採 bilog-mg 軟體(

Du Toit

,

2003

)計算信度的方式進行信度的估算。其概念如同傳統信度計算真實分數變異數佔觀察分數變異數之比率。然而當採用不同能力估計時，能力佔計值的變異數則代表觀察分數的變異數或是真實分數的變異數。對 EAP 而言， EAP 估計值變異數即為真實分數變異數，所以其信度計算方式為 EAP 估計值變異數佔 EAP 估計值變異數加上誤差變異數之比率，見公式 (4) 。月2

2_2

ρ'xx = 三L-=三三二三ι (3)

σ2σ2

_x

_~X

2 ρ- 一一且一 (4)

θθ 們 2 ， τ2 。 iJ

'

ue

(四)效度擴驗

因為現有之性向測驗因為編製年代久遠、採肘固定題 f1 以及測驗架構上有別於本研究所發展之電腦化適性職涯性向測驗，有鑑於此，並末採用與現有之性向測驗進行效標關聯效度之檢驗，而採叫基本學力測驗進行效度檢驗。:y以美感測驗及創意測驗分數與學業成績，進行效度研究 O 此外，在創意測驗方面，採用陳學志哼人 (2009 )所編製之《有限解答之擴散性思考測驗一「里的刪減」作業》及具靜吉等人(

1998)

<新編創造思考測驗一「人的圖形」作業》為效標，求本創意測驗分數與上述之測驗分數之相關。

(11)

研究結果

一、 CACAT-J 試題難度及受試者能力分析

各分測驗試題根據 IRT 分析以後，採用邏輯忠、 (Iogit) 為量尺單位，其平均難度皆為 0' 標準差介於 0.61~ 1.刃，試題難度介於 -2.98~3.23 。于丹:人的能力分佈上，平均能力介於 0.16~ 1.27 '標準差介於 0.84~ 1.3 1 '如表 8 所 /1 \ 表 8

各分測驗 IRT 難度範團以及受試者能力分佈

試題難度語文數學空間邏輯推理，觀察科學推理美感

平均值

0.00

標準差

1.

08

1.

53

0.88

0.99

1.

24 .61

1.

09

最大個

2 .4

2

2.71

1 .4

7

3.23

2.04

1.

42

2.51

最小個

-2.05

-2.58

-2.98

-2.38

-2.25

-1

.4

2 -2.10

IRT 能力{們平均{們

0.81

0.75

0.16

0.37

1.2

7

0.31

0.93

標準差

1.2

0

1.

31

1.1

8

0.84

1.

08

0.71

0.92

本測驗所編製的創意測驗則根據流暢力、變通力及獨創力等弋{同構念分別計分後再進行加總。-個構念其平均個介於 2.64~10.82 、標準差介於 0.78~4.21 以及最人:11荒之數量介於 3~25 。在總分方冊，平均個為 16.57 、標準差為 5.20 及最大憫之數量為 32 '如表 9 所/1\ 。平均俯標準差

最大個

流暢力

10.82

4.21

25

表 9 創意測臨之試題分析變通 )J 獨創力

3.11

2.64

0.85

0.78

6

3 分

-Mm2

總 -M53 由表 10 中可知，創意測驗的二1 個構念問之相關介於.43~ .蹈，達，顯著之中度相關 O 三個構念和總分之間的相關介於 .63~ .嗨，達顯著之中兩相關。表 10 創意測驗之相關分析流暢 )J 變通 )J 獨創性總分流暢 )J 變通 )J 獨創力總分

**p<.OI

.56"

.5

1"'

.98"

.4

3"

.68"

.63"

(12)

282

二、 CACAT-J 信度槍驗教育心理學報本測驗正式樣本為進行適性測驗之八年級學牛:5158 人，透過各分測驗之所有受試者的期望估計標準誤與能力總變異，求得IRT {言度指標。在各分測驗試題數為9-13 題的情況下，信度介於 .69- .81 之間，創意測驗因並非適性選題，因此未能提供相關信度係數，詳如表11 所示。在平均測量標準誤方面，美感、觀察和科學測驗為0.15 '語文、數學和空間測驗為0.36 '邏輯測驗為 0.35 。各分測驗美感語文空間邏輯推理數學科學推理觀察總題量表 11 各分測驗之 IRT 樣本層次信度係數 (N=5158) 實徵資料模擬資料適性選題施測題數信度隨機選題之題數

9 .80

25

9 .75

15

9 .74

15

13 .69

20

9 .78

15

9 .69

15

9 .81

20

67

125

此外，透過模擬資料分析'tJ透過隨機選題達到相同之信度，則各分測驗需要作祥的題數則為 15-25 題，總題量達 125 題，約為適性選題的兩倍題量。由上述可知， CAT 選題約僅需隨機選題數目的一半即可達到類似的信度，換句話說，適性測驗的進行可以有效率地減少傳統測驗的題

I

j 量。

三、 CACAT-J 妓度擴驗

(一)試圖分析透過 IRT 與 CTT 兩種方式進行試題分析，建立正式試題題庫之難度參數。本研究以加權均方誤 (Infit MNSQ) 為主要指標，挑出不適配之試題，以及參考 CTT 之鑑別度，挑出鑑別度不佳之試題，進行試題內容分析。在計算 CTT 鑑別度時，會採用每位受試者的原始總分與每道試題的得分進行相關係數的計算，然而出於採用 NEVAT 題本配置，各題本的難度可能不一，因而導致 CTT 的鑑別度可能失真。本研究以 IRT 適配度民主，而 CTT 鑑別度為輔，就透過領域專家進行試題是百合保間或刪除之綜合性評佔。各分測驗之試題納入正式題庫之數量，如表 12 所 71\ 。創意測驗因為在正式施測時每位學生僅做一題 'M~不會透過適性選題機制來進行挑選題目，因此未進行 IRT 相關分析。

(13)

102

146

93

102

129

表 12 各分測臨之題量分配試題數 IRT 適配度不佳 CTT 鑑別度不佳

I

0

5

6

3

2 o

13 o

12

4

2

13

20

正式題庫試題數分測驗總預試題數語文數學空間邏輯推理科學推理美感觀察川 79 日 l6O H99 仁 89U (二)與畢業成績之相關 1.圈中基本學力測驗成績本測驗又以圈中基本學力測驗(以下簡稱基測)成績仿效標。在效標樣本方面，因多元入學管道，採 JiEf式樣本中之九年級學牛:且參加基測之 483 人為樣本進行資料分析 o 出表 13 可知，其相關係數介於 .28- 肘，介於低度至中度相關範圍。若從名稱相近之基測成績(包合國文科、數學科、f1然科哼)來右，與本分測驗之相關，兩者間所得之相關係數大多普遍高於性質不同之分測驗所得之相關，如科學推理測驗和基本學力測驗中的內然科之相關 (r= .42) 向一於其他分測驗。表日本測驗與基測成績之相關 (N=

483)

分測驗 99 作度基本學力測驗國文科英文科數學科社會科內然科

語文

.57"

.4

4"

.4

6"

.53"

.50

數學

.56"

.58"

.67叫

.6('

.63"

空間

.4

2"

.37"

.4

8"

.4

4"

.4

7 邏輯推理

.35"

.33"

.32"

.36"

.35

科學推理!

.38"

.32"

.4

0"

.38"

.4

2"

觀察

.34抖

.35"

.33"

.31"

.28

美感

.50"

.4

3"

.4('

.4

6"

.4

4 創意

.4

1"

.37"

.39"

.36"

.4

2"

註.斜體之數宇表示基本學 )J 測驗和本測驗其名稱或內容;有相關性.

**

p

<

.01

2. 美感、創意測驗與在校成組在美感和創意測驗方而，透過 J'{ 底抽樣選取新 it市及北 m四問學校，採八 1j'.級 Jt 114 名學生作為效標樣本。從相關係數中可得知，美感和創意測驗和美術在校成組之相關分別為 .27 和 .25

.

達顯著水準。

(三) tU意翻驗與其他性向瀏擻之效度分析

採前述創意測驗之效標樣本，以《新編創思考測驗一「人的圖把」作業}(吳靜吉等人.

1998)

與《有限解答之擴散性思考測驗一「里的刪減」作業H 陳學志等人. 2009) 等兩份測驗為效標，進行效標關聯效度分析。如表14 所 jh' 繫體而言，本測驗與現有之創意測驗其相關介於.39- .57 。

(14)

284

教育心理學報表 14 創意測驗與致標測驗相關係數 (N= 1l 4) 1.本測驗之創意測驗 2. 新編創造思考測驗 3. 有限解答之擴散性思考測驗

**p<.OI

四、常模建軍

.39··

.5

7"·

.60··

根據試題反應理論(IRT) 所獲得之能力，轉換為平均數80 、標準差 14 、帽、分 125 的量尺分數 o 依據量尺分數轉換為百分等級，並將正式施測之樣本按北部、中部、南部及東吉I)各地區學生比例抽取，建置本測驗之全國常模及性別常模。五、測~結果之高中及高職群科適合度建議透過專家教師挑選其所任教之群科所需具備之重要能力，並依據教育部98 年課程綱要，以各類群之學科學分之比重，決定重要能力之加權比例o 以設計群為例，美感、創意、空間和觀察能力為專家教師所挑選之該群科所需具備之能力，並根據教育部98 年課程綱要學分之比重，依序之權重為 37.78% 、 26.66% 、 20.00% 、 15.56% 。根據八個分測驗之結果進行標準化後取得Z 值，根據上述之方式，建置出高職15 群科以及高中適合度算則，如公式(5 )採用設計群為例。設計群= (空間 Z 值* 0.2+觀察 Z 值*

0.1556

+美感 Z 俯*

0.3778

+創意 Z 值*

0.2666 )

( 5 )

本研究透過立意抽樣，選取高級職業學校中的群科中技能專業具代表之科別的高二及高三學生，進行本研究所編製之測驗 (CACAT-J) 。研究結果發現，就讀該群科學生之群科其適合度推薦皆商於非就讀該群科學生。以設計群為例，就讀設計群之高職學生中有 3 1. 08%被推薦就讀設計群，而非設計群之學生為 18.99%被推薦就讀設計群。在經過檢定後發現，有超過一半之群科在就讀該群科學生之適合度與非該群科學生之比例合-顯著性差異，由此可知，透過本測驗之測驗結果，在 m薦高職群科適合度有不錯的效果。討論及建黨一、 CACAT-J 測驗編製本研究之 H 的在於編製電腦化適性職涯性向測驗 (CAC1\:下n ，以期往後供學校輔導單位使片，j 0 本研究所發展之 CAC1\:下J 測驗共有-八個分測驗，分別為語文、數學、空間、邏輯推理、觀察、科學推理、美感與創意測驗。該測驗適用對象為國中二至三年級學生，作答時間為兩節課 o 從試題晶質來看，本測驗所涵蓋的試題範闡相當廣泛，難度介於-2.98-3.23 '表示不同能力之受試者，特有適合其能力之試題可以進行作答。本測驗在 IRT 之樣本層次信度介於 .69-

.81

;在效度方而，與國中基本學力測驗之相關系數介於 .28-

.67

;美感、創意測驗與美術成績之相關介於中低相關; 而創意測驗與其他效標測驗問之關係介於 .39-

.57

'表示兩者之間具有中低相關。大致上，該性向測驗具心不錯的信度及效度。車里體而言，本測驗布以下幾點特色 o 第一，此測驗架構不僅參酌過去相關研究和數種多因素性向測驗內容外，並針對現今所需之能力，納入新的測驗向度，擴充測驗內涵，以便能真實測量

(15)

也學牛.之能力。其次，透過電腦化適性測驗的計量技術，學生作答之題量可以減少 50% '則可降低學生施測之疲憊感，藉此提升作答動機。第三，全國常模定期更新，可讓受試者有最適當之參照團體可以進行比較，以了解自身之能力 o 第四，透過電腦化測驗可以快速取得測驗結果，不需進行等待 o 最後，根據測驗結果，提供學生高職及高中類群之建議，作為生涯抉擇之參考工具。

二、 CACAT-J 5則屬之功能及實務建議

首先，對學校輔導教師而言，透過測驗工具為牛供豐富之測驗結果，包括測驗成績以及提供高中職群科適合度，有助於教師在進行牛涯輔導時，擁有更具體及明確之內容，以作為課常或諮商時之li~肘及參考。其次，對學生而言，透過測驗結果，能夠瞭解白裁之潛能，有助於自我探索，進而提升對於什身優勢能力的瞭解 o 在進行生涯抉擇時，除了既有之學業成績以外，能;有更多而向之訊，自、進行決策，期許能降低生涯決定之困難。最後，對家長而言，除了平日對於孩于的觀察，亦可透過測驗結果，多面向瞭解其孩子的潛能。家長透過測驗結果與其他相關之資料，與孩手一同討論未來魚涯方向，協助孩子適性發展 o

參考文獻

吳靜吉、陳甫彥、郭俊賢、林偉文、劉士豪、陳玉樺(

1998)

:新續創造思考測驗指導及研究手冊。向北:教育部訓委會o

[Wu

,

C. 仁，

Chen

,

F. Y.

,

Kuo

,

C. 且，

Lin

,

W. W.

,

Liu

,

H. H.

,

&

Ch凹，

Y. H.

(1

998). Guidance manual of the new

的ts

of creative thinking.

Taipei

,

Taiwan: Student

Affairs Committee of Ministry of Education.]

宋|曜廷、 I·H 秀蘭、費[\育文 (2012) :國中與品，中職階段牛涯測驗使用現況之分析研究。教育(，哩學報，

43 (4)

,

875-898

0

[Sung

,

Y. T.,

Tian

,

H. L.,

&

Cheng

, Y.

W. (2012).

An

alysis of career

development tests in secondary

,

high

,

and vocational high schoo

l.

Bulletin of Educational

Psychology

,

43(4)

,

875-898.]

胡1M國(

1991

):發展IU哩學。向北:千圭冠。 [Hu，

H.

K. (1991). Developmental Psychology.

Tai間，

Taiwan:

Gui-Guan.]

教育部 (2011 ):教育統計 100 年版。台北:教育部。 [Ministry

of Education (20

II).

Education Statistics

(2011 ed). Taipei

,

Taiwan: Ministry ofEducation.]

梁褔鎮(2009) :德凶中等教育的現況與改革措施。教育資料集刊，42 ，

273-296

0

[Liang

,

F. C. (2009).

Th

e current situation and reformative measures of

German secondary education. Bulletin of

National Institute ofEducation Resource and Research

,

42 ,

273-296.]

陳學志、洪素蘋、許韓芳、郎咕，政、關秉寅、唐志禹 (2009) :擴散性思考與聚做性思考的交會: icJ'限解答之擴散↑生思考測驗之編製與仿效度檢驗。教育科學研究期刊，

54 ( 4

),

29-61

0

[Chen

,

H. C.

,

Hung

,

S. P.

,

Hsu

,

Y. F.,

Chiou

,

H. C.

,

Kuan

,

P. Y.,

&

Chan

,

C.

Y. (2009).

(16)

286

教育心理學報

divergent thinking test and examining reliability and validity.

Journal of Research in Education

Sc

iences

,

54(4)

,

29-6

1.]

Be紹，

N. E.

,

&

Hackett

,

G. (1981).

Th

e relationship of career-related self-efficacy expectations to

perceived career options in college women and men.

Journal of Counseling Psychology

,

28 ,

399-410

Bock

,

R. D.

,

&

Mislevy

,

R. J. (1982). Adaptive EAP estimation of ability in a microcomputer

environmen

t.

Applied Psychological Measurement

,

6 ,

431-444.

Chen

,

S. Y.,

Ankenmann

,

R. D.

,

& Chang

,

H. H. (2000). A comparison of item selection rules at the early

stages of computerized adaptive testing.

Applied Psychological Measurement

,

24 ,

241-255.

Ch凹，

P.

旺，

Kuo

,

J. 恥，

& Sung

, Y.

T. (2011).

Influence of pre-test design on the precision of the

parameters estimation in the multidimensional items bank. Paper presented at the IMPS 2011

,

the

76rd Annual Meeting ofthe Psychometric Society

,

Hong Kong.

Du Toit

,

M. (2003).

IRT from SSI: Bilog-mg

,

multil嗯，

parscale

,

testfact. Lincolnwood

,

IL : Scientific

soth凡rare

internationa

l.

Embretson

,

S. E.

,

& Reise

,

S. P. (2000).

Item response theory for psychologists.

Mahw曲，

NJ: Lawrence

Erlbaum Associates

,

Publishers.

Friedm凹，

A.

I. (1991). Areas of concern and sources of advice for Israeli adolescents.

Adolescents

,

26 ,

967-976.

Gati

, I.,

&

Amir

,

T. (2010). Applying a systemic procedure to locate career decision-making difficulties.

Career Development

Quarter秒'， 58(4)， 301-320.

Gati

, 1.,

Gadassi

,

R. ,

&

Shemesh

,

N. (2006). The predictive validity of a computer-assisted career

decision-making system: A six-year follow-up.

Journal

of 均cational

Behavio

r,

“,

205-219.

Gati

, I.,

Saka

,

N. ,

& Krausz

,

M. (2001).

“

Should 1 use a computer-assisted career guidance system?"

It

depends on where your career decision-making difficulties lie.

British Journal of Guidance and

Counseling

,

29 ,

301-32

1. Hambleton

,

R. K.

,

& Swaminathan

,

H. (1985).

It

em response theory: Principles and applications. Boston

,

M

A:

Kluwer Academic Publishers.

Linacre

,

J. M.

,

&

Wright

,

B. D. (1994). Dichotomous Mean-square lnfit and Outfit Chi-square fit

statistics. In

B. D. Wright

&

J. M. Linacre (Eds.)

,

Rasch measurement transactions (Vo

l.

8 ,

Part 2 ,

p. 360). Chicago

,

IL: MEAS Press.

Linn

,

R. L.,

& Gronlund

,

N. E. (2000).

Measurement and assessment in teaching (8th ed.).Upper Saddle

River

,

NJ: Prentice-Hal

l.

(17)

Sand

,

W. A.

,

Water

,

B. K.,

&

McBride

,

1.

R. (1

997).

Computerized adaptive testing: from inquiry to

operatio

n.

Washington

,

DC: American Psychological Association.

Tavereira

,

M. D. C.

,

Silva

,

M. C.

,

Rodriguez

,

M. L., &

Maia

,

1. (1998). Individual characteristics and

career exploration in adolescents.

British Journal ofCounseling and Guidance

,

26 ,

89-104.

Wh

itfield

,

E. A.

,

Feller

,

R. 靴，

&

Wood

,

C. (2009).

A counselor's guide to career assessment instruments

(5th ed.). Broken Arrow

,

OK: National Career Development Association

收稿日期: 2013 午一 07 月 II 日一稿修訂日期:

2014

-If.

03 月 24 日 J稿修訂日期: 2014 作 05 月 16 日接受刊登日期: 2014 1f-05 月 16 日

(18)

288

Bulletin of Educational Psychology, 2014, 46(2), 271-288 National Taiwan Normal University, Taipei, Taiwan, R.O.C.

Construction of the Computerized Adaptive Career

Aptitude Test for Junior High School Students

Yu-Wen Cheng

Po-Hsi Chen

Yao-Ting Sung

Department of Educational Psychology and Counseling

National Taiwan Nonnal University

Shin-Hau Chen

Meng-Ting Hsiao

Research Center for Psychology and Educational Testing

National Taiwan Nonnal University

A qualified career test could play an important role in providing information for students' self-understanding and career decision-making. However, there are limitations and problems within the existing career aptitude tests in Taiwan. This study integrates psychological testing, adaptive techniques of psychometrics, and multimedia technology to establish a computerized adaptive career aptitude test (CACAT - J). The CACAT - J consists of brand new subject matters, dimensions and test items. Not only is the test more relevant with increased prediction power, but it also provides beneficial career counseling for students and teachers. The CACAT - J consisted of eight sub-tests: Verbal, Numerical, Spatial, Logical Reasoning, Scientific Reasoning, Observation, Aesthetics, and Creativity. There were 5820 participants in the present study. Reliability for the findings in this study ranged from .69 to .81. In terms of validity, the aptitude test scores were significantly correlated with junior high school students' basic competence tests and ranged from .28 to .67. Through this test, students were able to understand their aptitudes on different skills that would enhance their career exploration and their capacity for effective career decision-making and planning.