台灣醫師心智負荷量表之發展與建立; The Development and Establishment of Mental Workload Scale for Physicians on Taiwan

全文

(1)第一章第一節. 緒. 論. 研究背景. 醫. 醫師的工作充滿著高度的壓力或負荷(workload)，這些負荷可能來自於職場的要求，也可能來自於自我的期許。如果這些負荷被安排或調適在某一適當的範圍內時，不僅有助於敦促醫師提高工作績效 (performance) ，也可以增進醫療品質。但是，如果這些負荷超過他們個人能力所能夠承受的範圍，則不僅會影響到工作績效，降低醫療品質，也可能使醫師做出錯誤的診斷或處置，危害病人的健康，甚至引起醫療糾紛。在另一方面，長時間過高的工作負荷，更會對醫師本身的身心健康造成嚴重的傷害。. 根據研究指出，美國醫師的自殺率是全人口平均的兩倍以上，此外，憂鬱症、藥物濫用及離婚率也都比全人口平均來的高。他們更進一步分析指出，造成這種現象的原因，主要是由於醫療領域的特殊壓力(包括身體與精神的痛苦、害怕、死亡、被病家困擾所造成情緒的緊張等)，以及傳統醫師文化的認知(包括醫師必須忍受過長的工作時間、睡眠的剝奪和完美主義的自我要求等 )，換句話說，造成這種現象的原因，正是目前普遍工作負荷過高的緣故(Miller et al, 2000)。. 此外，無論在美國或是在台灣，醫療糾紛調查的資料分析中都發現: (1)醫師平均工作的時間愈長，發生醫療糾紛的機率就愈大，(2)不同科別 1.

(2) 的醫師發生醫療糾紛的機率有顯著不同，其中以外科、婦產科、麻醉科的機率最高。根據這個分析的現象和工作負荷相關的理論，我們可以做出以下的推論 :「醫師工作的時間愈長，工作負荷就愈大，病患疾病複雜度 (disease complexity)愈高，工作負荷就愈大; 而醫師工作負荷愈大，引發醫療失當 (malpractice)的機率就愈大。」(Sloan, 1989; 謝啟瑞，1992)。. 因此，如何量化(quantify)並且測量(measure) 臨床醫師所承受工作負荷的大小?如何預測(predict)某些臨床醫師是否能勝任這些工作負荷? 逐漸成為醫院管理者及政策制定者的重要議題，也是此篇研究所要探討的主題。. 事實上，早在 1970 年代，工業界就已開始重視這個問題，專家們把這些除了體能以外的工作負荷，統稱為心智負荷(mental workload)。在某些高度心智負荷的工作，像是飛機駕駛員、核能電廠操作員、航管人員等，目前業已發展出多種可以測量他們心智負荷的工具，其中有生理測量法(physiological measures)，例如眨眼率、心跳變異率等，也有主觀測量法(subjective measures)，例如 SWAT 、NASA-TLX 等，而且已經普遍被應用。. 但是，關於醫護人員的心智負荷的測量，則直到 1990 年代以後才逐漸受到專家們的重視，最主要的原因是醫護人員的心智負荷的測量，遠較其他工作人員來得困難，理由是 :(1)醫護人員的工作，面對的是病人，不是儀器，因此無法利用操作者對儀器變化的反應速度來衡量心智負 2.

(3) 荷，(2)醫護人員的工作通常是走動式的，無法侷限在固定位置，很難利用現成已發展出測量人體生理變化的工具來評量心智負荷，因此，專家們必須嘗試另行發展較適合的工具。. 利用主觀測量法，先發展出一套適用於醫護人員心智負荷測量的多向度量表(multi-dimensional scale) ，再進一步結合生理變化測量方法，或許是目前專家們的共同意見。雖然主觀測量法的信度(reliability)較低，但相對於其他方法，它具有較高診斷性 (diagnosticity) 及較低干擾性 (obtrusiveness)等優點，而且耗用成本少、操作容易，因此，似乎較獲得專家們的青睞。. 雖然在國外，陸續有測量醫師心智負荷相關研究報告發表，但在國內，迄今都沒有台灣本土的研究報告，本研究希望能在這方面做初步的嘗試。. 3.

(4) 第二節. 研究目的. 本研究的研究目的有四： (一)發展及建立一套評量台灣醫師心智負荷的多向度量表。 (二)檢視此多向度量表的效度 (validity)與信度 (reliability)。 (三)探討醫師心智負荷之影響因子。 (四)建立台灣醫師心智負荷主觀測量法之參考值。. 4.

(5) 第二章. 文獻探討. 第一節心智負荷的基本概念與定義. 負荷(workload)是一個相當直覺(intuitive)的概念，人類只要活動就會相對產生負荷，如果，我們忽略肌肉疲勞的負荷，只考慮人類心智與生理協調性 (coordination) 所產生的負荷，即可稱為心智負荷 (mental workload)(Jex, 1988)。. 儘管，我們對「心智負荷」一詞所代表的意義似乎有一個共通的概念，但是，如何用文字加以明確的定義，一直是專家們所面臨的難題，因為就如同「愛情」、「快樂」、「悲傷」等名詞一樣，幾乎每一個人都知道它的意思，但卻沒有人能給予精確而且完美的定義。. 要了解人類心智負荷的真正涵義，或許，逐步從前人在心理學領域的研究成果加以探討，較能真正窺探其精髓。. 一、注意力與績效(attention and performance). 首先，從心理學的基本理論中，我們知道，人類不可能同時處理身邊可知覺的所有訊息，人類會選擇性地處理一些特定輸入的訊息，這就是所謂的注意力(attention)(心理學，達利、格魯茲堡、金吉拉等著，楊語芸譯， 1998)。注意力的選擇，有多種不同的理論，其中較為 5.

(6) 人所接受的看法是，注意力選擇的發生，並不是選擇性的阻斷或過濾掉某些感覺的訊息，而是藉著感覺訊息的輸入，選擇性的持有那些在記憶中被喚起或激化的訊息 (Norman, 1968)，而這些被喚起的訊息常是一些較熟悉的刺激，例如自己的名字等。. 在人類處理外來訊息的過程中，注意力，或有人稱為心智努力 (mental effort)(Kahneman, 1973)，扮演著相當重要的角色。心理學家 (Wickens, 1984)曾將人類處理外來訊息的過程整理成一個系統的概念化模型(如圖一)，我們可將其簡化為四個階段:. 1. 短暫感覺儲存(short-term sensory store，STSS) 當人類接受外來刺激時，會立刻將物理的能量轉化為神經的衝動 (neural impulse)，然後將此感覺的神經衝動暫時儲存起來，等待後續的處理，此階段稱為短暫感覺儲存。. 2. 知覺 (perception) 短暫感覺儲存會經由注意力的選擇，忽略一些不必要的感覺刺激，而喚起或激化一些在記憶中有用的訊息，這種現象即心理學上所謂的「雞尾酒會效應」 (cocktail-party effect)。. 3. 決策和反應選擇 (decision and response selection) 這些訊息經過辨認(recognized)後，可能產生三種決策 : 以工作記憶(working memory)的方式長期儲存資訊、與其他資訊整合或引發 6.

(7) 運動反應 (motor response)。. 4. 反應執行 (response execution) 當決策引發運動反應時，在反應執行的階段，神經系統會將此意圖轉譯(translate)成協調的運動功能。. Attention. Short-term Sensory store. Decision and stimuli. perception response selection. Long-term. Working. memory. memory. 圖一 : 人類資訊處理模型 (Model of human information processing ) (Modified from Christopher D. Wickens，1984). 7. Response execution.

(8) 在整個人類資訊處理的過程中，除了 STSS 這個階段之外，都必須要靠注意力 (attention)才能有效運作，但是人類的注意力是不能無限量供應的，如果把它比喻成是一種資源的話，那麼人類的注意力就是一種有限的資源(resource of limited available)，絕對不是取之不竭、用之不盡的，因此當某一個資訊處理的過程需要耗費較多注意力資源 (attention resource)時，同一時間另一個資訊處理過程就只有較少的注意力資源可以使用，其績效(performance)也會隨之降低。. 人類注意力資源的極限，根據 Wichens(1984)的說法可以分為三種，包括有選擇注意力的極限(limits of selective attention)、聚集注意力的極限 (limits of focused attention) 以及共用注意力的極限 (limits of divided attention)。他也曾舉例說，當我們開車突然經過一個擁擠的道路時，就會自然停止與他人講話，以便專心駕駛，就是一個共用注意力資源極限的典型例子。. Wichens 並認為，人類可以藉著學習(learning)與練習(practice)，降低對注意力資源的需求，例如我們可以一邊走路、一邊講話，而不會出錯，是因為「走路」這個資訊處理的過程，經過長時間的練習，已經成為一種十分熟練的技巧，並不需要使用太多的注意力資源。事實上，中國古諺說「熟能生巧」，西諺也說「practice make perfect」，都是這個道理。. 8.

(9) 二、資源供需理論 (resource supply-demand theory). 對於人類注意力，或稱心智努力，很多專家學者都有不同的描述，反映出人類「心智」這塊領域尚未為人所完全了解。. 曾有學者將人類的注意力比喻為探照燈(searchlight)，探照燈投射的方向，就如同我們注意力選擇 (elective)的方向，探照燈投射的範圍，就如同注意力聚集(focused)的範圍，半陰影(penumbra)部分就好像注意力共用 (divided) 的部分，而陰影 (umbra) 部分就是注意力所忽略的部分 (Wachtel,1967)。. 探照燈比喻事實上已將注意力的特性，描述得十分完備，不過為更多人所接受的比喻是資源理論 (resource theory) (Norman, 1968)，後人再進一步衍伸為資源供需理論 (resource supply-demand theory)。資源理論認為，注意力就好像一部具有有限處理能力的多功能電腦，它可以根據不同的工作需求，分配不同等級的資源，當資源分配充足時，績效就會比較好，當資源分配不足時，績效相對就會變差。注意力的資源理論除了強調資源有限的概念外，也提出了人類注意力具有可塑性 (flexible)及分享性(sharable)等特性。. 資源理論之所以重要，是因為它不僅能解釋人類心智的可分性 (divisibility)，也能進一步解釋心智負荷與人類績效 (performance)的關係。Navon 等人也指出注意力資源理論不僅是單位知覺(consciousness)的 9.

(10) 同義詞，更是促使人們產生績效的一種假設性建構 (hypothetical construct) (Navon et al,1979)。. Kahneman 首先提出人類心智努力 (即注意力)資源的預測模型，他認為心智努力資源就像一個未分化的資源池 (undifferentiated resource pool)，當工作需要較多的資源需求時，生理喚醒機轉(physiological arousal mechanism)就會增加身體某部分資源的供給，但如果所增加的資源供給仍不足以完全代償時，供需落差 (supply-demand shortfall)(即心智負荷)就會增加，績效就會下降。當供需落差增加時，人體的生理就會出現喚醒機制所出現的某些現象，例如心跳速率加快、瞳孔放大等表徵，這些表徵可以加以測量成為資源活動 (resource mobilization) 的指標 (Kahneman,1973)。. 三、心智負荷的定義 (definition of mental workload). 由以上的資料，我們可以大略窺探出專家們對心智負荷的看法，不過要為心智負荷下定義還是十分困難。. Moray 依據人類資訊處理模型為心智負荷下定義說“心智負荷是指人類資訊處理的速率，下決策的速率，及伴隨決策所產生的困難程度” (Moray,1979)。. 10.

(11) Hart 等人則以操作者 (operator)的觀點提出心智負荷的定義，他們認為“心智負荷是一種假設性建構(hypothetical construct)，代表著一個操作者為達到某一特定層級的績效，所要付出的代價(the cost incurred by a human operator to achieve a particular level of performance) (Hart et al,1982)。. 根據資源供需理論 (Resource supply and demand theory)的說法，心智負荷則可定義為“一個人所能提供的資源與工作所需要的資源的落差 (The differences between the amount of resources available within a person and the amount of resources demanded by the task situation.)”(Kahneman, 1973) (圖二 )。 Wichens 進一步闡釋說，當工作所需要的資源大於操作者所能提供的資源時，其所超過的部分就是操作者所承受的心智負荷，落差愈大，心智負荷就愈高，相對工作績效就會降低，相反地，當供給大於需求時，心智負荷就比較低，相對工作績效就會提高，其與操作者所能供給最大資源之間之差稱為剩餘能力 (residual capacity) (Wichens,1984)。. 1988 年，Jex 再以操作者活動的觀點發表他對心智負荷定義的看法，並且提出所謂負荷邊際(workload margin) 的新名詞來詮釋心智負荷。根據 Jex 的說法，負荷邊際是指活化能力(motivated capacity)與工作需求 (task demands)之間的落差，他認為操作者對工作的注意力需求會隨著時間的改變而有所變化，某些工作僅需少許注意力，而某些工作則需大量注意力，如此操作者的注意力存在一個模糊的區域(fussy band)，稱之為 11.

(12) Perfect system supply-demand shortfall Max Residual Resource. Human performance. capacity. supply. resource (task)demand 圖二 : 資源供需與人類績效的關係 (Relation between resource supply, resource demand and human performance , Modified from Kahneman，1973). 活化能力，活化能力對同時間工作需求之間的落差，稱之為負荷邊際，負荷邊際愈大表示心智負荷愈小，負荷邊際愈小表示心智負荷愈大 (如圖三 )。因此，Jex 進一步對心智負荷下定義為“心智負荷是指操作者完成足夠的工作績效時，對注意力負荷邊際的評估”(Mental Workload is the operator’s evaluation of the attentional workload margin while achieving adequate task performance in a mission–relevant context)。一般而言，隨著時間的進展，人的活化能力會因為某些因素而改變，例如練習(增加 )、疲倦 (降低)或無聊 (降低)，人與人之間也會因為訓練的不同、身心狀態的不同，活化能力也會有所不同，但這些因素並不影響到我們對心智負荷的基本定義 (Jex, 1988)。 12.

(13) Physiological capacity Motivated capacity Workload margin Task. high. Workload low Task demands time. ，. 圖三 : 負荷邊際的概念 (Concept of Workload Margin ) (Modified from H.R. Jex， 1988). 13.

(14) 第二節. 心智負荷的相關理論. 一、績效資源方程式 (performance-resource function， PRC). 前已提過，1968 年 Norman 首先提出注意力的資源理論，接著 1973 年 Kahneman 提出人類心智努力的預測模型，1975 年 Norman 及 Bobrow 等人在探討人類績效與資源理論的關係後，又發表有名的假說性 (hypothetical) 方程式，稱為績效資源方程式 (performance-resource function，PRC)。績效資源方程式的基本理論是說，當某人所能提供的資源大於工作所需要的資源時，表示此工作對某人所產生之心智負荷較低，則其所能達到的工作績效便較佳，反之則較差。我們可以從單一工作模式 (single-task model)、雙重工作模式(dual-task model) 及績效操作特徵 (performance operating characteristic， POC)分別加以探討。. (1)單一工作模式 (single-task model)與績效的關係. (如圖四)以單一工作(single-task)而言，假如所有的資源都投入此一單一工作時，其績效可達最佳 (A 點)，但是，如果同時有另一工作分享其資源，或其他原因，使得資源無法全部投入此一工作時，其績效就會降低(B 點)，但只要投入的資源達到某一程度以上(C 點 ) 時，不必全部資源，也可能達到最佳績效。 Norman 稱 C 點與 A 點間為資料有限區 (Data-limited region) ， C 點之前成為資源有限區 (resource-limited region)。 14.

(15) Data-limited. ResourceC. limited. A. performance. resource. 0%. B. 100%. 圖四 : 績效資源方程式 -單一工作 (from“On Data-Limited and Resource-Limited Processing” ). (2)雙重工作模式(dual-task model) 與績效的關係. 在討論雙重工作模式前，我們必須引用資源供需理論所說的，人類注意力資源具有相當的可塑性 (flexible)及分享性 (sharable)等特質，並假設人類可以將注意力資源以各種不同的比例的方式分配於各種不同的工作。. (如圖五)我們假設有 A、B 兩種時間共用的工作(time-shared tasks)必須在同一時間完成，在任何單一工作模式下，A、B 都可達到最佳績效，但在雙重模式、共用有限資源的情況下，A、B 兩種工作 15.

(16) 的績效都會受到影響，無法達到最佳狀況，例如：各分配 50%的資源於 A、B 兩種工作，如圖五所示，A 與 B 的績效都會降低。. Performance On A. 0%. 50%. 100%. Resource to A. Performance On B. 100%. 50%. 0%. Resource to B 圖五 : 績效資源方程式-雙重工作 (modified from“ On Data-Limited and Resource-Limited Processing” by D. Norman and D. Bobrow, 1975). 16.

(17) (3)績效操作特徵 (performance operating characteristic， POC). Norman 及 Bobrow(1975)在探討人類雙重工作模式的特性後，又提出一新的概念名詞，稱為績效操作特徵 (performance operating characteristic，POC)，績效操作特徵的涵義可以簡單地從單一圖表中表現出來(如圖六)，根據 Norman 及 Bobrow 等人的說法，我們可以歸納幾個重點如下 :. 1. 雙重工作模式最理想的情況是 A、 B 都同時可達到最佳績效( P 點)，不過這在現實上是不可能的，因為資源有限的情況下，時間共用的工作(time-shared tasks)，彼此的績效一定會受影響。 2. 在雙重工作模式下，即使所有資源全部投注在 A 工作，A 工作仍然無法達到完美績效(perfect performance)，完美績效與實際績效之間的落差稱為同時成本(cost of concurrence)，同時成本的現象在實務上隨處可見，例如兩工作處在不同的視野範圍 (visual field)，就可能出現同時成本。 3. 兩工作的時間共用效率 (time-shared efficiency)可從曲線到原點 O 的距離顯示出來，若曲線距離 O 點愈遠，或者說距離 P 點愈近，表示工作的效率愈高。 4. 曲線的線性 (linearity) 或平滑度(smoothness)表示兩工作間是否能平順地共享或交換資源的程度，曲線愈平滑，表示當 A 工作的資源轉移到 B 工作時，愈能迅速改善 B 工作的績效。. 17.

(18) Single task A. good. Cost of. P. concurrence efficiency Dual task A. poor O Dual task B. Single task B. 圖六 : 績效操作特徵 (performance operating characeristic， POC) (modified from“ On Data-Limited and Resource-Limited Processing”by D. Norman and D. Bobrow, 1975). (4)自動性(automatism)與困難度(difficulty). 工作績效與工作的自動性(automatism)、困難度(difficulty)之間的關係也可以從績效資源方程式(performance-resource function，PRF) 中清楚地顯現出來， (如圖七所示 )有 A、 B 兩種不同的工作，各有不同的 PRF 曲線，很顯然地，在同等的績效下，B 工作比 A 工作需 18.

(19) 要較少的資源，而且有較大的資料有限區 (data-limited region)，表示 B 工作比 A 工作的困難度較低，或者說，B 工作比 A 工作有較佳的自動性。事實上，在實際的經驗中，人類可憑藉著對工作的不斷練習 (practice)，而使工作的 PRF 曲線向左移，意思是說，練習可以降低工作的資源需求，提高績效，或者說，練習可以減少工作的困難度，增加自動性。. B performanc A. resources 圖七 : 績效資源方程式與練習 (performance-resource function and practice) (Modified from Christopher D. Wickens, 1984). 19.

(20) 二、多重資源理論 (multiple-resource theory). 較早的資源理論認為，人類的心智努力資源是一個中央未分化的資源池 (undifferentiated resource pool)，當有工作需求時，中央資源池再分化為各式不同能力(capacity)的資源以供應工作所需，但仍由中央統籌管理，這種“單一資源理論”受到若干學者的質疑，他們認為人類本來就具有各種不同形式資源所衍生的能力 (several different capacities with resource properties)，當有不同的工作需求時，在不同的階段，則由不同的形式資源直接供應，這種理論稱為“多重資源理論 (multiple-resource theory )”。. 多重資源理論雖然很早就由 Kantowitz and Knight(1976)、 McLeod(1977)、Allport(1980)等學者所提出，但比較有系統加以闡述的是 Navon and Gogher(1979)及 Wickens(1980)等學者。根據 Wickens 的說法 (如圖八 )，人類的多重資源可用三種不同的二分向度 (dichotomous dimensions)來表示 :. 1. 階段資源(stage-defined resources) ，進一步分為編碼(encoding)、中央處理(central processing )及反應 (responding) 三個階段。 2. 形式資源 (modality-defined resources) ，分為聽覺 (auditory) 與視覺 (visual)兩種知覺。 3. 編碼資源(code-defined resources) ，分為空間(spatial)與語言 (verbal)兩種編碼。 20.

(21) 任何兩種時間共用 (time-shared)的工作需求都可能用到這三種不同的工作資源，而不僅是單一形式的資源，不同工作資源間彼此扮演的是一種協同、合作的角色，而不是競爭或拮抗的角色。因此，在多重資源理論的架構下，雙重工作模式 (dual-task model) 可以推論出，時間共用的工作將更有效率，單一工作的困難度也比較不會影響到另一工作的績效。Wickens 所提的多重資源理論的三個向度，雖然無法完全解釋人類雙重工作績效 (dual-task performance) 及時間共用效率 (time-shard efficiency) 等所有結構性的現象，但他指出三個主要二分法 (major dichotomies)的向度，為實務操作的系統設計者提供了新的思考方向。. 21.

(22) stages encoding. Cental processing spatial. responding manual. responses. visual verbal. Modalities. vocal. auditory. spatial codes. verbal. 圖八 : 多重資源理論的可能架構 (the proposed structure of multiple-resource theory) (modified from“Processing Resource in Attention”by Wickens，1980). 22.

(23) 第三節. 心智負荷測量的準則與原理. 在探討心智負荷的基本理論後，我們所要關心的是，在實務上，我們可以能用什麼方法去測量 (measure) 或預測(predict) 操作者可能承受心智負荷的大小 ? 哪一種方法較能準確地測量出心智負荷? 理想的心智負荷測量方法要具備哪些基本要件?. 一、心智負荷測量的準則 (criteria for mental workload measures). 事實上，這二、三十年來，在各個領域，有無數的專家曾嘗試提出各種不同測量心智負荷的方法，有些方法經過多年來實務上的檢驗，為各界所認同，也已廣泛應用在工業界，另外也有些方法雖然精確，卻相當昂貴，不切實際，也有些方法雖然簡單、實用，但信度 (reliability)卻不高，到底一種好的心智負荷測量方法要具備哪些基本要件 ? 專家們提出他們的看法。. Sheridan 及 Stassen 等人(1979)曾提出，心智負荷的測量工具應該符合某些準則 (criteria)才是理想的測量指標(indices)，這些準則經過 Wickens 等人(1981)加以修改後，整理成五個條件，並且指出所有的心智負荷的測量指標必須要符合這五個條件才能真正評量出心智負荷的高低，這五個條件分別是 :. (1)Sensitivity(敏感性) 23.

(24) 指標必須隨著對於工作 (task)資源需求的改變而改變。 (2)Selectivity(特異性) 指標必須不隨著非工作相關的資源需求的改變而改變。 (3)Diagnosticity(診斷性 ) 指標不僅表達出負荷大小的改變，也表達出改變的原因。 (4)Obtrusiveness(阻礙性) 指標必須不妨礙到主要工作的進行。 (5)Reliability(可靠性) 指標對於相同工作及相同測試者，必須產生一致的結果。. 1988 年， Jex 也曾對理想的心智負荷測量工具發表他的看法，並提出了以下五項準則 :. (1)Relevant(相關性 ) 指標與心智負荷產生的主要成分(components)有直接相關。 (2)Sensitive(敏感性 ) 指標對負荷產生之變數有較高的檢驗力 (test power)，對非負荷產生之變數不敏感。 (3)Concordant (協調性 ) 指標對目標群體(target population)有普遍趨勢(ubiquitous trends)。 (4)Reliable (可靠性 ) 指標對一測再測法 (test-retest method) 具有較高的穩定性信度 (stability reliability)。 24.

(25) (5)Convenient (方便性 ) 測試工具容易學習及施行，而且具有可移動性 (portable)及低價格 (low cost)。. 雖然，專家們都提出了他們對理想測量工具的看法，但是在實務上，不可能會有任何一種測量工具指標，當然包括對心智負荷的測量，能完全符合專家所提的標準，我們必須針對自身的需要、設備及經費，設計或採用比較符合以上準則的工具指標。. 二、心智負荷測量的原理 (theories for mental workload measures). 前面說過，心智負荷是一種相當直覺的概念，相同的工作，因人、因時、因地的不同，都可能產生不同的結果，因此，比較難有客觀的標準來加以評量，既然如此，心智負荷的測量到底要如何著手呢? 要拿哪些變數當作衡量的指標呢 ?. Jahns(1973)曾經提出人類心智負荷的產生至少具有下列三個主要成分 (major components) :“輸入負荷”、“操作者努力”及“績效”，三者呈下圖的關係。. 輸入負荷. 操作者努力. (input load). (operator effort) 25. 績效 (Performance).

(26) “輸入負荷”是指加諸於操作者的環境與工作需求(environment and tasks demand) ，包括環境的 (environmental) 、工作設計的 (design-induced)及程序的(procedural) 三個部份“操作者努力”是指操作者對輸入負荷的反應程度，操作者努力的程度可藉由內部目標(internal goals)、激勵 (motivation) 及工作準則採用(task criteria adopted)來加以評量，“績效” (或稱“工作成果”)則是指操作者對輸入負荷的反應成果。. Jahns 認為，經由測量這三個主要成分，我們可以評量操作者所承受心智負荷的大小，不過，一般相信，“操作者努力”才是心智負荷最重要的成分，直接測量“操作者努力”的強度 (intensity)，才能真正反映出心智負荷的大小，測量“輸入負荷”或“績效”只是間接的評量方法。. (1)如何直接測量“操作者努力”的強度 ? 我們可以利用幾種方法:. (a)生理反應(physiological response). 生理反應可以用來作為測量心智負荷的指標，根據前述的資源供需原理，當工作需求需要較多的資源時，操作者生理喚醒機轉 (physiological arousal mechanism) 就會代償地增加身體某部分資源的供給以應付工作所需，但如果所增加的資源供給仍不足以完全代償時，供需落差就會增加，人體就會出現喚醒機制所出現的某些現象，例如交感神經興奮所引起之生理反應，像是心跳速率加快、瞳孔放大、眨眼次數減少、腦波出現特殊活化電位等等生理表徵，我們可 26.

(27) 以再工作當時、或工作剛結束時，利用儀器測量這些特異性的生理表徵，與工作前(心智負荷未增加前)的生理狀況相比較，即可評估出“操作者努力”的強度，當作承受心智負荷大小的指標。. (b)主觀感受(subjective perception). 心智負荷本身是一種相當直覺的概念，相同的工作負荷，不同的人，主觀感受就不盡相同，所承受的心智負荷也不盡相同，即使是同一個人，接受相同的工作，也會因為是否有受過適當的訓練 (training) 和練習(practice)、與當時的生理、精神狀況不一樣，而有所不同，因此，主觀的感受在評量操作者的心智負荷是非常重要的。. 我們必須強調，心智負荷是以人為中心(human-centered)，是以操作者為中心 (user-centered) ，而不是以工作為中心 (task-centered)(Hart, 1986)，因此，所謂的工作「困難度」並不能直接代表心智負荷的高低，而必須以人的「主觀感受 (subjective perception)」為主。但人的主觀感受，操作者往往都無法有系統、有程度化地加以表達，所以，我們可以設計出一套敏感度高、效度高、信度也高的問卷，能符合專家們前面提過的各項指標準則，在實務上，在工作剛結束之際，對操作者直接加以測試，即可評估出“操作者努力”的強度，當成心智負荷大小的指標。. 目前測試主觀感受的問卷，比較有名的像是 SWAT 、 27.

(28) NASA-TLX 等，已經普遍被應用。. (2)如何測量“績效”，間接評量操作者心智負荷的大小? 我們可以利用幾種方法:. (a)剩餘能力(residual capacity). 根據資源供需理論，當工作所需要的資源大於操作者所能提供的資源時，其所超過的部分就是操作者所承受的心智負荷，落差愈大，心智負荷就愈高，工作績效就會降低，相反地，當供給大於需求時，心智負荷就比較低，工作績效就會提高，其與操作者所能供給最大資源之間之差稱為剩餘能力 (residual capacity)，所以，我們可以利用各種方法測量操作者的剩餘能力，剩餘能力愈大，表示心智負荷愈低，反之亦然。. 為了測量剩餘能力，我們可以設計出一些特定的工作讓受測者來完成 (可稱為雙重工作模式)，原先的工作稱為主要工作(Primary Task)，而所設計的工作稱為次要工作 (Secondary Task)。主要工作與次要工作的關係，由於兩者使用共同的資源，在主要工作的績效不變的情況下，根據資源供需理論可以推論，當主要工作無需要耗費很多資源時，意即有較大的剩餘能力時可用來供給次要工作之所需，此時，次要工作的績效表現就會較好，而當主要工作需要耗費較多資源時，次要工作的績效就會受到影響，因此，只要測量次要 28.

(29) 工作的績效就可以來測量主要工作對受測者所產生之心智負荷有多高。. 實務上，為了測量剩餘能力而設計的次要工作法有很多，例如規律輕拍法 (rhythmic-tapping)、時間估計法 (time estimation)、試探反應時間法 (probe reaction time) 、亂數產生法 (random-number generation) 、 Sternberg 記憶搜尋法 (memory-search )等等。. (b)主要工作績效(primary task performance). 利用主要工作績效來間接評量操作者心智負荷的原理很簡單，根據資源供需理論，當操作者所提供的資源大於工作所需要的資源時，其能達到的工作績效便較佳，表示此工作對某人所產生之心智負荷較低，反之亦然，因此只要測量主要工作的績效，即可評量心智負荷的大小。. 不過，在實務上，除非主要工作的內容是屬於比較規則化、系統化的工作，可藉由產能來加以評估績效，否則，主要工作的績效往往很難加以測量，因此，主要工作績效法在實際上很少被利用。. (3) 如何測量“輸入負荷”，間接評量操作者心智負荷的大小? 29.

(30) 前面已說過，工作的困難度並不能代表操作者的心智負荷，因此，使用“輸入負荷”來評量心智負荷的大小在理論上似乎不大可行。. 不過，如果在雙重工作模式(或多重工作模式)下，我們假設所有資源的需求是屬於“單一管道模式” (single-channel model)，所有可觀察的活動或工作都需要全注意力(full attention)，那麼，使用時間線分析 (time-line analysis)來代表“輸入負荷”的大小，也可以用來間接評量操作者心智負荷，這在若干實務的運作上是可行的。. 30.

(31) 第四節. 現行心智負荷測量的方法. 關於現行心智負荷的測量方法有非常多種，專家們根據其測量方法的性質不同，將其整合成若干大類，有人曾將心智負荷的測量方法分為四大類，即主要工作績效法(Primary Task Performance)、次要工作績效法 (Secondary Task Performance)、生理測量法 (Physiological Measures)以及主觀測量法 (Subjective Measures) 四種 (Wierwille and Williges, 1978; Meshkati et al, 1988)，也有人則將心智負荷測量法區分為五大類，即前述四種再加上時間線分析法 (time-line analysis)(Wickens, 1984)，另外， Sherisan 及 Stassen 等人(1979)也提出另一種分類法，他將其分為五大類，包括生理測量法、雙工作測量法、主觀測量法、主工作測量法及注意力配置測量法 (attention allocation)。Jex(1988)也發表另一種分類法，他將心智負荷的測量方法分為兩大類，即客觀測量法 (objective measures)和主觀測量法 (subjective measures)，客觀測量法則再進一步分為工作需求法(task demands)、工作結果法 (task results)和關連測量法(correlated measures)等三種。. 本篇我們採用 Wickens(1984)所發表的分類法，即包括時間線分析法、主要工作績效法、次要工作績效法、生理測量法以及主觀測量法等五項一一來探討，其中以生理測量法和主觀測量法較為重要。. 31.

(32) 一、時間線分析法 (time-line analysis). 時間線分析法原本就是一種系統設計者(system designer)用來預測操作者工作負荷的測量工具，根據 Parks 等人(1979)的研究指出，時間線分析法的基本假設就是，操作者的工作負荷等同於操作工作的時間，假如，一個人在一段時間內， 100% 時間都做某一種可測量的工作 (measurable task) ，就表示它的工作負荷為 100%，也就是說，工作負荷可在圖上畫一條時間線表示出來，當操作者同時進行多種時間共用的工作 (time-shared tasks)時，將其各種工作的時間線加總之後，除以總時間，即為其總工作負荷 (如圖九所示)。. 時間線分析法原則上是一種很好的工作負荷預測工具，但它也存在著很大的限制(limitation)，第一，它假設人類注意力是一種“單一管道模式” (single-channel model) ，工作可觀察的活動(observable activities) 都需要全注意力(full attention) ，而其他非可觀察的活動(non-observable activities)，像是決策制定、解決問題，都不需要注意力，這種假設是與事實相違背的，另外，根據其理論，任何時間共用的工作都可能造成 200% 的工作負荷，都會變得非常沒有效率，這與心智負荷的基本理論，像是績效資源方程式(PRF)、績效操作特徵 (POC)也都相違背。第二，時間線分析法只適用於相對外力步調 (force-paced)的工作，對於某些專業的工作，工作特質具有高度自我步調(self-paced)及彈性 (flexibility)，可自行調整工作時間來應付工作需求，像是飛機駕駛員、醫師、精算師等工作，時間線分析法完全無法適用(Wickens, 1984)。 32.

(33) Task A B C. Time Workload (%) 100. 圖九 : 時間線分析(time-line analysis) (from“Current workload methods and emerging challenges” by Parks，1979). 二、主要工作績效法 (Primary Task Performance). 前面提過，利用主要工作績效來評量操作者心智負荷的原理很簡單，不過，在實務上施行卻有相當的困難性，除非主要工作的內容是屬於比較規則化、系統化的工作，而且工作不同，績效的評量很難有一致的標準，因此，主要工作績效法在實際上很少被使用。. 33.

(34) 三、次要工作績效法 (Secondary Task Performance). 次要工作績效法主要的立論點就是雙重工作模式(dual task model)與績效的關係，前面提過，由於大部份工作並無法直接測量其所產生之心智負荷有多高，因此，為了能將心智負荷的程度量化，也為了有統一的標準能加以比較，我們常會設計出一些特定的工作讓受測者來完成，稱為雙重工作模式，原先的工作稱為主要工作(Primary Task)，而所設計的工作稱為次要工作 (Secondary Task)，主要工作與次要工作的關係，由於兩者使用共同的資源，在主要工作的績效不變的情況下，根據資源供需理論可以知道，當主要工作不用耗費甚多資源時，即有較大的剩餘能力 (residual capacity)或剩餘資源(residual resource)可用來供給次要工作之所需，此時，次要工作的績效表現就會較好，而當主要工作需要耗費較多資源時，次要工作的績效就會受到影響，因此，測量次要工作的績效就可以來測量主要工作對受測者所產生之心智負荷有多高。. 目前較常被專家提到的次要工作績效法有下列幾種:. (1)規律輕拍法(rhythmic-tapping). 規律輕拍法最早是由 Michon 所提出，他要求受測者在工作的同時，維持一個手指輕拍的規律動作，然後由儀器測量這個輕拍動作的規律性，這個方法的基本假設是，主要工作會影響中樞決策和反應選擇(decision and response selection)的階段，使得輕拍動作(次要工作)的 34.

(35) 變異性(variability)增加，藉由測量變異性增加的情形，間接評量受測者的心智負荷(Michon,1966)。這個測量法最主要的缺點是它的阻礙性 (obtrusiveness)，因為它會妨礙到主要工作的進行(Wickens, 1984)。. (2)時間估計法(time estimation). 我們都有這樣的經驗，當工作忙碌時，常會主觀覺得時間流逝的很快，當生活無聊時，也會主觀覺得時間過得很慢，利用這種現象也可以用來幫助我們評估心智負荷。 Hart 等人(1975)曾提出所謂時間估計法，要求操作者在工作中每 10 秒鐘輕拍一下手指，他的基本假設是，人的心智有一個內部計時器 (internal counter)會自行估算這個時間差，可是當主要工作的負荷增加時，這個內部計時器就會受到影響而延緩，所估算時間差的就會延長，利用這個原理，我們只要測量所延長的程度就可以間接評量心智負荷。另外， Hicks 等人(1977)則是採用回溯性估算 (retrospective estimation)的時間估計法，他要求操作者在主要工作完成時，立刻估算剛才工作的時間，它也發現當工作的負荷增加時，所估算的時間就會被低估，其原理與前面所提的都一樣，因此也可以間接評量心智負荷的大小。. 時間估計法最大的優點是，高度的方便性 (convenience)與低度的阻礙性(obtrusiveness)，但是，最大的問題是，他對於所測量的結果缺乏一致性(consistency)或可靠性(Reliability)，所以實務上的應用也有困難(Wickens, 1984)。 35.

(36) (3)試探反應時間法(probe-reaction-time). Posner 等人 (1971)曾提出所謂試探反應時間 (probe-reaction-time) 的方法也可以用來評量心智負荷，尤其對於認知性的工作 (cognitive task) 效果較為顯著，它的方法是先行設計一種未預知的刺激 (unpredictable stimulus) ，要求受測者當在工作中突然出現這種刺激時，必須馬上做出某種反應，然後利用儀器測量受測者的反應時間，它的主要原理是，當主要工作的資源需求愈高時，受測者反應時間就會變慢，利用測量反應時間的快慢就可以間接評量心智負荷的大小 (Posner et al, 1971)。這種方法的缺點是，當所測量的工作不是認知性的工作時，經過練習 (practice)常會形成反射動作 (Wickens, 1984)。. (4)亂數產生法(random-number generation). 亂數產生法 (random-number generation)這種次要工作績效法最早由 Baddeley 所提出，他要求受測者在工作的同時，每隔一小段時間，必須產生一系列的隨機數字，他觀察到，當主要工作的負荷加重時，則受測者所產生的隨機數字的亂度(degree of randomness)就會降低，變成一系列單調的數字，像是“123 123 123”等樣式，當主要工作的負荷減輕時，受測者所產生的亂度就會增加，藉由這個基本原理，計算隨機數字的亂度也可以用來評量心智負荷(Baddeley, 1966)。. 36.

(37) 四、生理測量法 (Physiological Measures). 生理反應也常用來作為測量心智負荷的指標，主要原理是當一個人心智負荷增加時，身體交感神經會興奮、注意力(attention)會集中，此時，生理上會出現某些特異性的反應，測量這些特異性的反應，與心智負荷未增加前的生理狀況相比較，即可評估出心智負荷的大小。. 雖然生理測量法有以下的優點 : 原理簡單易懂，可以相對長時間持續紀錄，而且很早就有學者提出很多相關研究，但仍無法普遍應用，主要原因 ( 缺點 ) 有以下幾點 : 第一、生理測量法常具有阻礙性 (obtrusiveness)，它必須是在某些侷限固定位置的工作才能施行，因為生理反應的測量必須在身上裝置監測儀器，這些監測儀器也必須連結到主機，甚至電腦上，因此，除非使用無線傳輸設備，否則較難應用在移動的工作人員; 第二、早期的生理測量法，往往因為技術不夠成熟，所以所得到的數據，敏感性(Sensitivity)、特異性(Selectivity)常不夠，信效度受到質疑; 第三、生理測量法的設備往往太過昂貴，所以經常止於研究，一般機構或企業無法廣泛應用。. 目前較常被利用的生理測量法有下列幾種:. (1)心跳的測量. 心跳(heart rate)是最常被用來測量心智負荷的生理性指標，最早 37.

(38) 在 1967 年，Lancy 即指出簡單的心跳測量法可以提供不同工作需求的生理性指標。 1971 年， Rohmert 及 Laurig 等人更指出某些心律不整(arrhythmia) 似乎與“心智負荷有某種程度相關”，兩年後，1973 年，他們更進一步指出，有三種心電圖上心跳變異的參數與心智負荷有關，包括“δ HR(δheart rate)”“CS(change of the sign)”以及 “ number of negativeδHR”。1979 年，Sheridan 及 Stassen 也發現當受測者工作負荷增加時，心跳變異數(heart rate variability， HRV) 會降低，並且建議，心跳變異數可以作為操作者在工作負荷及情緒反應上的一個整合性指標。Mulder (1979)、O’Donnell 及 Eggemeier (1986)以及 Wilson 及 Eggemeier (1991)等人都曾在實驗室內或實務上證實心跳變異數可以當成認知性心智負荷的指標，並且指出心跳變異數中強密度譜系(the power density spectrum of HRV ) 的 0.1Hz small peak 具有較高的診斷性(Diagnosticity)與敏感性(Sensitivity)。. 此外， Richard (1998)曾利用因素分析方法 (factor analytic methods)，希望找出心血管自律神經影響心跳變異的主要成份，作為心智負荷的評量。 Sammer(1998)也發表嘗試整合人體心跳變異數與呼吸型態的改變，希望建立一套心智負荷的預測模型。. (2)大腦活動的測量. 大腦活動的測量主要在監測大腦對刺激的反應，事實上，在所有的生理測量法中，測量大腦皮質的刺激反應直覺地被認為應該是 38.

(39) 評量人類心智負荷最具診斷性(diagnostic)的指標，如果能從腦波 (EEG) 中找到與心智壓力最有相關性的特殊波形或激發電位 (evoked potential) ，同時發展不具阻礙性 (non-obtrusive)的腦波儀器，將是所有專家的夢想，不過，人類腦部的活動何其複雜，顯示在腦波的型態也極富變化，如何區別何種波形對哪種特殊心智壓力是有意義的(signal)? 何種波形只是雜訊(noise)? 目前專家的解讀能力仍然是非常有限。. 早在 1967 年， Sutton 等人提出大腦皮質會出現一種 evoked potential(EP)的特殊腦波，稱為 P300 component(Sutton,1967)，可能與人類特殊的認知性 (cognitive) 活動有關後，很多專家就進一步進行實證性的研究。 Duncan(1977) 就指出， P300 component 的振幅 (amplitude)可以表示受測者對於一個外來刺激(stimulus)主觀驚訝的程度 (degree of subjective surprise) 。 Donchin(1981) 也發現 P300 latency 可能與受測者在評估如何反應外來刺激時的困難度有關，困難度愈大，P300 latency 時間就愈長。另外， Isreal 等人(1980)對受測者進行 visual tracking task 及 auditory oddball task 測試，也發現 P300 component 從基線(baseline)明顯地下降。這些文獻報告似乎都顯示出， P300 的腦波可以當成對心智負荷測量的重要指標之一。. (3)眼睛活動的測量. 我們外在的資訊大部份都憑藉著眼睛來獲取，所以眼睛的活動 39.

(40) 狀態也被專家們認為可以反應人體的心智負荷，目前曾用來評量人體的心智負荷的眼睛活動參數有眼睛注視的位置、眼球的移動、瞳孔的大小、視網膜圖以及眨眼率等。. 眼睛活動測量的研究比較少，主要的原因是研究的操作上顯然比其他測量法困難多了。以眨眼率(blink rate)為例，各項研究顯示，在需要高度注意力 (attention)的工作下，眨眼率會隨著視覺需求的增加而降低 (Goldstein, 1985; Bauer, 1985) 。 Stern 及 Skelly 等人 (1984)曾做過這樣的實驗，在飛行模擬的訓練中，有 A、B 兩個飛行員在駕駛艙內，當 A 當正駕駛時，A 的眨眼率就顯然比 B 為低，反過來，B 當正駕駛時， B 的眨眼率就會比 A 低，顯示出眨眼率會因視覺負荷的改變而改變。不過，專家認為，雖然眨眼率是視覺負荷的一種有效指標，但較不適用於測量聽覺或認知負荷。. (4)其他生理測量法. 除了以上三種生理測量法較常被應用外，還有其他方法，例如呼吸的速率、肌肉的張力、手指顫動的振幅 (finger plethysmogram amplitude) 及出汗(perspiration)程度 (Shiniji Miyake, 2001)，以及新陳代謝率 (metabolic rate)(Richard and Kimberle, 1994)等，也都曾被用來評估心智負荷的指標。. 40.

(41) 五、主觀測量法(Subjective Measures). 在心智負荷的測量上，主觀測量法(Subjective Measures)公認是最能被接受、最容易實施、也是被最廣泛使用的方法。前面提過，心智負荷的概念是以人為中心 (human-centered) ，是以操作者為中心 (user-centered)，而不是以工作為中心(task-centered)(Hart, 1986)，因此，所謂的工作「困難度」並不能直接代表心智負荷的高低，而必須以人的「主觀感受(subjective perception) 」為主，因為即使是同樣「困難度」的工作，由不同的人操作，所感受到的心智負荷也必然不同。所以，Sheridan 等人(1980)就說，“主觀測量法比其他測量法更能擷取心智負荷的本質 (tapping the essence of mental workload) ”。. 但是，所謂人類的「主觀感受」，即使是操作者本身也往往無法有系統、有程度化地加以表達，當我們詢問某人工作負荷如何時，往往會聽到回答說: 「我的工作非常忙碌!」、「我的工作負荷太大了 ! 」、「我的工作充滿了壓力 !」等等字眼，這些字眼雖然也能夠讓我們感受到工作負荷的大小，但是卻無法做程度化的比較，從管理的角度而言，這種字眼是毫無意義的，我們必須能有一套可以量化、可以比較的指標，一套敏感度高、效度高、信度也高的指標，一套符合專家們前面提過的各項準則的指標，在實務上，在工作剛結束之際，對操作者直接加以測試或評量，即可評估出心智負荷的大小。這套指標可以是完全採用主觀測量法所設計的結構性問卷(structured questionnaire)，也可結合簡單的生理測量法，總之，當我們再詢問某人工作負荷如何時，可能聽到回答是:「我今天工 41.

(42) 作的心智負荷是某某量表指標 8 分。」。. 根據專家的說法，主觀測量法具有以下的優點 :一、容易施行，二、無干擾性，三、成本低，四、表面效度 (face validity)高，五、對於工作負荷的變異，敏感度高。所以，相較於其他方法更為研究者所接受(Reid and Nygren, 1988)。. 原則上，目前主觀測量法所採用的多為等級評量量表 (magnitude assessment scale)，乃是設計一套結構性問卷，請受測者填答，而為了增加問卷的信、效度，一般多用多向度量表(multi-dimensional scale) ，對於每一個向度 (dimension)各給予不同的比率(rating)及權重(weights)，最後得到一個總分，即表示受測者心智負荷的高低。. 現行主觀測量法的量表有很多種，像是 Modified Cooper-Harris Scale (Wierwille and Eggemeier, 1993)、Sheridan’s dimensional scale(Sheridan et al, 1980)、 Workload-compensation-interference/technical effectiveness scale (Wierwille and Connor, 1983) 、 Overall workload scale(Hill et al, 1992)、 Consumer mental workload scale(Owen, 1992) 、 NASA-TLX(Hart and Staveland, 1988)以及 SWAT(Reid and Ngren, 1988)，目前，較為人所熟知，且使用最廣泛的是 NASA-TLX 和 SWAT 兩種量表 (Hendy, 1993)。我們稍微列舉幾種介紹:. 42.

(43) (1)Cooper-Harper 量表 (Cooper-Harper scale). Cooper-Harris Scale 是 Cooper 和 Harris Scale 兩人在 1969 年所發展出來的模式，可能是最早具有效度的(best-validated)心智負荷主觀測量量表，等級是從 0 分到 10 分的十分位分數。Cooper-Harper 量表當初是特別被設計來評量飛行員的心智負荷，所以並不適用於其他工作。 1993 年，Wierwille 等人對 Cooper-Harper 量表加以修改，稱之為改良式 Cooper-Harper 量表(Modified Cooper-Harris Scale，MCH)，改良式 Cooper-Harper 量表雖保有原模式的流程，但變得適用於其他工作，也變得適用更大變異的心智負荷測量。. (2)Sheridan 向度量表 (Sheridan’s dimensional scale). 1980 年， Sheridan 等人首先提出多項度量表，他嘗試使用三個不同的向度來測量心智負荷，即包括時間 (time)、心智努力(mental effort) 和心理壓力 (emotional stress)。Reid 等人 (1981)在測試後認為，這三個向度在不同工作的相對等級上有很好的一致性(agreement)。. (3)SWAT 量表. SWAT(Subjective Workload Assessment Technique)是由 Reid 及 Nygren 等人 (1988)所發表， SWAT 則是奠基於連續性的測量方法上， 43.

(44) 其連續續性的測量方法分為三個構面：時間負荷 (time load)、努力負荷 (effort load)、心理壓力負荷(psychological stress load)。. SWAT 模式可用函數表示如下： ψ (at,ae,as) = ψt(at)+ ψe(ae)+ψs(as). 其中 at,ae,as 分別代表 T,E,S 在 a 構面的水準，而ψ,ψt, ψe,ψs 分別代表 T,E,S 的實數值函數 (黃雪玲，民 83)。. 雖然， SWAT 已被普遍使用，不過，一般認為它有兩個主要缺點: 一、對於低心智負荷的工作，比較不敏感 ; 二、分類整理 (card sorting) 的步驟太過繁複、耗費時間，針對這兩個問題，已有專家提出將其步驟加以修改，稱為 Simplified SWAT(Luximon, 2001)。. (4)NASA-TLX 量表. NASA-TLX(National Aeronautics and Space Administration-Task Load Index)則是由 Hart 及 Staveland 等人 (1988)所提出，NASA-TLX 是根據雙極方向的六個指標的加權平均，來評估心智負荷，這六個指標分別為心理需求 (mental demand)、生理需求 (physical demand)、時間需求 (temporal demand) 、自我績效 (performance) 、努力 (effort) 及挫折 (frustration)，其測量模式為. 44.

(45) W(ti)=Wi1*V(MDi1)+ Wi2*V(PDi2)+ Wi3*V(TDi3) + Wi4*V(OPi4)+ Wi5*V(Ei5)+ Wi6*V(Fi6). 其中，W(ti) 代表個體 I 及工作 t 的複合工作負荷， Wi1，… ， Wi6 代表雙極方向的六個指標的個別權數，MD，PD，TD，OP，E，F 分別代表這六個指標 (黃雪玲，民 83)。. 45.

(46) Three-Point Rating Scales for the Time, Mental Effort, and Stress Load Dimensions of the Subjective Workload Assessment Technique（ SWAT）. TIME LOAD. MENTAL EFFORT LOAD STRESS LOAD. 1. Often have spare. 1. Very little conscious mental. 1. Little confusion, risk,. time. Interruptions. effort or concentration. frustration, or anxiety exists. or overlap among. required. Activity is. and can be easily. activities occur. almost automatic, requiring. accommodated.. infrequently or not at. little or no attention.. all.. 2. Moderate conscious mental. 2. Occasionally have. 2. Moderate stress due to. effort or concentration. confusion, frustration, or. spare time.. required. Complexity of. anxiety noticeably adds to. Interruptions or. activity is moderately high. workload. Significant. overlap among. due to uncertainty,. compensation is required to. activities occur. unpredictability, or. maintain adequate. frequently.. unfamiliarity-Considerable. performance.. 3. Almost never have spare time.. attention required. 3. Extensive mental effort and. 3. High to very intense stress. Interruptions or. concentration are necessary.. due to confusion,. overlap among. Very complex activity. frustration, or anxiety. High. activities are very. requiring total.. to extreme determination. fequent or occur all. and self-control required.. the time.. 表一︰SWAT 等級量表( from Reid and Nygren,1988). 46.

(47) NASA-TLX rating Scale Definitions TITLE. END. DESCRIPTION. POINTS Mental demand. Low/High. How much mental and perceptual activity was require （e.g., thinking, deciding, calculating, remembering, looking, searching, etc.）？Was the easy or demanding, simple or complex, exacting or forgiving?. Physical demand. Low/High. How much physical activity was required （e.g., pushing pulling, turning, controlling, activating, etc.）？Was the task easy or demanding, slow or brisk, slack or strenuous, restful or laborious？？. Temporal demand Low/High. How much time pressure did you feel due to the rate pace at which the tasks or task elements occurred？Was the pace slow and leisurely or rapid and frantle?. Performance. Low/High. How successful do you think you were in accomplishing the goals of the task set by the experimenter（or yourself）？How satisfied were you with your performance in accomplishing these goals？. Effort. Low/High. How hard did you have to work（ mentally and physical ） to accomplish your level of performance？. Frustration level. Low/High. How insecure, discouraged, irritated, stressed, and annoyed versus secure, gratified, content, relaxed, complacent did you feel during the task？. 表二︰ NASA-TLX 等級量表( from Hart and Staveland,1988). 47.

(48) 第五節. 醫護人員心智負荷測量之相關研究. 醫護人員的工作，特別是醫師的工作，充滿著高度的壓力或負荷，這些負荷可能來自於職場的要求，也可能來自於自我的期許。有相當多的研究顯示，當醫師的工作壓力過大、工作時間過長、或是長期不當的睡眠剝奪(sleep deprivation)時，不僅會影響到工作績效 (performance)的表現，也會影響到醫師個人的身心健康(Friedman et al, 1971; Poulton et al, 1978; Christensen et al, 1977; Ford et al, 1984;. Engel et al, 1987; Hart et al,. 1987)。如果這些工作負荷被安排或調適在某一適當的範圍內時，則不僅有助於醫師提高工作績效，也可以增進醫療品質。但是，如果這些工作負荷超過他們個人能力所能夠承受的範圍，則不僅會影響到工作績效，降低醫療品質，也可能使醫師做出錯誤的診斷或處置，危害病人的健康，甚至引起醫療糾紛。在另一方面，長時間處在過高的工作負荷下，更會對醫師本身的身心健康造成嚴重的傷害(Ford et al, 1984)。. 根據研究指出，美國醫師的自殺率是全人口平均的兩倍以上，此外，憂鬱症、藥物濫用及離婚率也都比全人口平均來的高。他們更進一步分析指出，造成這種現象的原因，主要是由於醫療領域的特殊壓力(包括身體與精神的痛苦、害怕、死亡、被病家困擾所造成情緒的緊張等)，以及傳統醫師文化的認知(包括醫師必須忍受過長的工作時間、睡眠的剝奪和完美主義的自我要求等 )，換句話說，造成這種現象的原因，正是目前醫師普遍工作負荷過高的緣故(Miller et al, 2000)。. 48.

(49) 此外，無論在美國或是在台灣，醫療糾紛調查的資料分析中都發現: (1)醫師平均工作的時間愈長，發生醫療糾紛的機率就愈大，(2)不同科別的醫師發生醫療糾紛的機率有顯著不同，其中以外科、婦產科、麻醉科的機率最高。根據這個分析的現象和工作負荷相關的理論，我們可以做出以下的推論 :「醫師工作的時間愈長，工作負荷就愈大，病患疾病複雜度 (disease complexity)愈高，工作負荷就愈大; 而醫師工作負荷愈大，引發醫療失當 (malpractice)的機率就愈大。」(Sloan, 1989; 謝啟瑞，1992)。. 近年來，醫院的管理者在致力於醫療品質的提升時，也逐漸重視第一線醫療提供者 – 醫護人員本身的工作負荷了，因為只有醫護人員的工作負荷安排在一個適當的範圍時，工作績效才可能提升，醫療糾紛才可能降低，醫療品質也才可能確保。但是醫護人員，特別是醫師，的工作負荷 (workload) 如何評量呢 ? 我們是不是有一個量化的指標可以測量 (measure)臨床醫師所承受工作負荷的大小呢? 我們是不是有一個量化的指標可以預測 (predict) 臨床醫師是否能勝任這些工作負荷呢? 我們是不是有一個量化的指標可以讓管理者因應個別能力不同，安排適當的工作負荷呢 ?. 從文獻探討中發現，無論在國內或國外，我們都無法找到這樣一個適當的量化指標來提供我們使用，雖然心智負荷測量的研究從 1960 年代發展迄今已有數十年的時間，且已在工業界已發展出稍具雛型的架構，但對於醫護人員的心智負荷的測量，一直都沒有重大突破，相關的研究也是寥寥可數。我們從心智負荷的四種測量方法來加以分析。 49.

(50) 一、主要工作績效法 (Primary Task Performance). 醫護人員的主要工作是照顧多樣化的病人，除了少數固定的工作，例如打針、抽血、換藥以外，絕大部份的工作，績效很難加以量化評估，而且，醫護人員主要工作的 workload 的大小，我們根本無法加以控制，因為我們無法設計病人的人數和疾病的種類和嚴重度，所以，主要工作績效法在臨床上幾乎無人應用。. 二、次要工作績效法 (Secondary Task Performance). 次要工作績效法，在實務上，我們必須設計一個次要工作，根據資源供需理論來間接評估醫護人員的心智負荷。不過次要工作的設計上也常遭遇困難，因為次要工作必須不具阻礙性(Obtrusiveness)，亦即次要工作必須不會扭曲(distort)主要工作的績效，也就是不能影響到正常醫療工作的運作。在這種前提下，次要工作的設計就有很大的困難，因為醫護人員的工作通常是走動式的，而且面對的是人，不是面對著儀表板或電腦，因此，除了極少數的工作外，我們較難利用電腦設計次要工作，在不影響主要工作的情況下，測量醫護人員的心智負荷。. 1990 年，Gaba 等人曾利用次要工作績效法嘗試來測量麻醉科醫師的 mental workload，他們先在電腦上設計一套程式，每隔 45 秒在螢幕上出現一個數字，要求麻醉科醫師在工作的同時，隨時加總這個數字，然後 50.

(51) 在鍵盤上輸入答案，電腦則監測他的反應時間，研究結果顯示，當麻醉科醫師的主要工作遇到較大 stress 時，反應時間很明顯地會延長，依據反應延長的時間，可以間接評估當時麻醉科醫師所承受的心智負荷。不過這種附加的工作的確會影響到主要工作的進行，有很明顯的阻礙性，使得這項設計無法在實際的常規工作上應用。. 另外一個例子，是在 1998 年由 Byrine 及 Sellen 等人提出，它們是利用電腦模擬手術麻醉的病例，來測試 10 個受訓練的麻醉科醫師，電腦在手術的過程中會模擬出現各種危急的狀況(critical incident)，麻醉科醫師除了要給予適當的處理外 (Primary task) ，也必須在病歷上詳細紀錄 (Secondary task)，最後，檢視出現在病歷上的錯誤，來當成是測量心智負荷的標準，結果發現，當病人出現危急狀況時，病歷錯誤顯著增加，當病人情況穩定時，病歷錯誤則顯著減少。它的測試方法是︰. 1. 設計一個專為麻醉科醫師訓練的電腦模擬程式 ACCESS(Anesthetic Computer-Controlled Emergency Situation Simulator)。 2.10 個受訓練的麻醉科醫師接受測試，但事先都不知情。 3. 電腦模擬一個 25 歲的女性，在全身麻醉下接受前十字韌帶的手術，此病人先前曾罹患 asthma 及 viral myocarditis 。 4. 測試過程總共 25 分鐘，每間隔 5 分鐘會模擬出現各種危急的狀況，依序為 hypotension、supraventricular tachycardia、bronchospasm 等狀況，每種狀況持續 5 分鐘，麻醉科醫師除了要給予適當的處理外，也必須在病歷上詳細紀錄。 51.

(52) 5. 病歷紀錄必須包括 HR、systolic BP、 diastolic BP 、O2 saturation 、 end-tidal CO2 急用藥等等，最後與電腦的實際資料作比對，看看紀錄錯誤之比率。. 這個實驗雖然無法用在真正的臨床工作上，不過可為專科醫師的訓練提供了一個新的方向，如何利用適當的 practice 來降低實際工作的心智負荷。. 三、生理測量法 (Physiological Measures). 雖然，生理測量法正是目前很多學者正在努力嘗試的方向，但回顧過去的文獻，似乎都沒有對醫護人員進行心智負荷測量的報告。可能的原因，如前面說過，第一、因為目前所有生理測量的方法，不論是測量腦波、心跳或是眼睛活動，都必須有大型的儀器，且受測人員都必須侷限在儀器旁邊，然而醫護人員的工作幾乎都是走動式的，不能侷限在固定位置，因此，很難利用現成的生理測量工具去評量 ; 第二、早期的生理測量法，因為技術不夠成熟，敏感性及特異性都不夠; 第三、生理測量法的設備太過昂貴，醫院無法廣泛應用。. 四、主觀測量法(Subjective Measures). 52.

(53) 主觀測量法是目前對醫護人員心智負荷測量的研究最常用的方法，最主要的理由是: 第一、主觀測量法簡單、方便、便宜，對於忙碌的醫護人員易於實施，研究較易獲得成果; 第二、主觀測量法一般不具有干擾性(obtrusiveness)，完全不影響主要工作的進行; 第三、若使用設計良好的多向度量表(multi-dimensional scales)進行測量，很多研究發現，都可以獲得很好的診斷性 (diagnosticity) 與信度 (reliability)( Luximon and Goonetilleke, 2001)。在此，我們列舉近年來幾篇較完整的報告。. 在醫療相關領域方面，最早在 1988 年，Hsiao 等人為了發展醫師費的給付方法，曾提出有名的醫療資源相對價值表(Resource-Based Relative Value Scale，RBRVS)，其中就用五個向度指標來衡量不同專科醫師間工作負荷的差異，這五個向度指標分別是時間(time) 、心智的努力與判斷 (mental effort and judgment) 、技術(technical skill) 、生理努力(physical effort)以及心理壓力(psychological stress) 。不過， Hsiao 當時所提出的工作負荷概念是以工作為中心 (task-centered) ，而不是以人為中心 (human-centered) ，他只是希望利用科學的方法合理而客觀地去評估不同專科醫師間相對的工作量與工作強度(intensity)，以作為醫師費給付的準則，而完全忽略了受衡量者的個別主觀感受(subjective perception)，這與心智負荷的基本概念稍有不同。. 1990 年，Bertram 等人發表論文試圖發展出一個測量醫師心智負荷的主觀評量工具，根據他的說法，這個量表是與多位醫師討論後，並參考前人的文獻而提出的，最早於 1987 年定稿並進行初步測試，經過多 53.

(54) 次修正後，於 1990 年再次對基層內科醫師進行測量。這個量表分為六個向度(dimensions)，分別是績效 (performance)、時間負荷(time load)、心智努力 (mental effort) 、生理努力 (physical effort) 、心理壓力 (psychological stress)及困難度 (difficult)，每一個向度下各有 1-3 個問項(items)，總計有 10 個問項；每個問項的分數從 0.0 到 10.0，採用雙極向度線(bipolar descriptor)，由受測者在線上勾畫出等級，總分則是各個項度的平均值，總分愈高表示醫師承受的心智負荷愈高。Bertram 此次以 48 個基層的內科醫師為對象進行測量，要求他們在門診完後立刻填選，結果顯示，醫師心智負荷分數的平均值 (Mean) 是 4.4、標準差 (Standard deviation) 是 1.5。量表的 Cronbach’s α值是 0.71，分析各個心智負荷向度問項變數 (item variables)之間的相關性 (r) ，及問項變數與心智負荷總分(mental workload total score)之間的相關性(r)，都可大於 0.4。. 1992 年， Bertram 等人針對前次所提的量表再予以修正，改為五個向度指標，分別是心智努力 (mental effort)、生理努力(physical effort)、困難度(difficult)、績效(performance)與心理壓力(psychological stress)，刪除了時間負荷 (time load)一項，但在向度下之問項則增為 12 個，特別強調心智負荷與績效的關係。這次他對 22 個住院醫師 (residents)進行測量，數據顯示，住院醫師心智負荷分數的平均值是 3.46、標準差是 1.21，量表的 Cronbach’s α值是 0.8，心智負荷與自我績效 (self-rated performance) 間呈明顯負相關的關係(r=-0.67，p<0.001)。. Richardsen 等人(1991)曾發表對加拿大執業醫師工作負荷(work load) 54.

(55) 的調查報告，他的研究方法是對全國抽樣醫師寄發問卷，共計回收 2584 份 (回收率 68%)，研究的主要目的是想了解醫師的執業壓力 (occupational stress)、工作滿意度 (job satisfaction)以及男女醫師之間的差異，問卷的內容分為四大部份：(1)「整體壓力(overall stress)」 (2)「壓力來源 (sources of stress)」 (3)「整體滿意度(overall satisfaction)」(4)「滿意度來源 (sources of stress)」;. 在「壓力來源」下分為“總工作時間(total hours worked)”、. “後備時間(time on call)”、“醫療保險文書工作(Medicare paperwork)” 等 13 個問項，在「滿意度來源」下分為“和病患關係 (relations with patients)”、“和其他醫師的關係(relations with other physicians)”、“和其他工作人員的關係(relations with other personnel) ”等 12 個問項，每一個問項採用李克特量表五分法 (five-point Likert scale)，由受測醫師自我評 0.57)是，女性是量。研究結果顯示，在「整體壓力」方面，男性 2.42(± 2.31(±0.66)，兩者有明顯差異(p<0.01)，在「整體滿意度」方面，男性是 3.54(±0.99)，女性是 3.47(± 1.09)，兩者無明顯差異﹔而在「壓力來源」方面，男女主要都來自於時間壓力(“總工作時間”及“後備時間” )，在「滿意度來源」方面，男女也主要都來自“和病患關係”及“和其他醫師的關係”。另外，作者也提到，醫師的整體壓力與整體滿意度之間呈現明顯負相關的關係。. 此外， Orozco 及 Garcia 等人也在 1993 年發表另一項對西班牙基層醫師 (primary care physician)心智負荷測量的調查研究，他們先參考前人文獻，自行設計了一個多向度評量指標，其中包括了心智努力(mental effort)、生理努力(physical effort)、困難度(difficult)、優先度(priority)、改 55.

(56) 良流程 (modify visit) 、多重病患(overlap) 及壓力(stress)等七個細項題目 (items)，每個題目採用 0.0~10.0 的雙極向度線 (bipolar descriptor)，由受測者根據自身的經驗與感受在線上勾畫出等級分數，最後將每個題目得分給以加總平均後即為總分。研究方法，Orozco 等人採用匿名問卷的方式郵寄給隨機抽樣的基層醫師，共回收到 116 個樣本數，分析結果顯示， 1.6(range 0.2~9.3)，逐項進行複迴歸這些基層醫師的心智負荷總分為 4.7± 分析(multiple regression with stepwise method) 也顯示，醫師的心智負荷與每診看診人次 (number of room visits)、護士的轉介 (referrals by nurse)、急診人次 (room emergency)等因子有較大的相關性(R2)，此外，這個量表的 Cronbach’s α值為 0.80。. 1994 年， Gregg 發表他對護士心智負荷主觀評量的研究，首先，它仿照 NASA-TLX 量表的架構，以德菲調查法(Delphi survey)逐步建立一個針對護士心智負荷主觀測量的量表，稱為 Nursing TLX Scale，其中包括七個次量表 (subscales)，即心智需求(mental demand)、生理需求(physical demand)、時間需求 (temporal demand)、環境需求(environmental demand)、努力(effort) 、績效 (performance)及情緒 (emotionalism)七種向度，每個次量表的分數最低 1 分，最高 10 分，共分為十等分，每個次量表的得分加以平均後即為最後總分，最後總分代表該護士心智負荷的高低。他的研究方法是針對 27 個心血管加護病房(cardiovascular critical care units)的護士進行測試，要求他們在工作完後四小時內，憑自身的感受對剛才的心智負荷進行自我評量。結果顯示，量表的 Cronbach’s α值為 0.82，而這 27 個護士的 Nursing TLX Scale 平均心智負荷分數是 4.3 分，分數的高低 56.

(57) 與護士的教育程度和年資無明顯相關，作者對最後結果的評論是，這些受測護士有相對較低的可用注意力資源的需求 (moderately low demand of available attention capacity)。. 另一篇相關報告是 Easley 及 Storfjell 等人 (1997)所提出，他們針對美國的居家健康照護 (home healthcare services) 設計一套評量護理人員工作負荷的量表，稱為 Easley-Storfjell Instruments，這個量表藉著評量“時間需求 (time requirements) ” 及 “ 介入的複雜度 (complexity of interventions) ”，可以有效測量居家照護護士的個案負荷 (caseload)及工作負荷 (workload) ，也可以監控個別護士的生產力 (productivity) 。 Easley-Storfjell Instruments 對個案負荷 / 工作負荷的分析 (CL/WLA analysis)分為四個步驟：第一個步驟是評量個案負荷(caseload)，根據個案每週需要多少時間的照顧 ( 即“時間需求” )，以及個案疾病嚴重度 (severity-of-illness)、需要護理介入 (nursing interventions)的複雜度(即“介入的複雜度” )等，這兩個部份加以評分(rating)，“時間需求”分為四個等級，“介入的複雜度”也分為四個等級；第二個步驟則將第一個步驟所得的等級帶入“個案負荷分析表” (caseload analysis graph)，就可以得到一個案負荷的分數。第三個步驟是在評量個別護士的時間分配 (time allocation)情形，也是從四個構面來加以評量，第四個步驟則是將個案負荷分數及時間分配的分數帶入工作負荷總表(workload summary sheet)，可得一最後總分，代表該護士實際工作負荷的大小。本篇整個架構與評量專科醫師工作負荷的 RBRVS 基本上是類似的，是希望利用合理而客觀的方法去評估護士的工作負荷量，以作為監控生產力的準則，而忽略 57.

(58) 了受測者的主觀感受，這與心智負荷的基本概念稍有差別。. 58.

(59) 第三章. 研究設計與方法. 第一節研究設計. 本篇研究的研究目的在於發展及建立一套適用於評量台灣醫師心智負荷的多向度量表，檢視此此量表的敏感度(sensitivity) 、效度 (validity) 與信度 (reliability)，並且進一步探討台灣醫師的執業科別、年資及醫院等級等因素，是否會影響醫師的心智負荷。. 我們將整個研究過程分為四個階段( 如圖十): 第一階段 – 建立量表 (scale establishment)、第二階段 –前測研究(pilot study)、第三階段–問卷調查 (questionnaire surveys)及第四階段 –資料分析(data analysis)。. 一、第一階段 – 建立量表 (scale establishment). (1)蒐集國外已發表論文之內容，初步選定測量工具之向度 (Dimension)、權重 (Weights)及比率 (Rating)。 (2)邀請 30 位專家，以改良式德菲法 (Modified Delphi Technique)，利用反覆循環問卷的方式，訂定台灣醫師適用之心智負荷主觀測量法等級評量工具(Magnitude Assessment Instrument)。. 二、第二階段 – 前測研究 (pilot study). 59.

(60) (1)根據中華民國醫師公會全國聯合會(簡稱全聯會)於民國八十七年所出版之會員名冊，在中區依據執業醫療院所層級之不同，採比例採立意抽樣法(purposive sampling) ，選取 30 位醫師對訂定的評量工具進行前測研究。。 (2)請醫師反應此問卷是否有錯誤或回答問卷時是否有困難等，以適度修訂問卷工具。 (3) 利用項目分析 (Item analysis) 計算出問卷中各個題目之鑑別力 (discriminatory power)，以作為刪減題目之準則。. 三、第三階段 – 問卷調查 (questionnaire survey). 根據全聯會之全國醫師名冊，以系統隨機抽樣之方式，選取 1500 位醫師進行測量。. 四、第四階段 –. 資料分析 (data analysis). 依據問卷調查的結果進行敘述性統計及分析性統計，並檢視量表的敏感度(sensitivity)、信度(reliability) 、效度(validity)及各項變數的相關係數等。. 60.

(61) 蒐集國外相關資料. 第一階段. 以改良式德菲法建立等級. 前測研究. 第二階段修訂量表. 第三階段. 醫師抽樣問卷調查. 檢測量表之效度與信度第四階段分析台灣醫師心智負荷主觀測量法之數值. 圖十 : 研究設計流程圖. 61.