介面設計評估

第二章文獻探討

2.3 介面設計評估

人機介面設計評估即是討論關於使用者操作介面的使用性(Usability)。使用性又譯為「易用性」，從字面上的定義可以看出介面設計的初衷即是為了「方便使用」。ISO 9241 將 Usability 定義為「一項產品能讓特定使用者用以完成特定目的，同時達到效益、效率並且感到滿意的程度」，由此可知使用性是包括客觀的任務績效(Task Performance)，以及精神層面的主觀偏好(Subjective Preference)。

2.3.1 使用性檢測(Usability Testing)

Usability Testing 或稱「使用性檢測」、「優使性測試」以及「易用性測試」，網站介面設計透過使用性檢測所欲達到的目的並非市場調查，而是了解使用者在使用過程中所遇到的情況是否符合最初的設計目的，以及如何協助改善設計。根據美國政府衛生福利部(U.S. Department of Health & Human Services)的網站(http://usability.gov)所解釋的使用性，最為普遍常見的面向包含以下五點：

(1) Ease of learning 易學性：若使用者是第一次操作這項設計，想要達成簡單的任務時，需要花多少心力學習？

(2) Efficiency 效率：一旦使用者學會了這項設計，他們可以多快地達成任務？

(3) Memorability 可記憶性：倘若使用者經過一段時間沒有使用這項設計，下次再使用時是否能很快地重建熟悉度？

(4) Errors 錯誤：使用者犯了多少的錯誤，錯誤是否嚴重，且能夠多快地從錯誤回復？

(5) Satisfaction 滿意度：使用這項設計的愉悅程度

Folmer, van Gurp, and Bosch (2003)曾在其關於使用性與軟體架構的研究當中，集結過往研究中對使用性所運用的屬性後進行問卷調查，得到了四項普遍被接受及被引用的結果：Learnability、Efficiency of use、Reliability in use 以及 Satisfaction，並整理歷來使用性相關研究常運用的屬性（表 4）：

表 4

使用性屬性(Usability Attributes)整理

Overview of authors

Constantine Hix ISO 9126 Nielsen Preece Shackel Shneiderman Wixon

Learnability Efficiency in use

Learnability

Rememberability Retainability － Memorability － Learnability Retention

over time Memorability

Reliability in use － Operability Errors Throughput Effectiveness Rate of errors

by users Error rates

User satisfaction

Long-term user satisfaction

Attractiveness Satisfaction Attitude Attitude Subjective

satisfaction Satisfaction

資料來源：Folmer et al. (2003)

使用性檢測即透過受測者實際進行任務操作、問卷填寫或訪談等方式，來衡量上述

屬性，所蒐集而得的量化資料例如追蹤紀錄使用者的完成速度、正確率與錯誤率，或以 SUS(System Usability Scale) 、 QUIS(Questionnaire for User Interaction Satisfaction) 、 NASA-TLX(NASA Task Load Index)、SWAT (Subjective Workload Assessment Technique) 等量表來評估滿意度與心智負荷程度等，質化資料則包括啟發式評估 (Heuristic Evaluations)和專家評論(Expert Reviews)等。

使用性包含了「績效」（Performance，實際的操作情形與結果）與「偏好」（Preference，

即使用者內心的感受）此兩種面向的資料數據，然而根據我們的日常生活的真實經驗，

有時雖然能夠完成某項任務、達到某種程度的績效，實際上內心卻對介面設計有著不同的意見。先前 HCI 的相關研究大多著眼於使用性與操作績效，評估目標亦傾向實際使用之有效性，經常忽略了使用者成本(User Cost)──人與系統互動時是否引起不良的生理上或心理上的影響(Lin, Imamiya, & Mao, 2008)，生理方面的影響例如造成認知或體力的負擔，心理方面的影響則如疲倦、焦慮等。因此需要以多元的量測方式來試圖了解互動過程中所造成的使用者成本。

2.3.2 情感運算(Affective Computing)

綜觀過去 HCI 介面使用性相關研究，早期所使用的評估方法大多以任務績效(Task Performance)與主觀評價(Subjective Assessment)作為評斷依據，例如 Chadwick-Dias, McNulty, and Tullis (2002)請實驗對象在雛形網站(prototype site)上執行任務，探討年輕人與年長者在字體改變大小時是否影響任務績效；Keevil (1998)根據使用性原則，結合當時的學術基礎發展了一套更完備的網頁使用性檢核清單(checklist)。爾後相關研究開始重視介面設計帶給使用者的情緒（例如愉悅性），而生理指標(Physiological indicators)能夠對於心理活動產生敏感的反應，例如情緒、注意力之改變.，近年來常見於人機互動設計領域作為評估依據，常見的數據來源例如：面部表情(facial expressions)、瞳孔尺寸 (pupillary size)、皮膚傳導(Skin Conductance, SC)、肌肉與腦部神經系統等，以及血液容量(Blood Volume, BV)、心率(Heart Rate, HR)、皮膚電阻反應(Galvanic Skin Response)等

(Hercegfi, Csillik, Bodnar, Sass, & Izso, 2009; Lin, Omata, Hu, & Imamiya, 2005; Novak, Mihelj, & Munih, 2009; Ward & Marsden, 2003)。這種蒐集人類的生理數據，透過電腦加以運算後用以了解人類情感資訊的相關技術，則稱之為「情意運算」或「情感運算」

(Affective Computing)。

使用者對系統訊息的情感反應(Affective response)在人機互動領域是一個用以研究使用者滿意度的關鍵線索 (Pfister, Wollstädter, & Peter, 2011) 。 Rezazadeh, Wang, Firoozabadi, and Golpayegani (2011)在其建築工業虛擬訓練系統的相關研究中整合了情感運算技術，除了能夠透過面部表情控制系統以外，並蒐集受測者前額的生物電位來評估認知負荷與滿意程度。Ren and Quan (2012)則是以語言特徵(Linguistic feature)進行情緒分析與辨認，藉以了解企業系統中的消費者滿意度。

本研究欲了解受測者在進行搜尋任務時的情緒變化，包括期待、愉悅等正面情緒，

以及沮喪、焦慮等負面情緒，採用的是心律變異(Heart rate variability)訊號，透過 emWave 軟體解讀受測者的情緒壓力，過去研究例如在 Chen and Wang(2012; 2011)關於學習的研究中，即運用 emWave 探討多媒體素材所造成的正面與負面情緒，為適性化多媒體學習系統設計提供了以情緒為基礎的設計依據，進而促進個人化學習。

2.3.3 多資料源量測方式(Multiple Data Sources)

多資料源 (Multiple Data Sources) 係指以多種資料來源作為輸入資訊 (Input information)。以 Lin et al. (2008)的研究為例，即是結合了心律變異、瞳孔反應、眼部動作以及主觀量表等量測方式，來探討使用者在電玩遊戲情境中的使用者成本與任務績效。

Farmer, Brownson, and QinetiQ (2003)在其關於工作負荷(workload)評估方法的相關研究中建議，即使是證實有效的主觀量測方法，例如：Instantaneous Self Assessment (ISA)、

DRA Workload Scales (DRAWS)等量表，仍應包含至少一個的客觀衡量標準，例如：瞳孔反應 (Pupillary response) 、眨眼(Eye Blink) 等生理量測。因此本研究擬結合生理 (Physiological)、物理(Physical)與心理(Mental)三方面之數據來源，針對應用軟體商店介

之虛擬環境 Novak et al. (2009) HR, SC, Respiration, Peripheral Skin Temperature E-Learning 教材

編輯認知風格 Hercegfi et al. (2009) Heart Period Variability, SC

系統訊息類型 Pfister et al. (2011) HR, SC, Skin Temperature, Subjective affective ratings

網頁設計本研究 Eye-tracking, HRV, Mouse Movement, Questionnaire

資料來源：本研究整理

2.3.4 QUIS 使用者互動滿意度問卷

QUIS 使用者介面滿意度問卷(Questionnaire for User Interface Satisfaction)是由美國馬里蘭大學人電腦互動實驗室(Human-Computer Interaction Lab, HCIL)所提出的使用者主觀滿意度量表，是國內外介面設計評估普遍採用之量測方式。本研究所採用 QUIS7.0 之版本，採 9 點尺度量表( 9-point scale)，原始版本囊括九大面向，包含畫面呈現(screen)、

用語與系統回饋(terminology and system feedback)、學習性(learning)、系統效能(system capability)、技術手冊(technical manuals)、線上教學(on-line tutorials)、多媒體(multimedia)、

遠距會議(teleconferencing)，以及軟體安裝(software installation)。此外，QUIS 問卷之尺度、面向與題項皆可依照研究需求自行調整增減。計分方式為 1 點 1 分，每題至多 9 分、

至少 1 分。

在信度與效度方面，QUIS 量表自發展以來已被廣泛應用於各種類型的人機介面設計評估，早期版本 5.5 的可信度與有效性也已被先前多方研究證實(Chin, Diehl, &

Norman, 1988)，而後隨著技術發展，為符合尖端系統之應用而研發了版本 7.0，並且持續延用至今，在此一版本中總共新增了五個構面：技術手冊與線上支援(Technical Manuals and On-line help)、線上教學(On-line Tutorials)、多媒體(Multimedia)、遠距會議 (Teleconferencing)、軟體安裝(Software Installation)，Harper, Slaughter, and Norman (1997) 透過網際網路募集 89 位志願者填寫版本 7.0 的 QUIS 問卷，驗證其 Cronbach α 值為 0.95，

NASA-TLX 心智負荷量表(NASA Task Load Index)由 Hart 與 Staveland (1988)所提出的 NASA-TLX (National Aeronautics and Space Administration-Task Load Index, NASA-TLX)，乃雙極方向的七點尺度量表，將六項指標分數加權平均，亦即六項指標的分數分別乘以各指標權重後的加總所得，其分數越高表示心智（工作）負荷程度越高。

受測者根據執行任務的感受，針對六項指標以兩兩比較的方式勾選相對重要的一項，再將該項指標被勾選的次數加總，標準化後是為該項目之權重。其六項指標分別為心智需求(mental demand)、體力需求(physical demand)、時間需求(temporal demand)、自我績效 (performance)、努力程度(effort) 以及挫折程度(frustration level)，前三項為執行任務時所造成的工作負荷，後三項則為使用者互動感受的自我評估，測量公式如下(曾承志, 張建

TITLE END POINTS DESCRIPTION

心智需求 Mental demand

Low/High

How much mental and perceptual activity was require (e.g., thinking, deciding, calculating, remembering, looking, searching, etc.)? Was the easy or demanding, simple or complex, exacting or forgiving?

體力需求

Physical demand Low/High

How much physical activity was required (e.g., pushing pulling, turning, controlling, activating, etc.)?

Was the task easy or demanding, slow or brisk, slack or strenuous, restful or laborious?

時間需求 Temporal demand

Low/High

How much time pressure did you feel due to the rate pace at which the tasks or task elements occurred？

Was the pace slow and leisurely or rapid and frantle?

自我績效

Performance Low/High

How successful do you think you were in accomplishing the goals of the task set by the experimenter (or yourself)? How satisfied were you with your performance in accomplishing these goals?

努力程度

Effort Low/High

How hard did you have to work (mentally and physical) to accomplish your level of performance?

挫折程度 Frustration level

Low/High

How insecure, discouraged, irritated, stressed, and annoyed versus secure, gratified, content, relaxed, complacent did you feel during the task?

資料來源：Hart and Stavenland (1988)

據 Eggemeier (1988)研究指出，工作負荷(workload)評估技術應具備以下屬性：靈敏度 (sensitivity) 、特徵性 (diagnostic capabilities) 、特異性 (selectivity) 、低干擾性 (low intrusiveness)、可靠性(reliability)以及易於實現(ease of implementation)，而 Rubio, Diaz, Martin, and Puente (2004)的研究已驗證 NASA-TLX 符合這些標準，並且由 Farmer et al.

(2003)所整理之屬性特徵描述（表 7）可以看出此問卷確實具有一定程度的信度與效度。

表 7

NASA Task Load Index 屬性特徵

可靠性(Rreliability) 高度可靠性有效性(Validity) 經廣泛驗證靈敏度(Sensitivity) 高靈敏度

特徵性(Diagnosticity) 多維度的六項指標，亦可計算總得分

實用性(Practicality) 事件計分以及配對加權以確定各因素的重要性干擾性(Intrusiveness) 完成需耗時 1-2 分鐘，離線狀態填寫

資料來源：Farmer et al. (2003)

在文檔中運用多資料源探討行動應軟體商店選單設計對使用性之影響 (頁 26-33)

第二章 文獻探討

2.3 介面設計評估

2.3.1 使用性檢測(Usability Testing)

2.3.2 情感運算(Affective Computing)

2.3.3 多資料源量測方式(Multiple Data Sources)

2.3.4 QUIS 使用者互動滿意度問卷

NASA Task Load Index 屬性特徵

第二章文獻探討