視線互動之發展與應用

可是，無論是預定義間隔或迫使附加步驟，皆徒增視線互動應用的複雜性，並考驗使用者的手眼協調能力。為了彌補其花費的多餘心力，前述研究又得額外設計視覺回饋，提示追蹤、辨識、運作等狀態，例如基於凝視的文本輸入裝置以顏色變化，強調當前的累積時間與預選字樣，即色彩愈飽和者愈接近閾限，藉此反饋系統處理進度（Majaranta, MacKenzie, Aula, & Räihä, 2006）。由此可見，視線輸入的使用時機須權衡其準確度、可控性以及響應性

（responsiveness）。而本研究將採納閱讀心理學中興趣區（region of interest, ROI）的概念，以及凝視時間與詞彙特性的計算模型，從使用者行為本質發想如何應對視線互動之困境，詳細說明請見本章第四節。同時拋磚引玉，期許實務者跨領域合作、深掘學界既有的各項透徹研究。

第二節視線互動之發展與應用

Rayner（1998）總結近百年的眼動研究為三個紀元：第一階段可追溯至 1879 年 Javal 等人率先觀察閱讀歷程中眼球運動的基本現象，往後陸續發現眼跳、跳視抑制（saccadic suppression）、跳視潛伏期（saccade latency）及知覺廣

度（perceptual span）等議題；第二階段 1930 年代正值行為主義盛行，學界普遍漠視認知處理歷程，多聚焦在行為表面或應用實務上；直到第三階段受惠於資訊科技突破、追蹤感測系統的穩定與精確度大幅躍進，又恰逢認知心理學濫觴，諸多實證與理論相繼提出，體現眼球運動與內在心智運作的關聯性。隨著互動應用的出現，Duchowski（2002）認為二十一世紀起邁入第四紀元，依系統分析的角度區別診斷（diagnostic）與交互（interactive）兩類應用。前者係指藉由追蹤儀器間接地記錄客觀、量化的眼動資料，並用於事後分析評估，以瞭解實驗期間人們如何接收視覺訊息與其注意力型態，且此情境下刺激並不因視線而有所改變。相對地，後者則基於使用者眼動提供適切的反應，例如選擇性

（selective）系統中將移動軌跡類比為指向裝置（pointing device），或如眼動誘發（gaze-contingent）系統運用注視渲染技術（foveated rendering），契合人眼成像特徵，營造清晰、沉浸的視覺體驗，同時降低電腦運算負荷、增加互動模式的穩定性。

然而，眼球追蹤技術的應用並非僅止於此，在與日俱增的計算能力助長之下，視線互動如雨後春筍般多元發展。它不僅限於操縱滑鼠游標，甚至用以標記注意力焦點，輔助資訊傳遞或提升任務表現。故Hyrskykari、Majaranta 及 Räihä（2005）就領域類別加以區分：一、人與裝置互動（human-appliance interaction）係指該系統偵測眼睛存在或視線接觸，促進與周遭物件的自然互動，如智慧家電藉此降低因候選對象過多、口語指令有限，而語音辨識錯誤的可能性（Shell, Vertegaal, & Skaburskis, 2003）；二、人機互動（human-computer interaction）泛指運用眼動型態之應用，其提供系統適應用戶行為的可靠依據，

甚或是感知使用情境及早預防或協助；三、人與人互動（human-human

interaction）則將注視方向當作溝通線索，強調彼此所關心的癥結，增進社交活動或視訊會議的效率（Vertegaal, Weevers, Sohn, & Cheung, 2003），有助釐清疑問且建立共識。

學界針對視線互動的見解不盡相同，為彙整議題全貌Majaranta 與 Bulling

（2014）參照 Fairclough（2010）提出之生理計算系統（physiological computing system）分類法，將應用界定於外顯（overt）至內隱（covert）的光譜上，請見圖1。左起為使用者主動、有意地透過視線輸入與客體互動；中間係屬注意力

（attentive）與自適應（adaptive）介面範疇，該系統會自動回應使用者的眼動表現，或根據其行為模式呈現符合當下需求之訊息；而右側即是系統被動地監視眼球運動狀況，供研究者離線（off-line）檢視閱讀歷程。上述面向皆由相同感官出發，但對使用者的影響不一，以下分別說明之：

圖1：視線互動應用光譜

資料來源：修改自

Advances in physiological computing (p. 39-65), by S. Fairclough

and K. Gilleade, 2014, London: Springer-Verlag.

外在眼動輸入（explicit eye input）

外在眼動輸入，顧名思義指使用者自主調整眼球運動方向，以此命令、控制系統。尤其行動不便者經學習後便可利用凝視與視線手勢操作介面與虛擬鍵盤，代替語音、手部動作等互動途徑。其中，最常見的應用實屬指向功能，亦即模擬鼠標或結合其他互動技術，於圖形使用者介面上達到點擊、拖拉、縮放等效果。雖說視線控制的準確性遠不及常規輸入裝置（Majaranta & Räihä,

2002），如滑鼠、鍵盤或觸控，但藉由演算法減輕晃動狀況，即可媲美頭部移動，不失為堪用的輔助工具（Bates & Istance, 2002; Hansen, Tørning, Johansen, Itoh, & Aoki, 2004）。截至目前，眼控交互廣泛應用在文本輸入、網頁瀏覽、遊戲操作、樂器演奏等，乃至進一步衍生到行動裝置與人－機器人互動上

（human-robot interaction）（Dybdal, Agustin, & Hansen, 2012; Mohammad, Okada,

& Nishida, 2010）。

注意力使用者介面（attentive user interfaces）

眼動感知（eye-aware）與外在輸入僅有一線之隔，前者係由系統主動偵測眼球，並順應其運動特性即時反應，例如眼動誘發顯示（gaze-contingent display）優先繪製目光焦點之高解析度圖像，並保持周邊視野模糊以節省頻寬

（Duchowski, Cournia, & Murphy, 2004）。注意力介面旨在增進使用者的任務表現，經由辨識自然的凝視行為，評估可能之目標或困難處，讓輔助說明在視線變換時同步呈現（Jacob, 1991; Hyrskykari, Majaranta, Aaltonen, & Räihä, 2000）

以利訊息整合。亦可自動化部分指向作業，如預選或縮放當前工作視窗，提升任務轉換的效率（Fono & Vertegaal, 2005）。此面向適用於任一個體且容易上手，是故學者認為感知系統將邁向主流。不過，當前所見之原型皆缺乏客觀的判斷依據，僅就實務者自身經驗認定合理閾值，導致回饋時機不盡符合使用者需求。下一節將討論注意力介面相關研究發現，以及本論文欲改善之痛點。

基於視線的用戶建模（gaze-based user modeling）

有別前述兩者聚焦互動與介面議題，建模致力於「預測」使用者行為、認知歷程與意圖，經由感測器持續記錄並剖析個體於各情境的視覺表現，試圖瞭解其「如何」而非「從何處」收錄訊息。此研究取向係屬實驗心理學的方法之一，像是憑藉著凝視時間、眼跳幅度、時序關係與空間分布，模擬不同目標下

的閱讀策略。近年，隨著機器學習（machine learning）與圖形辨識（pattern recognition）技術進步，計算模型的研究規模由單一任務，如閱讀、問題解決、

交談或駕駛等，演變成整體行為層次（Kandemir & Kaski, 2012）。學者成功單憑眼球運動特徵自動分辨人們是否處於閱讀或其他辦公活動中（Bulling, Ward, Gellersen, & Troster, 2011）、估算其工作負荷（Tessendorf et al., 2011）與意圖

（Bednarik, Vrzakova, & Hradis, 2012）等，諸多行為模型的建構皆為求系統能如實地以使用者為中心，設計對策呼應眼動型態所隱含的心智運作。

被動眼球偵測（passive eye monitoring）

鑒於人類收錄之外界訊息約有80 %來自視覺（Sanders & McCormick, 1987），又眼球追蹤相較其他即時測量技術具備高時間解析度，故而學界普遍採用眼動資料驗證認知歷程。透過多元指標詮釋實驗操弄或自然情境下的視線動向，觀察其與閱讀理解、學習記憶、圖文整合或手眼協調等作業的對應關係。

然而，正因為數十年的研究多以被動偵測的方式進行，唯少數論及即時（real-time）互動下的眼動表現，致使實務應用領域無從植基於心理學既有的發現。

故本論文將參照過往對於閱讀歷程的認識，嘗試設計符合生心理反應的感知系統。

在文檔中視線感知即時翻譯工具的開發與評估 (頁 16-20)

第二節 視線互動之發展與應用

Advances in physiological computing (p. 39-65), by S. Fairclough

第二節視線互動之發展與應用