視線感知即時翻譯工具的開發與評估

(1)

國立臺灣大學理學院心理學研究所碩士論文

Graduate Institute of Psychology College of Science

National Taiwan University Master Thesis

視線感知即時翻譯工具的開發與評估

The Development and Evaluation of a Gaze-aware Real-time Translation Tool

李宜軒 Yi-Hsuan Lee

指導教授：葉怡玉博士 Advisor：Yei-Yu Yeh, Ph.D.

中華民國 106 年 6 月

June, 2017

(2)

摘要

閱讀第二語言的文章時，讀者常需即時的翻譯，以便理解篇章內容。針對此需求，過去研究試圖以眼球追蹤來反映讀者的心智運作，並由此推算讀者當下的需求，俾利閱讀流暢，增進體驗。然而，過去的即時翻譯研究多以固定閾值做為是否提供協助的準則，並未考慮閱讀行為的個別差異。此外，研究多以主觀報告為評估標準，缺乏客觀的資料佐證。是故本研究模擬視線感知翻譯工具原型，參照心理學於眼動與閱讀的發現，採用眼動控制數學模型中詞彙特性與凝視時間的計算邏輯，分別以停滯時間與回視眼跳為顯示時機的計算方式，

並提供中文翻譯與無意義刺激，以觀察因應閱讀偏差而觸發的註解，如何影響個體的眼動表現、認知負荷及閱讀策略。結果顯示系統主動呈現之「中文翻譯」顯著增進閱讀理解、降低工作負荷，卻也同時改變使用者的閱讀策略，包括延長凝視時間、減少略視現象、增加再閱讀的比例等。再者，目標詞的詞頻高低亦與其是否會被凝視、被反向閱讀有關。根據整體與區域性眼動指標，基於個人化的停滯時間所提供的註解對於詞彙處理歷程具明顯助益。本研究歸納視線互動之設計指南供後人參考，而此實驗結果能否應用至真實場域或各式載具上，尚待未來研究進一步釐清。

關鍵詞：即時翻譯、注意力感知系統、視線互動、眼球追蹤、眼動誘發回饋

(3)

The Development and Evaluation of a Gaze-aware Real-time Translation Tool

Yi-Hsuan Lee

Abstract

Non-native speakers often need instant translation for comprehending documents in foreign language. To meet this need, prior research has attempted to map users’ eye movement to cognitive processes for recognizing their intention in real-time and improving the reading experience. However, recent research in gaze-based interaction mostly used fixed dwell-time as the threshold to determine whether or not to provide assistance. This approach ignores individual differences in reading behavior.

Moreover, the benefits of gaze-contingent feedback were based on subjective evaluation so that the impact on objective performance is still missing. This study developed a gaze-aware instant translation prototype based on the psychological aspects of eye movements in reading by incorporating a mathematical model of eye- movement control in reading for computing fixation durations as a function of lexical difficulty. The system automatically provided Chinese translations or a meaningless X mask based on dwell-time or regressive saccades to investigate how the annotations triggered by deviation in reading pattern affect a user’s eye movements, cognitive load and comprehension accuracy. The results showed that proactive translations could improve reading comprehension and reduce cognitive load. Instant annotations also influence a user’s reading strategy, including prolonging fixation durations, decreasing skipping rate and increasing regression rate. Furthermore, the frequency of the target words was related to their fixation patterns. According to global and local

(4)

eye-movement measures, the annotations provided based on personalized thresholds of dwell time were significantly helpful for word processing. Considering the

methodological issues and observed results, this thesis suggests design guidelines and recommendations for developing gaze-aware reading applications. Future research could investigate whether a personalized gaze-aware annotation could be applied to the real-world settings or adapted to different devices.

Keywords: Attention Aware System, eye tracking, gaze-based interaction,

gaze-contingent feedback, real-time translation

(5)

表目次

表1 語言經歷問卷結果 ... 29

表2 語言水平問卷結果 ... 29

表3 總閱讀時間在各詞頻區間的觀察值、預測值及校正值 ... 39

表4 目標詞在各情境之註解觸發狀況平均值與標準差 ... 40

表5 目標詞在各情境之整體性眼動指標平均值與標準差 ... 42

表6 目標詞在各情境之凝視時間平均值與標準差 ... 45

表7 目標詞在各情境之凝視比例平均值與標準差 ... 48

表8 各主要效果在註解觸發狀況與整體性眼動指標的顯著性 ... 50

表9 各主要效果在區域性眼動指標的顯著性 ... 50

(8)

圖目次

圖1：視線互動應用光譜 ... 10

圖2：SWIFT 模型預測之詞彙特性與凝視指標關係... 22

圖3：實驗文本之 SWIFT 模型預測結果 ... 31

圖4：實驗文本之興趣區劃分 ... 32

圖5：註解顯示時機的計算方式 ... 32

圖6：眼動實驗程序 ... 35

圖7：總閱讀時間在各詞頻區間的平均閾值校正值 ... 39

圖8：各情境之註解觸發狀況平均值及標準誤 ... 41

圖9：各情境之整體性眼動指標與理解題正確率平均值及標準誤 ... 43

圖10：高低頻字在各情境之早期凝視時間平均值及標準誤 ... 46

圖11：高低頻字在各情境之晚期凝視時間平均值及標準誤 ... 46

圖12：高低頻字在各情境之早期凝視比例平均值及標準誤 ... 49

圖13：高低頻字在各情境之晚期凝視比例平均值及標準誤 ... 49

圖14：程式判定緩衝區示意圖 ... 58

(9)

第壹章緒論

第一節研究動機

多語言（multilingual）是現今社會普遍的現象，尤其身處在以英文為外語

（English as a foreign language, EFL）的學習環境中，詞彙辨識實屬閱讀理解的必要條件。為了吸收並傳播資訊、或與無共通母語者交流，吾人勢必得想方設法突破語言的隔閡。就臺灣的學制而言，一般從大學階段便開始採用英語化教學，逐步接觸真實語料（authentic material）教材，且要求聽、說、讀、寫等面向具備相當程度的能力。特別是「閱讀」最為關鍵，舉凡教科書、論文或網路資源無一不參雜英文詞彙，倘若讀者沒辦法正確地解析、整合之，將嚴重阻礙專業知識的培養。是故當前的趨勢為，學生應視能以英語為工具，學習並擴展各領域學科範疇為目標，除了建立常識性的素養外，更鼓勵其多涉略專業英語

（English for Specific Purpose, ESP）。

無論是學術或職場生涯，有效率地處理英文資訊儼然成為必備技能。但在語言水平尚未達標前，眾人通常會尋求閱讀輔助工具，諸如紙本辭典、電子辭典、線上翻譯服務或語料庫等。透過跨語言的資訊檢索，將非母語的文本翻譯為自身能夠理解的語句，進而消除字面上的限制。因此「翻譯」可說是語言及文化之間的溝通媒介，能建立友善的互動基礎，以提升資訊獲取的品質，同時促進學習的成效。不過，各工具的特性與使用方法截然不同，舉前二者為例，

讀者需先選擇檢索方式，再依據該索引查詢字詞所對應的頁碼或排序，始能閱覽補充說明。正因其程序繁複、體積笨重且不易更新的缺點，故而日漸式微；

相對地，雖然比起編譯精良的工具用書，線上資料庫的取材未必較嚴謹、內容未必較豐富、翻譯也未必較精準，但是其提供了立即性的協助。使用者能隨手查閱艱澀詞彙，取得堪用的註解，促使閱讀歷程持續進行，以致後二者的普及

(10)

率遠高於實體辭典。

之所以虛擬服務優於其他傳統工具，原因在於其分擔了查找生字的成本－

減少欲記憶的事項，也精簡人工篩選的步驟，好讓認知資源投注在主要作業上。然而，現有的輔助功能仍未全然滿足閱讀需求。由於學習環境下所面對的任務龐雜且多元，又經常同時開啟多個電子文件相互參照。此時，線上翻譯服務往往隱沒在眾多瀏覽器分頁中，讀者免不了一再轉換情境，造成理解歷程中止。有鑑於此，程式使用者與開發者各自衍生出因應對策：使用者會並排或重疊作業區，甚至將重要文件列印出紙本，在電腦與桌面上依輕重緩急安排位置與分工，減少「閱讀」與「查詢」彼此干擾的可能性；另外，開發者則推出擴充套件（browser extensions），即時翻譯游標所框選的目標字詞，並藉由彈出式視窗顯示註解內容，以規避複製貼上、切換頁面等例行公事。再者，眼見外界的資訊量日益遽增，常導致學習者力有未逮，故理想的翻譯工具已不僅要克服語言差異，還得兼顧使用者的工作負荷。因此，近年相繼出現語音、影像翻譯服務，借助自動辨識技術降低閱讀非母語文本的困擾。

而類似的閱讀輔助工具不勝枚舉，尤其隨著眼球追蹤技術成熟，學界拋出非指令型使用者介面（Noncommand User Interfaces）概念，相信內隱

（implicit）的互動元件將改良人們習以為常之 WIMP 環境，即由視窗

（Windows）、圖標（Icons）、選單（Menus）及指標（Pointer）所構成的圖形介面（Graphical User Interfaces）典範。認為視線互動普遍應用於人機介面指日可待（Jacob, 1993; Nielson, 1993）。於是陸續漸有研究著墨於如何透過眼動增強閱讀體驗，如Reading Assistant（Sibert, Gokturk, & Lavine, 2000）、iDict

（Hyrskykari, 2006）、Text 2.0（Biedert, Buscher, Schwarz, Hees, & Dengel,

2010）、eyeBook（Biedert, Buscher, & Dengel, 2010）、eyePad（Hosseiny, Biedert, Dengel, & Buscher, 2011）等原型，以網頁瀏覽器的外掛程式與眼動儀互動，配合使用者閱讀狀況給予註解或補充內容。甚或如Toyama 等人（2014）應用在

(11)

混合實境的頭戴式顯示器（head-mounted displays, HMD）上，企圖發展凝視翻譯（gaze to translate）的雛形。由於眼球運動契合注意力與視覺編碼等機制，又閱讀行為牽涉內在認知運作，實務者樂觀看待其能增進訊息整合並紓解認知負荷。然而，現階段研究著重在系統規劃、原型測試與評估，鮮少針對新的互動概念做嚴謹檢驗，且幾乎未參考心理學相關文獻，故本論文欲結合視線互動與即時翻譯功能，探究此科技對作業表現的影響是否符合學者預期，並且觀察母語註解如何涉入外語的閱讀理解歷程和對應的眼動變化。

第二節研究目的

本研究自行設計視線感知閱讀輔具（gaze-aware reading aid）原型，模擬視線互動於翻譯功能的應用。藉由眼動誘發回饋（gaze-contingent feedback）機制，使註解同步呈現在視野範圍內，且透過數學模型預測各英文詞彙的凝視時間，以此辨認使用者閱讀表現是否偏差。若有協助之需求，電腦將自動給予目標字翻譯，簡化手動查詢辭典的步驟。此系統的訴求正是由感測器主動接收使用者的眼動表現，推測其主觀認知與行為，以內隱的人機互動型態進行作業，

省略外部指令輸入，讓整體任務更加順暢且合乎心理狀態。能否精確判斷使用者意圖、抓準母語翻譯呈現時機乃注意力感知系統（attention-aware system）的成敗關鍵。但先前研究（Sibert et al., 2000; Biedert et al., 2010）多由開發者任意設定固定閾限（如360 或 750 毫秒）或為版權軟體（closed-source software）無從得知（Hosseiny et al., 2011）。未見其植基於實證理論，運用詞彙特性與凝視表現之關聯性推算使用者的閱讀行為。更以眼動儀取樣率和指標鑑別度低為由，不採用空間變項－逆向眼跳為判斷基準（Hyrskykari, 2006），縱使逆向眼跳現象普遍伴隨著理解困難而發生。且皆宣稱某種程度上克服可控性及準確性問題，促進任務表現與閱讀體驗，可惜的是其並無針對效果做客觀描述和討論。

再者，前述系統涉及心理學於眼動與閱讀的議題，目前已知的語言處理與眼球

(12)

運動歷程理應可做為後續設計方案的參考依據。故本研究目的係探討視線互動對眼動、認知負荷與閱讀理解的影響，欲操弄註解顯示內容與顯示時機的計算方式，分別為「有意義的中文翻譯」或「無意義的X’s 字串」、以及「基於停滯時間（dwell-time）」或「基於回視眼跳（regression）」為閾值的狀況。從中觀察人們如何同時以眼睛接收訊息又與電腦互動，並分析整體篇章及個別詞彙上的眼動變化，以探究註解對整體任務、單一詞彙處理的影響。另外，為瞭解註解的影響是否僅限於生澀詞彙，亦將檢視各情境下高、低頻字之閱讀歷程的差異。詳細研究問題如下：

一、中文翻譯是否會影響閱讀效率？若會，則對整體任務與區域性單一詞彙處理的影響為何？

二、註解時機是否會影響閱讀效率？若會，則基於凝視或回視的差異為何？

三、註解對高、低頻字的影響是否不同？若有，則區域性單一詞彙處理上的差異為何？

(13)

第貳章文獻回顧

眼球追蹤技術（eye tracking technology）日漸成熟，軟硬體皆以驚人的速度發展，促使相關應用不再侷限於心理學研究，擴及神經科學、人因工程、行銷廣告與電腦科學等領域（Duchowski, 2002, 2007）。以往因設備規格、程式撰寫與資料分析門檻而卻步，僅有少數學術單位足以應付；如今隨著此技術逐漸親民、設計愈趨完善，無論理論或實務上已經累積相當可觀的研究成果。

正因為眼球追蹤技術提供自然且即時的生理量測，諸如凝視（fixation）、

眼跳（saccade）、視線軌跡（scanpath）或瞳孔尺寸（pupil size），有助於探討個體的知覺與認知處理歷程。常用以推論視覺搜尋（visual search）、場景知覺

（scene perception）、聽覺語言處理（auditory language processing）、問題解決

（problem solving）及訊息處理作業中視覺所扮演的角色，尤其閱讀（reading）

為學界矚目的研究主題（Rayner, 1998）。除了如上述做反映與評估之用，隨著近年平價眼動儀的可用性與易用性獲穩定改善，學者認為視線互動（gaze-based interaction）終究將晉升為標準的人機介面之一（Jacob, 1993, 2006），且預期消費性電子產品將搭載感測器，俾利後續服務因應使用者感官而設計。

即使被視為極具前景的互動途徑，直至今日尚未實現普及化的承諾（Jacob

& Karn, 2003），眼球追蹤技術於人機互動的應用仍面臨不少挑戰，如何符合使用者需求並增進其表現是當前首要的課題。據Rayner（2009）的回顧，眼動牽涉知覺、注意力、訊息處理及動眼控制（oculomotor control）等機制。心理學擅長從眼動型態瞭解行為背後的認知運作，然而，參照前述實證研究的應用屈指可數。故此章節首先闡明視線輸入（gaze input）的特性與困境，再回顧與視線相關的互動派典（interaction paradigm）、探討詞彙處理歷程與眼動型態的關聯性，最後說明眼動運用在閱讀作業的優勢。本論文欲借助閱讀心理學之數學模型，試圖解決視線互動有關可控性（controllability）的問題，同時，探究新

(14)

式人機互動對使用者閱讀理解的影響。

第一節眼動之特性與困境

Sibert 與 Jacob（2000）認為視線輸入堪稱有用、方便的人機互動媒介，凝視非但顯現視覺注意力焦點，也意味著採取行動前的準備工作，故主張「眼動」為可靠的訊息來源，又指出「動眼」比起操作滑鼠更加省力、迅速且易學。尤其視覺搜尋機制與眼球運動密不可分，其益處在選擇作業（selection task）上格外顯著，由於消弭手眼協調（eye-hand coordination）所附帶的反應延遲，游標定位耗時近乎手動的一半，同時得以緩解肢體動作的疲勞感。相較其他輸入裝置，眼動是唯一隱含使用者動機、想法及行為的管道，倘若妥善運用此一特性，將能順利地取代如打字、點擊或切換等例行操作。

然而，正如部分研究（Jacob, 1991; Majaranta & Räihä, 2002）所示，視線互動仍未克服準確性與可控性的障礙，實現所見即所得（what you look at is what you get）的理想效果。畢竟做為知覺器官的眼睛有其天生限制，縱使移動速度再快，也須仰賴更大的標的物以提高容錯率（Ware & Mikaelian, 1987）。歸咎眼動儀的取樣率與眼球不自主顫動，常使游標無法恣意調整，必須倚靠演算法

（algorithm）做額外校正。再者，眼睛時時刻刻在運動且未曾閒置的特性，使系統判定使用者意圖的困難度遽增，即所謂點石成金（Midas Touch）難題－單就視線停留與否，無法確認使用者是否預期輸出指令，抑或是恍惚神遊而已。

人們容易受周邊刺激干擾，而遠離原先感興趣的區域，且眼球運動多屬無意識、自動化歷程。若欲選用視線為人機互動手段，系統勢必得回饋足夠的訊息，確保使用者不失去主控權且能應變潛在差錯。首先，為保持影像落在中央小窩（fovea），人腦必須執行穩定凝視點（gaze stabilization mechanisms）與轉移凝視點（gaze shifting mechanisms）的機制，包括輻奏運動（vergence movements）、前庭眼反射（vestibulo-ocular reflex）、視動震顫（optokinetic

(15)

nystagmus）、跳視與平滑追瞄移動（smooth pursuit movement），即眼球反射或自主運動，調節其與頭部、物體三者之間的相對位置，確保凝視目標清晰且固定成像於視網膜上。在凝視期間亦有細微的眼動，諸如為克服神經適應、視覺消失現象的震顫（tremor），或因眼球控制系統不完美所致的漂移（drift），以及為修正前者誤差而產生的微跳視（microsaccades）（Squire et al., 2012）。諸多機制使眼球無時無刻不運動，進而降低校正品質，表示實際與追蹤位置之間有些許像素的落差。舉例來說，以視線取代滑鼠的研究指出，校正不良時游標會在窩邊（parafoveal）視野閃爍，吸引眼球不斷追逐之，容易造成注意力渙散，並連累任務表現（Jacob, 1995），故使用者必須學會忽視游標或自行微調視覺策略以遷就其校準失真。據此，穩定平滑的操作體驗相當關鍵。針對眼球追蹤的不穩定性，學界常見的解法為規劃演算法與放寬位置公差（positional tolerance），

前者屬於資訊工程領域專業，本論文在此不多深究；後者則是簡單地放大判定區塊，或設計動態變焦（dynamic zooming）、魚眼鏡頭（fish-eye lenses）介面，

增加視線抖動的容忍度，但其缺點在於沒辦法同時呈現多個目標，造成資訊架構冗餘、成效不彰（Ashmore, Duchowski, & Shoemaker, 2005; Bates & Istance, 2002）。

此外，點石成金係視線互動應用中公認最棘手的挑戰。學界研擬並測試了不少應變措施，其中廣為人知的非「基於停滯時間」（dwell-time based）機制莫屬，亦即藉由短暫延遲以區辨不經意掃視與自主控制。唯有凝視時間超過閾值才觸發事件，雖然此法有效地迴避誤解，卻也拖累人機互動的效率，是故後續發展的眼控介面皆可事先依任務要求、使用者嫻熟度或主觀舒適度調整閾限高低。譬如眼動打字專家僅需300 毫秒決策，而新手則偏好 1000 毫秒做準備、確認或取消（Majaranta, Ahola, & Špakov, 2009; Majaranta, 2011）。在校正不甚精準的情況下，視線手勢（gaze gesture）亦是泛用的折衷方案，即預設特定區塊或動作代表基本指令。使用者便能利用符合規律的眼睛筆劃（eye strokes）或模擬

(16)

手搖桿（joystick），甚至借助螢幕外的感測器操作系統（Isokoski, 2000; Drewes

& Schmidt, 2007）。同樣地，Skovsgaard 等人（2011）則採用視線啟動（gaze- initiate）輔以其他互動管道做覆核，諸如口語（Miniotas, Špakov, Tugoy, &

MacKenzie, 2006）、皺眉（Surakka, Illi, & Isokoski, 2004）、眨眼（Ohno,

Mukawa, & Kawato, 2003）、觸控（Stellmach & Dachselt, 2012）或頭動（Špakov

& Majaranta, 2012）確認。或如 Zhai、Morimoto 及 Ihde（1999）提出之 MAGIC

（Manual and Gaze Input Cascaded）指向機制，退而求其次先讓眼動負責粗略定位，系統再據互動情境分析可能的熱點（hot spot），待游標鄰近預選區域時轉交由手動調整，藉此減少錯誤發生、疲勞的情形，且較單純地手動選擇更為敏捷。

可是，無論是預定義間隔或迫使附加步驟，皆徒增視線互動應用的複雜性，並考驗使用者的手眼協調能力。為了彌補其花費的多餘心力，前述研究又得額外設計視覺回饋，提示追蹤、辨識、運作等狀態，例如基於凝視的文本輸入裝置以顏色變化，強調當前的累積時間與預選字樣，即色彩愈飽和者愈接近閾限，藉此反饋系統處理進度（Majaranta, MacKenzie, Aula, & Räihä, 2006）。由此可見，視線輸入的使用時機須權衡其準確度、可控性以及響應性

（responsiveness）。而本研究將採納閱讀心理學中興趣區（region of interest, ROI）的概念，以及凝視時間與詞彙特性的計算模型，從使用者行為本質發想如何應對視線互動之困境，詳細說明請見本章第四節。同時拋磚引玉，期許實務者跨領域合作、深掘學界既有的各項透徹研究。

第二節視線互動之發展與應用

Rayner（1998）總結近百年的眼動研究為三個紀元：第一階段可追溯至 1879 年 Javal 等人率先觀察閱讀歷程中眼球運動的基本現象，往後陸續發現眼跳、跳視抑制（saccadic suppression）、跳視潛伏期（saccade latency）及知覺廣

(17)

度（perceptual span）等議題；第二階段 1930 年代正值行為主義盛行，學界普遍漠視認知處理歷程，多聚焦在行為表面或應用實務上；直到第三階段受惠於資訊科技突破、追蹤感測系統的穩定與精確度大幅躍進，又恰逢認知心理學濫觴，諸多實證與理論相繼提出，體現眼球運動與內在心智運作的關聯性。隨著互動應用的出現，Duchowski（2002）認為二十一世紀起邁入第四紀元，依系統分析的角度區別診斷（diagnostic）與交互（interactive）兩類應用。前者係指藉由追蹤儀器間接地記錄客觀、量化的眼動資料，並用於事後分析評估，以瞭解實驗期間人們如何接收視覺訊息與其注意力型態，且此情境下刺激並不因視線而有所改變。相對地，後者則基於使用者眼動提供適切的反應，例如選擇性

（selective）系統中將移動軌跡類比為指向裝置（pointing device），或如眼動誘發（gaze-contingent）系統運用注視渲染技術（foveated rendering），契合人眼成像特徵，營造清晰、沉浸的視覺體驗，同時降低電腦運算負荷、增加互動模式的穩定性。

然而，眼球追蹤技術的應用並非僅止於此，在與日俱增的計算能力助長之下，視線互動如雨後春筍般多元發展。它不僅限於操縱滑鼠游標，甚至用以標記注意力焦點，輔助資訊傳遞或提升任務表現。故Hyrskykari、Majaranta 及 Räihä（2005）就領域類別加以區分：一、人與裝置互動（human-appliance interaction）係指該系統偵測眼睛存在或視線接觸，促進與周遭物件的自然互動，如智慧家電藉此降低因候選對象過多、口語指令有限，而語音辨識錯誤的可能性（Shell, Vertegaal, & Skaburskis, 2003）；二、人機互動（human-computer interaction）泛指運用眼動型態之應用，其提供系統適應用戶行為的可靠依據，

甚或是感知使用情境及早預防或協助；三、人與人互動（human-human

interaction）則將注視方向當作溝通線索，強調彼此所關心的癥結，增進社交活動或視訊會議的效率（Vertegaal, Weevers, Sohn, & Cheung, 2003），有助釐清疑問且建立共識。

(18)

學界針對視線互動的見解不盡相同，為彙整議題全貌Majaranta 與 Bulling

（2014）參照 Fairclough（2010）提出之生理計算系統（physiological computing system）分類法，將應用界定於外顯（overt）至內隱（covert）的光譜上，請見圖1。左起為使用者主動、有意地透過視線輸入與客體互動；中間係屬注意力

（attentive）與自適應（adaptive）介面範疇，該系統會自動回應使用者的眼動表現，或根據其行為模式呈現符合當下需求之訊息；而右側即是系統被動地監視眼球運動狀況，供研究者離線（off-line）檢視閱讀歷程。上述面向皆由相同感官出發，但對使用者的影響不一，以下分別說明之：

圖1：視線互動應用光譜

資料來源：修改自

Advances in physiological computing (p. 39-65), by S. Fairclough

and K. Gilleade, 2014, London: Springer-Verlag.

外在眼動輸入（explicit eye input）

外在眼動輸入，顧名思義指使用者自主調整眼球運動方向，以此命令、控制系統。尤其行動不便者經學習後便可利用凝視與視線手勢操作介面與虛擬鍵盤，代替語音、手部動作等互動途徑。其中，最常見的應用實屬指向功能，亦即模擬鼠標或結合其他互動技術，於圖形使用者介面上達到點擊、拖拉、縮放等效果。雖說視線控制的準確性遠不及常規輸入裝置（Majaranta & Räihä,

(19)

2002），如滑鼠、鍵盤或觸控，但藉由演算法減輕晃動狀況，即可媲美頭部移動，不失為堪用的輔助工具（Bates & Istance, 2002; Hansen, Tørning, Johansen, Itoh, & Aoki, 2004）。截至目前，眼控交互廣泛應用在文本輸入、網頁瀏覽、遊戲操作、樂器演奏等，乃至進一步衍生到行動裝置與人－機器人互動上

（human-robot interaction）（Dybdal, Agustin, & Hansen, 2012; Mohammad, Okada,

& Nishida, 2010）。

注意力使用者介面（attentive user interfaces）

眼動感知（eye-aware）與外在輸入僅有一線之隔，前者係由系統主動偵測眼球，並順應其運動特性即時反應，例如眼動誘發顯示（gaze-contingent display）優先繪製目光焦點之高解析度圖像，並保持周邊視野模糊以節省頻寬

（Duchowski, Cournia, & Murphy, 2004）。注意力介面旨在增進使用者的任務表現，經由辨識自然的凝視行為，評估可能之目標或困難處，讓輔助說明在視線變換時同步呈現（Jacob, 1991; Hyrskykari, Majaranta, Aaltonen, & Räihä, 2000）

以利訊息整合。亦可自動化部分指向作業，如預選或縮放當前工作視窗，提升任務轉換的效率（Fono & Vertegaal, 2005）。此面向適用於任一個體且容易上手，是故學者認為感知系統將邁向主流。不過，當前所見之原型皆缺乏客觀的判斷依據，僅就實務者自身經驗認定合理閾值，導致回饋時機不盡符合使用者需求。下一節將討論注意力介面相關研究發現，以及本論文欲改善之痛點。

基於視線的用戶建模（gaze-based user modeling）

有別前述兩者聚焦互動與介面議題，建模致力於「預測」使用者行為、認知歷程與意圖，經由感測器持續記錄並剖析個體於各情境的視覺表現，試圖瞭解其「如何」而非「從何處」收錄訊息。此研究取向係屬實驗心理學的方法之一，像是憑藉著凝視時間、眼跳幅度、時序關係與空間分布，模擬不同目標下

(20)

的閱讀策略。近年，隨著機器學習（machine learning）與圖形辨識（pattern recognition）技術進步，計算模型的研究規模由單一任務，如閱讀、問題解決、

交談或駕駛等，演變成整體行為層次（Kandemir & Kaski, 2012）。學者成功單憑眼球運動特徵自動分辨人們是否處於閱讀或其他辦公活動中（Bulling, Ward, Gellersen, & Troster, 2011）、估算其工作負荷（Tessendorf et al., 2011）與意圖

（Bednarik, Vrzakova, & Hradis, 2012）等，諸多行為模型的建構皆為求系統能如實地以使用者為中心，設計對策呼應眼動型態所隱含的心智運作。

被動眼球偵測（passive eye monitoring）

鑒於人類收錄之外界訊息約有80 %來自視覺（Sanders & McCormick, 1987），又眼球追蹤相較其他即時測量技術具備高時間解析度，故而學界普遍採用眼動資料驗證認知歷程。透過多元指標詮釋實驗操弄或自然情境下的視線動向，觀察其與閱讀理解、學習記憶、圖文整合或手眼協調等作業的對應關係。

然而，正因為數十年的研究多以被動偵測的方式進行，唯少數論及即時（real- time）互動下的眼動表現，致使實務應用領域無從植基於心理學既有的發現。

故本論文將參照過往對於閱讀歷程的認識，嘗試設計符合生心理反應的感知系統。

第三節視線感知系統

現今科技產品環伺，人機互動關係愈趨多元，而屢次與電腦裝置接觸無疑是對使用者疲勞轟炸。為了因應未來複雜的環境且減少人們的認知負擔，

Nielson（1993）認為非指令型使用者介面能提供適當的協助，亦即系統不再被動接受使用者指令，而是主動偵測其生理與心理狀態、行為、乃至環境變化，

諸如語音、眼動、臉部表情、肢體動作等，據此資訊預測並給予適當之回饋。

(21)

其中，「眼球追蹤」屬最能反映個體注意力的互動途徑，尤其應用於虛擬實境

（virtual reality）、擴增實境（augmented reality）或混合實境（mixed reality），

更能明確地辨識使用者的意圖。同樣概念的自然用戶介面（Natural User Interfaces）派典相繼提出，例如情感計算（affective computing）、情境感知

（context-aware）、透明運算（transparent computing）以及普及運算（ubiquitous computing）等。此研究取向訴求由電腦主導互動，透過行為指標揣摩使用者的動機，再決定將傳遞何種內容，藉此，讓使用者保有餘力應對任務本身而非溝通過程（Tennenhouse, 2000）。

本實驗所關心的注意力感知系統（Attention Aware Systems, AAS），或稱注意力使用者介面（Attentive User Interfaces, AUI）雖與上述案例共享目標，卻更強調任何安排皆須配合個體在各作業下的注意力歷程（Vertegaal, 2003; Roda &

Thomas 2006），於多重任務的動態環境中適應、支持其行為，且避免無謂的任務中斷。Maglio 等人（2000）則歸結所謂的注意力感知必須能偵測行為、模擬目標、預測需求、補足資訊並與使用者互動，故該系統通常仰賴感測器收錄相關線索（Horvitz, Kadie, Paek, & Hovel, 2003）。除了膚電、腦波等生理回饋外，

長期累積的數位足跡（digital footprint），例如網頁瀏覽歷史、社群媒體發布或電子產品使用狀況，皆蘊含不少有價值的訊息，諸多應用從中抽絲剝繭列舉可能的偏好與問題。

基於本章第一節「眼動之特性與困境」所述，Hyrskykari（2006）指出唯有眼球追蹤得以充分反映注意力投入程度。將眼動表現納入考量促使系統「意識」到使用者的心理狀態，俾利權衡任務優先順序、迎合當下行為模式，遂由視線感知預判使用者需求再適合不過。而相關應用早在Starker 與 Bolt（1990）

就發表小王子說書人（Little Prince Storyteller），根據讀者眼動軌跡判斷其感興趣的區域，局部放大並播送更詳細的旁白，藉此引導故事演進；SUITOR

（Simple User Interest Tracker, Maglio & Campbell, 2003）注意力代理（attentive

(22)

agents）利用瀏覽網頁時的注視行為，推斷讀者所關心的議題，並自動查找相應資訊呈現在螢幕四周，其目的在於促進人機溝通的效率；EASE（Eye Assisted Selection and Entry, Wang, Zhai, & Su, 2001）則嘗試解決中文拼音輸入法為人詬病的選字問題。當同音異義的候選對象過多時，系統便會提前標記視線焦點，

使用者只須按下空白鍵確認，即可選取凝視點就近的目標。省略查看數字鍵的流程，好讓注意力資源更充分利用，從而減少該任務的認知負荷；同樣做指引之用的EyeGuide（Eaddy, Blaskó, Babcock, & Feiner, 2004）、iTourist（Qvarfordt,

& Zhai, 2005）、Museum Guide 2.0（Toyama et al., 2011）及 GazeGIS（Tateosian, Glatz, Shukunobe, & Chopra, 2014）皆依循使用者的視線動向，給予貼題的照片、地圖、方向導航、或語音導覽，憑著注意力誘發（attention-contingent）機制即時補充其所見事物與所處情境之資訊。且評估結果一致顯示數位個人助理對作業表現與使用經驗有正向影響。

有鑑於閱讀乃人機互動的基本要件，又閱讀歷程關乎使用者資訊獲取的品質，故該領域的輔具設計為實務上熱門的主題。譬如Takagi（1998）提出的翻譯支援系統（Translation Support System），即隨著使用者瀏覽文章，系統自動移除無用段落並持續更新文本，當偵測到眼神遲疑時便從日英對照的語料庫中提取關鍵字翻譯；而Sibert 等人（2000）的閱讀助理（Reading Assistant）強調閱讀外語時的行為變化，若停滯時間超過設限，便劃記提醒（閾值1 為

240ms）再附註該詞彙的母語發音與文字釋義（閾值 2 為 360ms），取代過往以滑鼠觸發的方式。經實驗證實有輔具從旁協助之閱讀障礙者，其詞彙再認與答題正確率皆顯著改善，且凝視時間與個數銳減、閱讀速度增快。再者，基於凝視的注釋（gaze-based annotations）應用則整合時間和比例指標，將學生閱讀緩慢或反覆多次的文句畫線、填色，且標註篇章間的閱覽順序，以揭示教材艱澀難懂之處，方便教師察覺原因對症下藥。結果顯示對學習成效有所幫助

（Buscher, Dengel, van Elst, & Mittag, 2008; Okoso, Kunze, & Kise, 2014; Cheng,

(23)

Sun, Sun, Yee, & Dey, 2015）。數位學習（e-learning）平台與智慧型輔導系統

（intelligent tutor system）亦根據參與者的注視位置，適時播放教學影片或補救教材，比如在圖表處停駐許久便會加註解釋、或顯現動畫引導觀看重點，有效促進其投入與學習（Calvi, Porta, & Sacchi, 2008; D'Mello, Olney, Williams, &

Hays, 2012）。此外，Biedert 等人（2010）所開發的 eyeBook 及 Text 2.0 電子書軟體，則利用眼球追蹤與預先規劃的演算法，監測使用者在閱讀文章時的眼動型態。當視線經過（閾值為750ms）網頁上特定文件物件模型（Document Object Model, DOM）元素時即呈現翻譯、註腳、發音、或語境所對應的圖案、

動畫，期望藉此幫助理解文意。同時融入眼控機制，進行如選取、換頁、滾動等外顯互動，該應用結合多媒體以增強閱讀體驗並展示眼動應用的穩定性。問卷調查指出視線響應文本（gaze responsive text）原型屢獲佳評（Biedert et al., 2010; Hosseiny et al., 2011）。近年，學者如 Ishiguro 與 Rekimoto（2011）及 Toyama 等人（2014）將注意力使用者介面移植至擴增實境，借助視線管理虛擬資訊的顯示位置、類型、亮度與細節層次（level-of-detail），即愈接近視野中心者愈清晰詳盡。甚至辨識、即時翻譯使用者以視線手勢所框選的文字內容，幫助非母語者瞭解工作或公共場域的指示標語，避免因語言不通的溝通障礙。

可惜在眾多閱讀相關應用中，僅有iDict（Hyrskykari et al., 2000;

Hyrskykari, Majaranta, & Räihä, 2003; Hyrskykari, 2006）無摻雜過多主觀設定，

明確地參照心理學在閱讀上的發現。此系列研究進一步聚焦於翻譯功能上，旨在幫助非母語者讀懂外語電子文件，以自然的眼動表現與詞彙特性推估文本難易程度，讓視線互動的效果更貼近使用者的需求。當任一單字的總凝視時間高於該詞頻的詞彙所對應之理論閾限（註：最早版本設800ms 為固定閾值；之後改為2000-0.17freq, 100 < freq < 6000），即意味著不熟悉或遭遇障礙。程式便自動在目標字上方與右側視窗顯示翻譯、例句和詞性變化等介紹。讓使用者在意識到困難前，不經意瞥見系統協助，最小化手動查詢字典所造成的切換成本

(24)

（switching cost）以及對語意理解的干擾，好專注於主要任務－閱讀本身。再者，iDict 導入演算法以視線軌跡、凝視與回視狀況，區辨閱讀、掃視

（scanning）、休眠（dormant gazing）、遇到困難（encountering difficulties）四種眼動型態，藉此減少系統誤判，最適化回饋呈現時機。且更進一步分析詞彙與語法，提前注釋可能有問題的單字、詞組、片語以及複雜句型結構，並存取個人使用偏好，記錄其閱讀習慣以客製化輔助內容。該研究從參與者主觀報告總結出視線感知輔具的確提升了閱讀體驗，雖然評價仍略遜滑鼠一籌，但搭配視線游標（gaze cursor）與線標（line marker）兩視覺回饋，滿意程度堪比傳統介面。另從註解觸發狀況檢驗，發現實際操作時的假警報（false alarm）比例低於百分之三，表示其判定有翻譯需求的詞彙與使用者主觀感受有困難者相符。然而，iDict 採用基於停滯時間的互動模式，並自行推算簡易的數學模型以規避

「點石成金」的問題，卻因為疏忽詞長、詞頻與個體差異等因素而預測失準，

導致部分使用者反映系統響應性不佳且與期望產生落差。

綜合上述，傳統的圖形介面若能適時融入注意力感知系統，將有助於優化例行事務的流程、改進注意力資源分配。但是，實務應用的研究方向仍屬原型設計與系統開發居多，且一致宣稱眼動誘發機制對用戶獲益匪淺，未討論實際場域的體驗與即時回饋如何影響個體表現。僅在李克氏五點量表中得正面的使用評價，欠缺客觀數據佐證。其中，亦有部分學者提出視線互動個人化與客製化的展望，由於眼球運動變異甚大，因人而異、量身打造的系統設定有其必要性，固定的閾值或互動模式容易與使用者認知有所出入。是故本研究將考量詞彙特性與個體差異撰寫判斷式，並檢視互動當下的眼動型態，藉各項指標瞭解感知系統是否如過去預期所述，能顯著促進訊息整合且增加閱讀效率。

第四節眼動於閱讀

閱讀乃獲取訊息的必要技能，為瞭解文本所要表達的意義，人們得先辨識

(25)

文字符號、進行詞彙觸接、再整合語意線索加以理解。故學界常用眼球追蹤技術觀察各階段對應的眼動表現，推論自然情境下每時每刻（moment-to-

moment）的認知處理歷程。研究者亦可考量從整體或局部觀點，分析視線停留及移動的型態，由時序與空間變項探討當下的視覺策略或現象。而相關的眼動指標包羅萬象，其中凝視與顫動係屬眼球運動之基本元件，常概略分為凝視時間（fixation duration）、凝視位置（fixation position）、眼跳速度（saccade velocity）、眼跳幅度（saccade amplitude）、眼跳方向（saccade direction）等訊息。種種行為描述皆經研究驗證能反映閱讀理解歷程（Rayner et al., 2006;

Rayner, 2009）。基本上，個體的眼動表現會依作業難度、所需心智資源或訊息密集程度越高而相應變化，如凝視時間延長、凝視點個數增加、眼跳幅度縮減且更常回顧已讀內容。

一般而言，英語使用者閱讀文句時，文字平均凝視時間為225-250 毫秒，

且每次移動距離為7-9 個字母。知覺廣度（即單一凝視下有效的視覺訊息收錄範圍）約為凝視點左側3-4 個字母延伸至右側 14-15 個字母。視線由左至右、

由上至下依序移動，偶爾會略過不停留（skipping）或逆向再度凝視

（regression）目標字，其中，略視比例近乎是眼動表現的三分之一（Brysbaert, Drieghe, & Vitu, 2005），回視約佔 10-15 百分比，且大部分是重複閱讀前一單詞或上個段落，學界視之為理解困難，其餘則係在單字內小幅度眼跳以校正過衝

（overshoot）的情況（Inhoff & Weger, 2005; Rayner, 1998; Vitu & McConkie, 2000）。而如前述的眼動本質皆會因任務性質、文體種類、閱讀能力，甚至書寫系統而異，比方說隨著文本困難度愈高，凝視愈久、眼跳愈短且回視更頻繁。

再者，詞彙處理歷程為是否能成功理解語意的關鍵，故可能的影響因素向來是閱讀領域的研究焦點，諸如字型、詞長、詞頻、詞性及語意等詞彙特性，其探討尺度又涵蓋單字、文句、段落與篇章。舉例來說，研究指出文本易讀性

（legibility）較差者，即未啟用螢幕平滑調整工具（ClearType）之字體的凝視

(26)

點個數變多、凝視時間延長、閱讀速度趨緩（Slattery & Rayner, 2010）；實詞

（content word）被讀者凝視的比例較功能詞（function word）高（Just &

Carpenter, 1987）；語意透明度（semantic transparency）低者，亦即複合詞

（compound word）意義無法由組成字直接推敲時，其凝視時間顯著較久

（Pollatsek & Hyönä, 2005）；另外，詞長（word length）、詞頻（word

frequency）以及預測性（word predictability）效果遍及所有眼動指標。倘若目標詞彙字母數稍多、出現頻率較低、或較難藉語意脈絡預測之，將拖延其首次與再次閱讀時的處理時間、產生多個凝視點、且增加整合比例（Kliegl, Grabner, Rolfs, & Engbert, 2004; Rayner & Well, 1996; White, Rayner, & Liversedge, 2005;

Williams & Morris, 2004）。眾多發現一再說明詞彙特性係影響閱讀歷程的重要因子。

除了如上述從單一詞彙處理（single-word processing）的角度探討外，文句語境、句法模糊程度（syntactic ambiguity）、文章難易與個別差異等變項亦是常見的切入點。舉園徑句型（garden-path sentence）為例，讀者因該句之語義、語音或文法架構衝突而理解困難，反映在眼動歷程即為閱讀速度趨緩、凝視時間增加、眼跳幅度縮短、再視及回視比例提高、甚或是反覆審視上下文資訊

（Frazier & Rayner, 1982, 1987）；還有，猶如小孩、教育程度低、或閱讀障礙

（dyslexia）者之語言能力略差，相對於一般讀者而言，其更容易展現出遲緩猶疑的眼動型態，譬如凝視時間、再閱讀與回視比例增加（Ashby, Rayner, &

Clifton, 2005; Chace, Rayner, & Well, 2005），然而，針對高層次歷程的研究仍為少數，Rayner、Chace、Slattery 及 Ashby（2006）將理解視為詞彙辨識（word recognition）、閱讀流暢度（reading fluency）、句法處理（syntactic processing）

及詞意知識（knowledge of word meanings）四項能力相互協調而成。並藉由平均凝視時間、凝視點總數與總閱讀時間代替主觀評分，顯見整體性篇章難度與眼動表現的關係。若讀者能無礙地將單詞、文句融會貫通，其處理時間及閱讀

(27)

行為皆相對迅速從容。綜上所述，眼動指標用於推論認知歷程的穩定性已受反覆驗證，得以體現閱讀相關的心理現象，是故本研究欲根基既有發現訂定視線感知系統之閾值。

第五節眼動控制數學模型

閱讀涉及諸多處理歷程，關乎人們日常任務的成敗，故學界亟欲探究高階認知與眼動控制的關聯性，亦即詞彙辨識（word recognition）與自發眼跳

（saccade generation）兩者所組的認知－運動系統（cognitive-motor system）如何協調運作。承上所述，過往研究支持字詞的凝視時間取決於詞彙變項，且眼動型態會依文本特性和個體差異而有所變化。然而，相關議題的探討多針對片面觀點或特定情境做量測，缺乏整體性的檢證，是故衍生出數學模型

（mathematical model）的研究取向。藉由純量化的指標與刺激特徵去描述、詮釋或推估閱讀時的眼動表現，抑或是概括目前所知的生心理現象。基于其提供客觀的計算關係，有別其他視線感知應用由開發者主觀認定閾值，本實驗將參照眼動控制數學模型規劃演算法。

據悉，閱讀中的眼動計算模型（computational model）百家爭鳴，其中最具代表性的係屬E-Z Reader（Pollatsek, Reichle, & Rayner, 2003; Pollatsek, Reichle,

& Rayner, 2006）與 SWIFT（Engbert, Longtin, & Kliegl, 2002 ; Engbert,

Nuthmann, Richter, & Kliegl, 2005; Schad & Engbert, 2012）。兩者基本假設雖不盡相同，但皆企圖建構詞彙特性與凝視時間的數學關係式。亦即個體在閱讀文本時的眼動型態會受詞長、詞頻與預測性影響，例如字母數較多、頻率較低且語意脈絡預測性低者，各類型凝視時間指標皆明顯增加。由於後者採用平行處理

（parallel processing）模式，參數精簡且限制寬鬆，除了能成功估算出詞頻與詞長效果、再視與回視，也可重現諸如反向最佳注視位置效應（inverted optimal viewing position effect, IOVP）、略視成本（costs for skipping）、延遲與前置效果

(28)

（lag and successor effects）等進階眼動現象，合理性及說明之妥當性相對較佳，且此類容許同步處理並隨機選取目標的理論框架，更能解釋複雜的視覺處理作業。

而本實驗遂沿用SWIFT（Saccade-Generation With Inhibition by Foveal Targets）所推演的計算關係。有別於初級動眼控制（primary oculomotor control, POC）模型－將眼動全然歸因於低層次的物理屬性，如文本編排、起始落點位置，而忽略詞彙辨識歷程，致使其僅能定性描述閱讀行為。SWIFT 係屬於眼動認知模型（cognitive model）中的注意力梯度指導理論（guidance by attentional gradients, GAG），或稱處理梯度模型（processing gradient models, PG），且參照動態場論（dynamic field theory; Erlhagen & Schoner, 2002）架構。此模型主張語言處理乃同時並行，視個別字詞為基本單位，且注意力範圍內的候選目標同步激發，相鄰詞彙彼此競爭，由活化能高低決定下一個眼球注視處，過程中牽涉知覺輸入、記憶系統、動作規劃等認知運作機制交互影響。比起序列性注意力轉移理論（sequential attention shift, SAS），此模型更強調動態的資源分配，處理效率將隨著注意力分布、辨識進度而調整，即已辨識之詞彙獲取較少資源，

並以激發程度高的新詞為優先。也因此每篇文章的詞彙排列亦會影響到模型預測的結果，包括個體的眼跳幅度、回視比例或再視機率等變項。

簡言之，SWIFT 眼動控制模型假設詞彙辨識歷程驅使眼球運動，同時主導何時（when）與往何處（where）眼跳。文本如顯著圖（saliency map）般構成一維的空間分布，任何詞彙皆是可能的跳視目標，其活化程度在預先處理階段

（preprocessing stage）時上升，並於詞彙完成歷程（lexical completion process）

依不同速率恢復基準，假如某單字於加工結束後仍在閾限之上，便可能產生回視。其中，各詞彙的最大活化能取決於單字困難程度，由詞頻描述之；且詞彙處理速率（lexical processing rate）為離心度（eccentricity）的函數，即愈接近當前凝視中心，該字母的處理效率愈佳，且因應非對稱的知覺廣度，以右偏的高

(29)

斯函數表示之。同時考量眼球持續運動的特性，單字的加權處理效率皆隨時間演變，且活化能增減速率受語意脈絡預測性調節；此模型另行導入隨機過程

（stochastic process），調節動態的詞彙觸接（lexical access）、眼跳目標選擇

（saccade target selection）、中央凹抑制（foveal inhibition），以及眼球運動準備歷程（saccade programming）；再者，詞長特性則間接決定眼跳落點、錯誤與修正等機制，且其所導致的凝視位置與先前的凝視順序將嚴重影響詞彙處理時間。前述機制的數學關係式與建模細節請見SWIFT 之系列回顧（Engbert, Nuthmann, Richter, & Kliegl, 2005; Schad & Engbert, 2012）。

經Engbert 等人（2005）反覆比對原始數據與模擬結果，證明 SWIFT 能準確推算各詞彙特性所對應之多種以字詞為基礎的眼動指標（word-based

measures），包括凝視時間（首次凝視、再次凝視、單一凝視與總閱讀時間）、

凝視比例（略視、再視、多次再視與回視）、注視位置與其分配，請參照圖2。

明顯可見總閱讀時間、再視及回視比例皆隨著詞頻越低、詞長越長而增加，略視比例則相反，且實驗觀察值與模型模擬值相近。鑒於眼動控制數學模型的出發點皆為語言共性（linguistic universal），即使 SWIFT 系列研究主要以德文語料庫（Potsdam Sentence Corpus, PSC）為驗證對象，雖不同於本實驗所採用的英文材料，但模型假設與計算關係仍一體適用。於是，本視線感知系統參考其核心計算方式的邏輯，用以擷取詞彙特性與凝視時間的關聯性，依循模型預測的總閱讀時間（total reading time）做為判斷閾值。倘若參與者閱讀時表現不如預期，將予以協助。然而，至今尚無研究探討非母語者閱讀外語時的眼動表現是否全然適用各個計算環節，在學界仍未釐清前，本實驗將藉由事前校正彌補英語熟悉程度所造成的落差－以英文為外語者的詞彙能力與背景知識不及母語者，故可預期其處理歷程應較費時，且難易詞彙之間的變異更為明顯。

(30)

圖2：SWIFT 模型預測之詞彙特性與凝視指標關係

資料來源：“SWIFT: A dynamical model of saccade generation during reading,” by R. Engbert et al., 2005, Psychological Review, 112, p. 777-813.

第六節瞳孔與認知負荷

除了追蹤眼球移動外，瞳孔擴張（pupil dilation）和自發眨眼頻率

（spontaneous eye blink rate, EBR）亦屬常見的測量指標。前者與工作負荷

（workload）密切相關，故本篇研究將藉此延伸探討視線互動應用之效率。呼應Cockburn 等人（2007）的論述，合宜的互動技術應支持用戶獲取資訊與學習，使用者介面旨在降低規劃、完成作業所需之成本。而此概念常觸及教育心理學與人機互動領域常引用的「認知負荷理論」（Cognitive load theory）－人們的工作記憶有限，訊息僅可短暫保留及運用，唯有不斷複誦（rehearsal）才能使之進入長期記憶。倘若同時處理多個刺激將造成認知負荷超載，影響相關行為表現。而負荷來源細分為心智負荷（mental load）與心智努力（mental

(31)

effort），分別由任務與環境、個體投入程度決定。且在學習過程中經常會發生分散注意力效應（split-attention effect），亦即當使用者來回參照原文與翻譯時，

其眼動得往返遞移數次，須耗費更多注意力資源做訊息整合，大幅提升負荷量以致於對閱讀理解產生負面效果。

此外，Beatty（1982）彙整出任務誘發瞳孔反應（Task-Evoked Pupillary Response）與處理資源的關聯性，即瞳孔大小隨任務的處理負荷提高而擴張。

無論是記憶、語言處理、推理、知覺或注意力作業，皆能觀察到此生理指標隨時間上下波動。適合用以比較任務間（between-task）、任務內（within-task）及個體間（between-individual）的需求高低；Hyönä 等人（1995）探究芬蘭語和英語即時口譯時的瞳孔變化。發現參與者的負擔分別於聆聽、覆誦、翻譯作業之間有差異，尤其複雜程度高者變異越明顯，且當文本難度提升時瞳孔直徑顯著增加；Engelhardt、Ferreira 及 Patsenko（2010）則以瞳孔擴張程度反映口語理解（spoken language comprehension）所需的處理負荷。當視覺與韻律語境

（prosody context）不一致時其變動斜率較大，且證實瞳孔尺寸提供比答對率更為敏感、精細的訊息；再者，Iqbal、Zheng 及 Bailey（2004）為了迴避人機互動經常發生中斷（interruption）而造成的心智負荷驟增。針對閱讀、推理與搜尋作業的瞳孔反應做量測，指出參與者進行實驗時的瞳孔尺寸，與其任務完成時間、主觀難度評估呈正相關，且不同難易程度下的瞳孔大小具顯著差異。總而言之，瞳孔反應亦如眼動型態般能詮釋個體的內在認知運作，故本實驗將參照上述研究以此生理表現評估系統是否有效緩和閱讀作業之負荷。

(32)

第參章前測：使用者訪談

為瞭解目標族群－學生的閱讀行為，本研究事前訪談6 名國立臺灣大學碩士生。彰顯其語言能力有限，飽受詞彙量不足所苦，又有頻繁接觸英語資訊的需求，且情境不限於閱讀文章、翻閱書報或瀏覽網路資源，以探討其閱讀外語文本的經驗、所遭遇的困難以及應對措施。本次訪談結果誠如Hyrskykari

（2006）所歸結：首先，使用者能否理解語意多取決於詞彙熟悉程度。在個別字義不明的前提下，藉由前後文推敲詞意的閱讀策略經常失靈，更遑論掌握語法結構或領會篇章涵義。尤其是通篇專有名詞的學術論文，讀者起碼要對該領域範疇有粗淺的認識，不然會對字彙所欲表達的抽象概念毫無頭緒。所以，使用者一致認為具備適度的「詞彙能力」與「背景知識」有助於提取字面訊息、

組織文章表徵。而且閱讀理解的關鍵在「整合」文意，讀者必須經由詞彙、語法（syntax）、語意（semantics）及語用（pragmatics）建構命題，再和既有的知識連結，對照並修正新舊訊息後方能理解篇章內容，是故詞彙辨識實屬資訊獲取的必要條件。

再者，當遇到冷僻艱澀的生字時，使用者相當依賴搜尋引擎、電腦中介註解（computer-mediated glosses）與線上翻譯服務（如 Google translate、

Cambridge Dictionaries Online）等輔助工具，透過機器翻譯進行跨語言的資訊檢索。有別於實體紙本或電子辭典的操作型態，其更講求有效率地完成任務，但實際助益因其準確性、即時性而定。好比說，檢索系統往往受限於各語言獨有的分詞（segmentation）規則、詞意變換、字彙歧義性（ambiguity）而導致翻譯品質不佳，例如錯置子句（clause）所修飾的對象或形同義異的候選字。倘若遭遇前述狀況，使用者通常得自行判斷文本關聯性，進一步比對勘誤、潤飾修訂譯稿。另外，使用者亦會衡量「閱讀情境」決定輔助工具的求助順序。假如有任務在身，便傾向選擇即時翻譯服務，講求解決問題的效率，同時會計較用詞

(33)

能否和當下語境契合；相對地，若只是在閒來無事時瀏覽網頁，受訪者比較願意搜尋不懂的關鍵字，查看詳盡介紹與額外補充，反而不那麼在乎系統回饋是否恰當。

最後，每逢陌生單字必然中斷閱讀歷程，使用者非得一再執行次要的辭典諮詢作業（dictionary consultation task），否則無法順利整合文本的語意脈絡。不管是使用何種形式的辭典，作業程序不外乎是標識目標、記憶字形、檢索資訊、斟酌翻譯並與原文參照。然而，縱使各細項再容易上手，每回任務轉換

（task switching）皆附加成本。且對於非母語者而言，理解困難在所難免，若整套流程在閱讀歷程中周而復始，遲早也會不堪負荷，致使耗時增加、正確率降低、投入程度與意願銳減。特別是以紙本閱讀時更難逃動筆劃記、謄寫注釋等例行公事，是故看似簡單的動作卻有礙主要任務進行。幾位使用者甚至指出，大學時期初次接觸全英語教科書或論文時備感困擾，最大的原因即為不習慣閱讀外語文本。相較於友善的母語學習環境，為了讀懂教材而迫使反覆查詢辭典、重新領受字義的過程常讓人身心疲乏，唯有持之以恆地增進實力，才能克服語言的藩籬。

有鑑於受訪者偏好線上翻譯服務，本段落試舉Google translate 為例探究其功能與設計概念：與專業英漢辭典迥異，其訴求便利與即時性。使用者僅需在搜尋列鍵入欲查詢內容，系統即呼叫資料庫回傳相應註解，且其精簡眾人較不關心的音標、時態及慣用語法等解釋，選擇犧牲掉翻譯的準確度，僅提供簡單易懂的字義。其實，開發者也察覺到查詢作業的惱人之處，即便透過行動裝置隨手操作，仍得經歷繁瑣的流程，從選取、複製、貼上、切換應用程式直到文字輸入，認知負載與轉換成本不斷累積。當次要任務嚴重影響閱讀理解時得不償失，使用者便會放棄查閱。因此，該服務相繼推出多項功能，諸如網頁擴充套件、觸控翻譯（Tap to translate）、語音翻譯與鏡頭翻譯（Word lens），皆免除手動打字，取而代之的是點擊目標、口頭陳述或拍攝照片。嘗試塑造真正的即

(34)

時體驗，讓使用者進行當前作業的同時，盡可能以最低成本滿足需求。然而，

無論是彈出（pop-up）、點擊（click-on）或鍵入（key-in）等互動途徑，使用者仍免不了跳離原本的閱讀環境，造成理解歷程停頓或錯亂，因此如何不突兀的、適時的提供即時翻譯尚待考察。

觀察翻譯工具的使用概況後發現，網頁與手機版服務仍是受訪者的首選，

其極少透過語音、拍照等管道求助。歸納原因有二：一為「學習」大多是面對文件資料，前兩類應用較方便接觸，且與原先的工作情境相近，能避免冗餘的語意線索佔據工作記憶。二為其他功能皆是以彈出式視窗顯示，雖然提供適當的協助，卻也如插頁廣告（interstitial advertisements）般遮蔽原始內容，妨礙執行任務、降低互動體驗。此外，部分使用者特別指出外語學習的矛盾－加註翻譯於陌生詞彙旁有助於理解文意，但是隨著註解越多視覺越擁擠，將有礙於閱讀行為。故如何拿捏筆記內容亦是學生常見的困擾。

接續上述問題探索需求。假使撇除應付考試的情況，使用者閱讀文章時較注重語意理解與資訊獲取，其目的不在背誦或刻意習得英文單字。其迫切期望能排除難懂術語的阻礙，好讓知識能無礙傳播。其次，辭典諮詢作業每每需要在原文與翻譯資料間切換介面，步驟繁複又徒耗心力，且過程中常因過度專注於不熟悉的字詞，而容易遺忘句子或段落的關鍵語意線索，故使用者希冀能在同個情境下完成任務。再者，註解回饋呈現的時機與位置應盡量配合閱讀脈絡，避免遮蓋文本內容，並斟酌提供釋義即可，無須補充完整詞彙資訊，如詞性、同反義詞或例句等。另針對可能的使用情境，受訪者則認為當主要任務具急迫性或身處多重任務處理（multitasking）時，更能顯現即時翻譯功能的重要性，好比研讀書籍或是編撰報告，勢必得一心多用，如果此時查詢作業瓜分過多的認知資源，將嚴重耽誤處理進度。而本研究所規劃的視線感知閱讀輔具，

亟欲改善現有翻譯服務的缺失，並採納非指令型使用者介面、眼動與認知相關概念，驗證凝視翻譯的可行性，以及對閱讀體驗和任務表現的影響。

(35)

第肆章實驗方法與設計

本研究目的在於檢視互動當下的眼動型態，以及驗證視線感知即時翻譯工具對閱讀效率的影響。人機互動領域的相關研究指出，視線誘發回饋能有效提升閱讀體驗，並增進任務表現，主張其對使用者無任何負面干擾。然而，僅有 iDict（Hyrskykari, 2006）針對偵測品質、互動方式、視覺線索等面向做評估，

其餘原型皆概略陳述使用者回饋，或比較作業完成時間、正確率等，缺乏客觀的眼動資料分析與討論。常理而言，突現的刺激會吸引注意力，且中文翻譯須經詞彙處理，再與原文對照整合後始能幫助理解英文文句的語意，如此一來勢必干擾閱讀歷程。再者，眼動係由凝視與眼跳交錯而成，但各事件發生之條件迥異，如對閱讀內容不解時，個體普遍會延長停滯時間，僅偶爾伴隨逆向眼跳以擷取額外訊息。最後，註解對於閱讀的助益應該與詞彙難度有關。因此，在本實驗中預期會看到以下結果：（一）整體篇章與個別詞彙上的眼動型態皆因註解出現而延緩；（二）基於不同指標顯示的註解將影響使用者的閱讀策略，個體會適應輔助資訊呈現的時機而調整凝視比例；（三）提供中文翻譯對閱讀的助益反映在理解題正確率與認知負荷量上；（四）個體需重複閱讀中英文資訊，以整合、理解艱澀詞彙的語意，故中文翻譯對閱讀歷程的影響將因詞頻而異。

本實驗參照眼動控制數學模型改良基於停滯時間閾值的演算法，以個人化眼動誘發回饋。操弄註解顯示內容（有意義的中文翻譯、無意義的X’s 字串）

與註解顯示時機的計算方式（基於停滯時間、基於回視眼跳）。招募非英語為母語者為研究對象，採用自行規劃的視線感知原型，模擬實際使用情形，觀察系統因應理解狀況而呈現的註解如何影響眼動、認知負荷與閱讀理解，並進一步分析不同閾值指標下的中文翻譯對整體與區域處理歷程的影響，檢證其差異性如何體現於眼跳速度與幅度、凝視時間與比例上，藉此討論注意力感知系統較為適切的演算規則。

(36)

第一節實驗準備

參與者

本研究設計之視線感知系統原型，旨在提供即時翻譯以協助外語能力尚可、需頻繁閱讀英文文本的族群。故招募國立政治大學在校學生，共計46 名，

其中4 位因眼動校正失敗而不列入採計，另 2 位眼動資料超出範圍比例甚高，

為求嚴謹仍在評估後予以刪除。有效樣本為40 筆，男性 17 名，以及女性 23 名，其中大學部34 名，碩士班 6 名。年齡介於 20 歲至 24 歲（平均年齡為 23.03 歲），皆為繁體中文母語使用者，具有正常視力或已矯正之視力，且先前未參加實驗材料評量作業。為確定其英語能力相近，參與者得於事前自陳已通過之英語能力檢測認證與每日接觸英文時數作參考。並於事後填寫Marian、

Blumenfeld 及 Kaushanskaya（2007）所設計的「語言經歷與語言水平問卷」

（Language Experience and Proficiency Questionnaire, LEAP-Q），請見附錄二。

第一部分為語言經歷，題目包括教育程度、移居經驗、身心障礙、所學語言、

習得順序、接觸時間、閱讀及交談語言選擇、文化認同等共9 項；第二部分為語言水平，題目則涵蓋學會及精熟英文的時間、居住在英文環境時間、英文口音標準程度、聽說讀寫能力自評等共7 項，總計 16 個題組。此份問卷藉政大眼動與閱讀實驗室之EMRLabSurvey 線上問卷系統編製而成，結果如表 1、表 2。

本實驗藉此篩選掉英語能力卓越（如外語相關科系）或差劣者，確保研究參與者的語言經歷與水平相似，有29 名通過全民英語能力分級檢定測驗（General English Proficiency Test, GEPT）中高級初試，或國際溝通英語測驗（Test of English for International Communication, TOEIC）750 分以上，另 11 名則未曾參加過同等檢定，平均每日接觸英文47.84 分鐘。參與者在完成實驗後，以新台幣280 元車馬費致謝。

(37)

表1 語言經歷問卷結果

語言經歷排序

已習得之語言 1. 中文 2. 英文 3. 日文 4. 韓文

語言習得次序 1. 中文 2. 英文 3. 日文 4. 韓文

常使用的語言 1. 中文 2. 英文 3. 日文 4. 韓文

閱讀材料選擇 1. 中文 2. 英文 3. 日文 4. 韓文

英文學習來源 1. 閱讀 2. 自學 3. 聽音樂 4. 看電視文化認同程度 1. 中華文化 2. 日本文化 3. 美國文化 4. 歐洲文化

表2 語言水平問卷結果

語言水平平均值標準差

英文能力自評（1-40） 25.05 4.44

英文習得年齡（說） 14.20 3.94

英文習得年齡（讀） 13.98 2.84

居住英文國家時間（年） 0.05 0.22

居住英文家庭時間（年） 0.00 0.00

就讀英文學校時間（年） 0.45 1.83

英文口音（他評 %） 64.00 % 28.27

英文口音（自評1-10） 4.93 2.35

實驗設計與材料

考量字彙量（vocabulary size）為能否理解英語之關鍵，但實驗者難以透過量表掌握參與者熟悉詞彙的類型與數目，又系統於測驗開始前會執行個人化的閾值校正，故本實驗採2 x 2 受試者內設計（within-subject design）。操弄兩個自變項：註解顯示內容（有意義的中文翻譯、無意義的X’s 字串）與註解顯示時機的計算方式（基於停滯時間、基於回視眼跳）。而之所以選擇無意義字串做為對照組，而非比較「有無翻譯」的篇章，係預期眼動誘發註解必定會影響閱讀，故藉由中性且與目標字等長之X’s 確保各情境皆有刺激隨著眼動而置換，

等同於iDict（Hyrskykari, 2006）原型所採用的視線游標與線標，以視覺回饋提醒參與者當下的凝視位置。依變項則為閱讀速度、瞳孔尺寸、理解題正確率、

凝視時間以及凝視比例。

(38)

承使用者訪談所述，非英語為母語者在閱讀英文文章時的困擾有二：一，

查詢作業重複性高且易中斷閱讀歷程；二，整合翻譯與原文語意占據認知資源，進而拖累任務表現。為因應此問題，本研究沿用眼動與閱讀實驗室之架構，另行增修「閾值修正」、「閱讀偵測」及「註解呈現」等功能，實作高擬真度（high-fidelity）視線感知辭典原型。透過 SWIFT 模型辨認使用者是否有翻譯需求，且以眼動誘發回饋的方式，確保目標字註解在閱讀過程中自動、即時顯示在視野範圍內。其運作原理大致如下：

首先，本實驗設有「基於停滯時間」與「基於回視眼跳」計算出的兩種閾值。前者係屬時間變項，為擷取詞彙特性與凝視時間的計算關係，實驗者預先利用Schad 與 Engbert（2012）的開源 C 語言程式碼建置數學模型。輸入自選材料的文本特性，包括行數、字數、詞長、詞頻（SUBTL frequency norms；

Brysbaert, & New, 2009）與預測性（註：預測力介於 0~1，須藉由克漏字測驗評估之，但考量文本與個體變異甚大，難以在事前或互動當下取得資料，故皆設為0.5），保留原有參數與設定，模擬出各英文詞彙「理想」的凝視時間。由於眼動軌跡（eye trajectory）絮亂，添加系統實時判定閱讀次序之困難度，再者 Engbert 等人（2005）認為凝視時間總和（gaze duration）指標無法精確反映早期詞彙處理歷程，且整合範圍又不及總閱讀時間（total reading time）全面，故視總閱讀時間為判斷標準。其介於200~300 毫秒，且隨著詞長越長、詞頻越低，預期凝視時間愈久，請見圖3。然而，該數據得經過事前校正彌補英語能力所造成的落差，因為非英語為母語者處理英文詞彙的時間應遠高於此，故本系統同步計算參與者於練習階段的眼動表現，並在正式實驗開始前，依詞頻特性分段調整閾值，即將個別詞彙的預期總閱讀時間加上相對應詞頻區間的平均校正值（練習觀察值減去模型預測值），後續便套用此校正結果進行測驗；基於回視眼跳則係屬空間變項，同為反映讀者在理解與統整困難程度之指標。當視線跳出目標字後，逆著閱讀方向再度凝視時即觸發註解。

視線感知即時翻譯工具的開發與評估

國立臺灣大學理學院心理學研究所 碩士論文

Graduate Institute of Psychology College of Science

National Taiwan University Master Thesis

視線感知即時翻譯工具的開發與評估

The Development and Evaluation of a Gaze-aware Real-time Translation Tool

李宜軒 Yi-Hsuan Lee

指導教授：葉怡玉博士 Advisor：Yei-Yu Yeh, Ph.D.

中華民國 106 年 6 月

June, 2017

摘要

The Development and Evaluation of a Gaze-aware Real-time Translation Tool

Yi-Hsuan Lee

Abstract

Keywords: Attention Aware System, eye tracking, gaze-based interaction,

gaze-contingent feedback, real-time translation

目次

表目次

圖目次

第壹章 緒論

第一節 研究動機

第二節 研究目的

第貳章 文獻回顧

第一節 眼動之特性與困境

第二節 視線互動之發展與應用

Advances in physiological computing (p. 39-65), by S. Fairclough

第三節 視線感知系統

第四節 眼動於閱讀

第五節 眼動控制數學模型

第六節 瞳孔與認知負荷

第參章 前測：使用者訪談

第肆章 實驗方法與設計

第一節 實驗準備

國立臺灣大學理學院心理學研究所碩士論文

第壹章緒論

第一節研究動機

第二節研究目的

第貳章文獻回顧

第一節眼動之特性與困境

第二節視線互動之發展與應用

第三節視線感知系統

第四節眼動於閱讀

第五節眼動控制數學模型

第六節瞳孔與認知負荷

第參章前測：使用者訪談

第肆章實驗方法與設計

第一節實驗準備