眼動控制數學模型 - 視線感知即時翻譯工具的開發與評估

閱讀涉及諸多處理歷程，關乎人們日常任務的成敗，故學界亟欲探究高階認知與眼動控制的關聯性，亦即詞彙辨識（word recognition）與自發眼跳

（saccade generation）兩者所組的認知－運動系統（cognitive-motor system）如何協調運作。承上所述，過往研究支持字詞的凝視時間取決於詞彙變項，且眼動型態會依文本特性和個體差異而有所變化。然而，相關議題的探討多針對片面觀點或特定情境做量測，缺乏整體性的檢證，是故衍生出數學模型

（mathematical model）的研究取向。藉由純量化的指標與刺激特徵去描述、詮釋或推估閱讀時的眼動表現，抑或是概括目前所知的生心理現象。基于其提供客觀的計算關係，有別其他視線感知應用由開發者主觀認定閾值，本實驗將參照眼動控制數學模型規劃演算法。

據悉，閱讀中的眼動計算模型（computational model）百家爭鳴，其中最具代表性的係屬E-Z Reader（Pollatsek, Reichle, & Rayner, 2003; Pollatsek, Reichle,

& Rayner, 2006）與 SWIFT（Engbert, Longtin, & Kliegl, 2002 ; Engbert,

Nuthmann, Richter, & Kliegl, 2005; Schad & Engbert, 2012）。兩者基本假設雖不盡相同，但皆企圖建構詞彙特性與凝視時間的數學關係式。亦即個體在閱讀文本時的眼動型態會受詞長、詞頻與預測性影響，例如字母數較多、頻率較低且語意脈絡預測性低者，各類型凝視時間指標皆明顯增加。由於後者採用平行處理

（parallel processing）模式，參數精簡且限制寬鬆，除了能成功估算出詞頻與詞長效果、再視與回視，也可重現諸如反向最佳注視位置效應（inverted optimal viewing position effect, IOVP）、略視成本（costs for skipping）、延遲與前置效果

（lag and successor effects）等進階眼動現象，合理性及說明之妥當性相對較佳，且此類容許同步處理並隨機選取目標的理論框架，更能解釋複雜的視覺處理作業。

而本實驗遂沿用SWIFT（Saccade-Generation With Inhibition by Foveal Targets）所推演的計算關係。有別於初級動眼控制（primary oculomotor control, POC）模型－將眼動全然歸因於低層次的物理屬性，如文本編排、起始落點位置，而忽略詞彙辨識歷程，致使其僅能定性描述閱讀行為。SWIFT 係屬於眼動認知模型（cognitive model）中的注意力梯度指導理論（guidance by attentional gradients, GAG），或稱處理梯度模型（processing gradient models, PG），且參照動態場論（dynamic field theory; Erlhagen & Schoner, 2002）架構。此模型主張語言處理乃同時並行，視個別字詞為基本單位，且注意力範圍內的候選目標同步激發，相鄰詞彙彼此競爭，由活化能高低決定下一個眼球注視處，過程中牽涉知覺輸入、記憶系統、動作規劃等認知運作機制交互影響。比起序列性注意力轉移理論（sequential attention shift, SAS），此模型更強調動態的資源分配，處理效率將隨著注意力分布、辨識進度而調整，即已辨識之詞彙獲取較少資源，

並以激發程度高的新詞為優先。也因此每篇文章的詞彙排列亦會影響到模型預測的結果，包括個體的眼跳幅度、回視比例或再視機率等變項。

簡言之，SWIFT 眼動控制模型假設詞彙辨識歷程驅使眼球運動，同時主導何時（when）與往何處（where）眼跳。文本如顯著圖（saliency map）般構成一維的空間分布，任何詞彙皆是可能的跳視目標，其活化程度在預先處理階段

（preprocessing stage）時上升，並於詞彙完成歷程（lexical completion process）

依不同速率恢復基準，假如某單字於加工結束後仍在閾限之上，便可能產生回視。其中，各詞彙的最大活化能取決於單字困難程度，由詞頻描述之；且詞彙處理速率（lexical processing rate）為離心度（eccentricity）的函數，即愈接近當前凝視中心，該字母的處理效率愈佳，且因應非對稱的知覺廣度，以右偏的高

斯函數表示之。同時考量眼球持續運動的特性，單字的加權處理效率皆隨時間演變，且活化能增減速率受語意脈絡預測性調節；此模型另行導入隨機過程

（stochastic process），調節動態的詞彙觸接（lexical access）、眼跳目標選擇

（saccade target selection）、中央凹抑制（foveal inhibition），以及眼球運動準備歷程（saccade programming）；再者，詞長特性則間接決定眼跳落點、錯誤與修正等機制，且其所導致的凝視位置與先前的凝視順序將嚴重影響詞彙處理時間。前述機制的數學關係式與建模細節請見SWIFT 之系列回顧（Engbert, Nuthmann, Richter, & Kliegl, 2005; Schad & Engbert, 2012）。

經Engbert 等人（2005）反覆比對原始數據與模擬結果，證明 SWIFT 能準確推算各詞彙特性所對應之多種以字詞為基礎的眼動指標（word-based

measures），包括凝視時間（首次凝視、再次凝視、單一凝視與總閱讀時間）、

凝視比例（略視、再視、多次再視與回視）、注視位置與其分配，請參照圖2。

明顯可見總閱讀時間、再視及回視比例皆隨著詞頻越低、詞長越長而增加，略視比例則相反，且實驗觀察值與模型模擬值相近。鑒於眼動控制數學模型的出發點皆為語言共性（linguistic universal），即使 SWIFT 系列研究主要以德文語料庫（Potsdam Sentence Corpus, PSC）為驗證對象，雖不同於本實驗所採用的英文材料，但模型假設與計算關係仍一體適用。於是，本視線感知系統參考其核心計算方式的邏輯，用以擷取詞彙特性與凝視時間的關聯性，依循模型預測的總閱讀時間（total reading time）做為判斷閾值。倘若參與者閱讀時表現不如預期，將予以協助。然而，至今尚無研究探討非母語者閱讀外語時的眼動表現是否全然適用各個計算環節，在學界仍未釐清前，本實驗將藉由事前校正彌補英語熟悉程度所造成的落差－以英文為外語者的詞彙能力與背景知識不及母語者，故可預期其處理歷程應較費時，且難易詞彙之間的變異更為明顯。

圖2：SWIFT 模型預測之詞彙特性與凝視指標關係

資料來源：“SWIFT: A dynamical model of saccade generation during reading,” by R. Engbert et al., 2005, Psychological Review, 112, p. 777-813.

在文檔中視線感知即時翻譯工具的開發與評估 (頁 27-30)