跨感官視聽理解模型回顧 - 聽其所見，觀其所聞：以眼動探討口語與場景互動的跨感官理解歷程

Underwood, Templeman, Lamming, & Foulsham, 2008)。

相對於前述研究，其他研究主張場景一致性須至場景觀賞的晚期階段才會介入影響物體凝視行為反應(De Graef, Christiaens, & d'Ydewalle, 1990;

Henderson, Weeks Jr, & Hollingworth, 1999; Võ & Henderson, 2009, 2011)。例如，

De Graef et al. (1990)發現場景不一致物體必須在多個凝視點發生後，才能於晚期場景觀賞階段觀察到更多的物體凝視次數。Võ and Henderson (2011)的研究也呈現類似結果。他們發現必須到第八或第九次凝視行為發生之後，才能觀察到官視聽理解模型。第一類為階層取徑（hierarchical approach），包括 Crocker et al. (2010)的「協同相互作用說法」（coordinated interplay account, CIA）和 Kukona and Tabor (2011)的「神經衝動處理模型」（impulse processing model）。

階層觀點假設各項變數必須依循特定順序，滿足各種階層性表徵的比對程序，

相反的，以Huettig, Olivers, et al. (2011)的「工作記憶模型」（working

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

memory model）、M. C. MacDonald, Pearlmutter, and Seidenberg (1994)的「束制滿足模型」（constraint-satisfaction model）以及 Ferreira, Foucart, and Engelhardt (2013)的「適應性觀點」（the adaptive view）為代表的互動取徑（interactive approach），則主張各種表徵資訊在理解過程中一併先被處理，再視當下處理狀況或作業情境、有彈性地將每一時點可得的表徵資訊用於解決當前理解模型未定的歧義部分。因此，這類模型並未預設不同的感官輸入及層級變數之間有特定的階層排序，來自視聽感官的各項表徵資訊都會被理解者的認知系統先行處理，而各項可得表徵資訊於不同屬性層級的發生條件會相互束制，經總體評估分析後得出符合該特定時間點下的一項最佳解答。

本研究將以這些模型為基礎發展研究假設，為了進一步瞭解個別模型建構出的視聽表徵互動機制及其對凝視行為反應的預測結果，以下將根據階層及互動兩種取徑作為分類基準，簡要介紹五個主要模型的基本假設和運作方式。

一、階層取徑模型

（一）協同相互作用說法

Crocker et al. (2010)根據「連結模式」（connectionist model）發展出一項

「協同相互作用說法」，主張「逐步積累的語言詮釋會主動引導視覺環境的注意力分布，從而提升那些被注意的場景資訊於理解期間的突顯程度」。這項說法認為來自聽覺感官的口語輸入是主導整個理解過程的核心，而視覺感官的場景刺激則是將語言內容具體化的輔助角色。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 2-2 跨感官視聽理解模型之一：協同相互作用說法

資料來源：Crocker, Knoeferle & Mayberry (2010) Figure 1。

根據協同相互說法的模型運作流程（圖2-2），理解過程的視聽資訊整合是一個循序漸進的迴圈，包含以下三項處理程序：

（1）句子詮釋（sentence interpretation）階段：專指視覺情境典範的聽覺口語刺激輸入，適用於各種特定的語言處理相關因素，但主要透過三項基礎原則運作。第一項「積累性」（incremental）原則，指的是第 N 個詞的詮釋或預期架構在第1 至 N-1 個詞彙的基礎之上。以具有不同詞性的多義詞「制服」為例，

當理解者聆聽部分語句：「混亂之中警察鳴槍制服…」，根據現行文句脈絡可知第N 個詞「制服」應解讀為動詞屬性的「用力量使人屈服」詞彙意義，而非名詞屬性的「規定式樣的服裝」詞彙意義。第二項為「預測性」（predictive）原則，指的是理解者會根據當下語言屬性及自身經驗獲得的世界知識，對後續語言輸入進行主動性預測。比如Kamide et al. (2003)請理解者觀看一項包含男人、

女孩、摩托車和旋轉木馬物體的視覺陳列，同時聆聽部分語句：”The man will ride…”或”The girl will ride…”。結果發現，聽到前者時理解者的視線會集中在摩 托車，後者則會集中在旋轉木馬，顯示行為者的屬性會使理解者對動作的施行對象產生不同預期。第三項原則為「整合性」（integrative），意指理解者在理解過程中對第一階段語言詮釋（詞彙、句法和語義）及第三階段場景詮釋（例如

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

視覺情境、物體的預期使用方式）反饋（feedback）的各種表徵屬性進行綜合評估，以挑選出最符合當下情境的指涉對象。

（2）語句中介注意力（utterance-mediated attention）階段：透過句子詮釋階段的處理結果，將視覺注意力連結到口語詞彙直接指涉或透過預期間接暗示的視覺物體位置。此時，視覺注意力的功能是具體化（grounding）來自視聽兩端的物體及事件資訊，以滿足情境理解的目的。

（3）場景整合（scene integration）階段：語句中介注意力會主導人對場景的視覺探索活動，唯有與口語行動或理解作業目標相關的視覺屬性才會獲得注意，進而反饋影響下一回合的句子詮釋階段。Chambers, Tanenhaus, and

Magnuson (2004)發現，只在口語指涉物體（例如雞蛋）的預設用途（液體或固體）與聽覺感官的口語輸入文句（’Pour the egg in the bowl over the flour.’）要求執行的動作（潑）有關時，視覺物體為某一狀態（液體）可執行這項動作，而另一狀態（固體）則否，因而增加理解者覺察該項視覺物體表徵的敏銳程度。

（二）神經衝動處理模型

Kukona and Tabor (2011)基於人類神經「動態系統」（dynamic system）提出的「神經衝動處理模型」，包含三項假設：（1）神經系統的動態運作包含在初始狀態下小規模的神經活動隨機變異，又稱為「噪音」（noise）；（2）神經系統地景（landscape）的形狀來自比對視聽刺激輸入在不同屬性（比如從語音往上到概念）所導致的一系列神經衝動結果；（3）神經系統的狀態可對應至行動。

圖 2-3 跨感官視聽理解模型之二：神經衝動處理模型

資料來源：Kukona & Tabor (2011) Figure 1。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

如圖2-3 所示，神經動態系統的運作地景有三個維度，x 軸和 y 軸構成的平面座標系對應至視覺陳列刺激的空間位置，z 軸則為神經衝動的激發強度。此時語言輸入訊號的累積性詮釋（incremental interpretation）為引發神經衝動的來源，而激發強度最高者可引起神經動態系統的改變，並且引發前往該視覺物體所在空間位置的凝視行為反應。在不同語言表徵處理層次造成的神經衝動反應差異，包括口語辨識、句法、語義和語用詮釋等處理層次，都被過去研究證實會引發視覺空間的語言中介眼動行為反應。

神經衝動處理模型假設不同表徵屬性之間具有階層性關係，例如模型預設的初始層級是語音屬性，接著向上才是語義及概念屬性，因此必須在視覺物體符合聽覺輸入語音屬性時，才能往後續層級繼續進行比對。一旦視覺陳列情境出現兩項符合當下部分口語輸入語音屬性的視覺物體時，地景模型就會出現所謂的「鞍點」（saddle point）。此時由於兩項視覺物體引發相等程度的神經衝動強度，視覺空間的兩項候選物體會處於競爭狀態，獲得同樣程度的凝視行為反應。以Tanenhaus, Spivey-Knowlton, Eberhard, and Sedivy (1995)實驗採用的「花園路徑句型」（”Put the apple on the towel in the box.”）為例，當語音訊號只播放到”Put the apple…”，此時視覺陳列的其中兩項物體（蘋果、毛巾上的蘋果）皆為可能的口語指涉對象，兩者獲得同等程度的物體凝視行為反應。必須等到後續語音輸入更新詮釋之後，才能改變神經活動的地景模式，使視覺空間一項特定的口語指涉對象從原先僵持不下的地景模式中脫穎而出，導致凝視行為反應高度集中在正確的物體項目區域（毛巾上的蘋果）。

二、互動取徑模型

（一）工作記憶模型

Huettig, Olivers, et al. (2011)的「工作記憶模型」源於認知心理學家 Alan Baddeley (2000)提出的「工作記憶」概念，統合心理語言學使用視覺情境典範得出的語言歷程研究成果，以及視覺注意力透過「視覺搜尋典範」的實徵證據，改良既有的工作記憶模式來解釋跨感官理解過程涉及的「語言-視覺互動」

運作機制。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 2-4 跨感官視聽理解模型之三：工作記憶模型

資料來源：Huettig, Olivers & Hartsuiker (2011) Figure 2。

如圖2-4 所示，這項模型假設跨感官視聽理解的知識基礎來自長期記憶儲存的語言詞彙及視覺物體知識，以及兩者在各種表徵的關聯程度，這些知識成為人在視聽理解過程中可自由運用的既存資料庫。其次，視聽資訊整合體現了一種「即時記憶結構」（on-line memory structure）的形成與更新，將人置身於情境所經驗、可被提取之各種表徵知識及所在空間位置的連結進行整合，並將這些表徵彙整登錄為「物件檔案」（object file）(Kahneman, Treisman, & Gibbs, 1992)。然而，由於各種表徵資訊開始處理及完成提取的所需時間並不相同，彼此之間宛如在不同跑道競速的賽馬，形成所謂互動取徑的「層疊激發」（cascade activation）現象。因此，當人在進行視覺情境典範實驗時，由於視覺陳列刺激通常比聽覺口語輸入更早呈現，視覺表徵的提取時間通常先於口語表徵，因此工作記憶模型預測視覺陳列的表徵激發活動會開啟一連串的整合歷程。首先，

視覺陳列物體（如檯燈、喇叭、盆栽）的形狀表徵會與其空間位置資訊一同寫入視覺空間形式（visuospatial type）的工作記憶「視覺空間暫存裝置」

（visuospatial sketchpad）次系統。這些表徵會在數百毫秒內激發與物體相關的語義、概念和語音表徵，透過「結合」（binding）程序成為暫存在工作記憶空間的視覺物體檔案。在視覺陳列的預覽階段結束後，來自聽覺感官的口語輸入刺激開始播放。此時口語輸入（’John is a musician who plays the trumpet well. ’中的plays）開始被「語音迴路」（phonological loop）次系統處理，這些暫存的語 音編碼可激發長期記憶與之相關的詞彙及語義表徵，亦可透過句法表徵預測後續受詞（可play 的對象，如鋼琴、鼓、喇叭等樂器）。這些已激發的語音和視

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

覺表徵在系統中相互比對，並連結至空間中最符合的視覺物體，該物體的空間位置可供注意力系統發動眼跳計畫之用，並導致物體凝視行為反應的變化。

（二）束制滿足模型

M. C. MacDonald et al. (1994)的「束制滿足模型」的運作方式源於「交互激

在文檔中聽其所見，觀其所聞：以眼動探討口語與場景互動的跨感官理解歷程 - 政大學術集成 (頁 27-35)

跨感官視聽理解模型回顧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學