視覺情境典範與口語理解 - 聽其所見，觀其所聞：以眼動探討口語與場景互動的跨感官理解歷程

Coco and Keller (2015)的研究呈現視覺和語言表徵分別在跨感官視聽理解歷程的哪一階段被認知系統使用的實驗證據。他們的視聽理解實驗將聽覺語句的

Coco and Keller 的研究成功展示語言和視覺表徵如何被人有彈性地在視聽理解期間被用於引導凝視行為反應。然而，這項研究僅關注視覺陳列之中物體

（spoken word recognition）或情境理解（situated comprehension）的實驗方式之一。根據Huettig, Rommers, and Meyer (2011)對這項實驗典範的回顧，視覺情境典範之所以逐漸受到研究者注意的契機有二：第一，Tanenhaus,

Spivey-‧

Knowlton, Eberhard, and Sedivy (1995)將其用於探討語言學高懸多時的「語言分歧解困」（language disambiguation）議題，俾使此實驗典範正式發揚光大，吸引許多心理語言研究者將之用於討論口語詞彙辨識、句法、理解和產出等語言相關議題。第二，科技發展使眼動追蹤技術日益普及，間接促進視覺情境典範實驗的發展。眼動追蹤技術作為量測人類心智和認知運作的有效工具之一，其發展主要歸功於80 年代後個人電腦運算能力的提升，及 90 年代初期影像基礎眼動追蹤技術儀器（video-based eye tracker）的問世(Kumar & Krol, 1992)，使研究者可更加便利地使用這項研究工具探討人類的認知歷程(Henderson, 2006;

Rayner, 1998, 2009)，並結合視覺情境典範進行語言處理的相關研究。

自Cooper (1974)設立視覺情境典範的原型基礎起，研究後進因應研究需要對視覺情境典範的實驗方式進行若干微幅調整，使這項被用於探討口語理解歷列（object array）、詞彙陣列（word array）、準真實場景（semi-realistic scene）。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

1. 物體陣列 2. 文字陣列 3. 準真實場景

圖 2-6 視覺情境典範的三種視覺陳列

資料來源：左圖取自Huettig and Altmann (2007) Figure 1b；中圖取自 McQueen and Viebahn (2007) Figure 1；右圖取自 Altmann and Kamide (2009) Figure 1。

以第一種「物體陣列」（圖2-6）來說，每一項視覺物體分別出現在獨立的空間位置並個別代表獨立的意義單位，與一連串語音訊號輸入中的一項特定目標詞形成不同向度的關聯(Allopenna et al., 1998; Huettig & Altmann, 2005, 2007)。以 Allopenna et al. (1998)的實驗為例，其中一個嘗試次的物體陣列為燒杯（beaker）、水狸（beaver）、甲蟲（beetle）和音箱（speaker），請參與者聽取指示並進行相應的動作反應，旨在觀察參與者在聽到語音目標詞「燒杯」期間，不同視覺物體名稱與口語目標詞的語音相似性在口語詞彙辨識過程的激發程度。另外，Huettig and Altmann (2007)請參與者觀看包含油桶、枕頭、地毯和纜線的視覺陳列，同時聆聽包含目標詞「蛇」的口語句子，以便檢驗視覺物體和目標詞語音名稱的知覺相似性對口語處理的影響。整體來說，此類型的視覺陳列將每一項視覺物體視為彼此獨立的概念，研究者有意識地控制材料呈現的空間排列方式，務使其觀察到的行為反應單純來自於口語刺激輸入的變化。

第二種視覺陳列是「詞彙陣列」，主要特色是用印刷文字取代視覺物體，最大的優點是不受限於視覺物體須具體的特性，可用文字呈現難以圖像化或較為抽象的語言概念來進行研究。其次，研究者可透過統計大量文本資料的語料庫控制多項已知對人類語言處理歷程有顯著影響的語言特性（如詞長、詞頻及詞性），以降低視覺陳列對實驗效果造成的混淆作用。以心理語言學關注的口語辨識議題來說，許多研究者常使用印刷文字作為視覺陳列，探討口語辨識歷程中字形、語音和語義等表徵資訊的激發時序(Huettig & McQueen, 2007; McQueen &

Viebahn, 2007; Salverda & Tanenhaus, 2010)。例如，McQueen and Viebahn (2007) 在2×2 矩陣中呈現四個荷蘭語印刷文字（tegel、botje、water、kegel；瓦、骨、

‧

能性(Altmann, 2011a; Altmann & Kamide, 1999, 2007, 2009; Kamide et al., 2003;

Knoeferle & Crocker, 2006)。為了量測口語理解過程的心智模型歷時性發展，

Altmann and Kamide (2009)採用包含女人、桌子、酒杯及書櫃的準真實場景作為視覺陳列，檢驗基於不同口語描述對該名女性行為者形成的敘事，如何改變理 (name retrieval)，對於稍後口語理解歷程的影響。以 Tanenhaus et al. (1995)的研究為例，每項新嘗試次開始前，主試者會在工作空間重新擺設若干物體，在此期間理解者可預先處理視覺陳列刺激，接著透過對當下視覺環境的基礎知識來處理稍後播放的口語資訊。

另一種刺激呈現時序類型為視、聽覺訊號同時呈現，兩股資訊須相互參照並整合，有助於觀察人類如何透過變動的外在視、聽覺資訊形成對當下情境的理解(Andersson, Ferreira & Henderson, 2011;Ferreira, Foucart & Engelhardt,

2013)。有別於提供視覺資訊預先處理機會的時序形式，當兩種感官資訊同時出現，理解者須同時處理語言及視覺刺激，可能使當下工作記憶運作負荷增加。

Andersson, Ferreira & Henderson(2011)即採用此種刺激呈現時序，要求參與者一邊觀看螢幕上的全彩照片（如：堆滿各種物品的儲藏室一隅），一邊聆聽提及其中四項視覺物體（包括sailboat、plane、sombrero、uniform）的口語描述（如：

I like the old and dust-covered sailboat, the plane, the sombrero and the uniform that's

‧

頸，也會導致理解者採用不同的視聽整合策略。近期Ferreira, Foucart &

Engelhardt(2013)要求參與者進行口語理解的同時操弄視覺預覽的有無。他們發過程中執行一項額外的「後設語言作業」（meta-linguistic task），以便觀察不同的語言材料特性對行為反應的影響。以「詞彙判斷作業」（lexical decision task，

LDT）為例，其中一半的刺激材料為不存在於語言系統的「假詞」，如「礁或點選螢幕上的物體圖示）後，該嘗試次即結束。例如，Allopenna et al. (1998) 採用這項作業探討當「詞彙辨識」(word recognition)歷程發生時，與口語輸入相

‧

這項實驗中，參與者會聽到‘‘Pick up the beaker; now put it below the diamond.’’的口語指示，同時看到包含目標(target: beaker)、起音相同(cohort: beetle)、尾音相同(rhyme: speaker)和完全無關(distractor: dolphin)四項物體的視覺陳列，參與者必須根據口語指示移動指定物體至指定空間位置。研究者可藉由觀察參與者視動預測接續受詞的語言預期歷程（anticipatory process），Altmann and Kamide (1999)請參與者一邊觀看包含男孩、蛋糕及其他三項玩具的準真實線圖場景，

一邊聆聽其中一種版本的聽覺語句：”The boy will move the cake.”或” The boy will eat the cake.”。如此，透過比較參與者在聽到低或高受詞限制力動詞時視線集中 在蛋糕物體的多寡，研究者可檢驗理解歷程中動詞限制力對語言預期的影響。物體（如聽到「my scatter-brained dog Scotty…」視線落在「狗」）；二，與當下口語相關物體（口語詞彙「非洲」和視覺物體「獅子」、「斑馬」及「蛇」）被凝視機率高於聽到其他概念無關詞彙；三，眼動行為的發生與口語輸入訊號之間有高度時間同步性(time-locked)，九成以上的目標物體凝視行為發生在目標詞語

‧

視行為產生顯著影響。Tanenhaus et al. (1995)發現視覺陳列脈絡線索有助於理解者在聽到目標詞彙前即消除語句在句法上的模糊性詮釋。他們請參與者聆聽句法學研究著名的「花園路徑句型」（garden-path sentence）：”Put the apple on the towel in the box.”，同時觀看工作環境呈現的視覺陳列刺激。他們發現，當視覺 陳列包含「兩項指涉物體」（蘋果、毛巾上的蘋果、毛巾及箱子），相對於「單一指涉物體」（蘋果、毛巾、箱子及另一目的地），參與者可藉由觀看前者對移動物體及目的地形成有效預測，消除模糊性語音輸入（on the towel）是受詞修飾語（modifier）或移動目的地（destination）的歧異性詮釋。列不同區域的分佈機率被視為反映內在理解歷程的參照對象。學者Tanenhaus, Magnuson, Dahan, and Chambers (2000)將此種眼動行為與口語詞彙處理的緊密關聯稱為「詞彙─物體連結假設」(word-object linking hypothesis)。這項假設主張，人會自發地連結口語輸入及其指涉對象，當視覺物體被口語指涉且與當下作業目標有關時，執行詞彙名稱辨識程序會順道觸發前往相關視覺資訊區域的眼跳計畫（saccadic programming）程序，以便凝視該項被注意物體。針對此種語言理解過程中視聽資訊整合引發的外顯眼動行為反應，Knoeferle and Crocker (2007)主張那些增加在被指涉物體的眼動凝視比例，不僅反映內在心智模型將情境中的視聽資訊輸入用於表徵建立與更新的「共同標的歷程」（co-indexed process），同時也代表人基於當下情境的理解目標，結合知覺及語言系統對視覺

‧

含少量的物體，形成Tanenhaus and Trueswell (2006)所謂的「有限項目問題」

（closed set problem），理解者可因應實驗情境採取特殊的認知處理策略完成該項作業。第三，真實的語言理解活動不必然指涉當下視覺環境出現的物體，例推至真實世界的效力。Andersson, Ferreira, and Henderson (2011)採用包含多項物體的全彩照片作為視覺刺激，發現當口語提及物體出現在一個相對複雜的真實世界場景（real world scene），仍可觀察到口語輸入引發的指涉性凝視行為。該結果顯示，視覺物體數量的多寡並不會消除口語指涉效應的存在，且對於口語

‧

的語言處理歷程。例如，Henderson and Ferreira (2004)主張，雖然視覺情境典範同時提供視聽感官刺激，但這類實驗大多要求參與者針對口語進行理解或根據中介眼動行為的處理機制，Salverda and Altmann (2011)則從視覺搜尋典範的角度探討作業無關口語輸入刺激的注意力攫取（attentional capture）作用。他們要求參與者對螢幕呈現的兩項視覺物體（例如：貓咪、太陽）進行色彩改變偵測任務，同時觀察伴隨視覺陳列出現的口語詞彙刺激對視覺作業的影響。他們發現，當口語詞彙輸入的指涉對象與色彩改變物體一致時，視覺偵測作業的反應速度更快；當口語詞彙輸入的指涉對象與色彩改變物體不一致，反應速度則會

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

制引發注意力攫取效果。此外，Mishra, Olivers, and Huettig (2012)根據「快速且有效率」（fast and efficient）、「非意向」（unintentional）、「無意識」

（unconscious）和「過度學習」（overlearned）四項有關自動化（automaticity）

的標準，評估過往文獻透過視覺情境典範觀察到的語言中介眼動效果。他們主張，視覺情境典範所觀察到的語言中介眼動合乎「無意識」和「過度學習」兩項標準，因此語言對於眼動行為的指導作用很可能源於自動化的處理機制，然

在文檔中聽其所見，觀其所聞：以眼動探討口語與場景互動的跨感官理解歷程 - 政大學術集成 (頁 35-44)

視覺情境典範與口語理解

Spivey-‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

‧

‧

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

立政治大學

立政治大學