視聽理解歷程的語言和視覺變因 - 聽其所見，觀其所聞：以眼動探討口語與場景互動的跨感官理解歷程

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

文獻探討

第一節視聽理解歷程的語言和視覺變因

在人類與外在世界互動的過程中，很多時候必須整合來自多重感官的不同刺激輸入，以便形成完整的事件知覺經驗。視聽整合即為其中一項最為常見的跨感官資訊處理活動之ㄧ。例如，人們會自發地將環境中的吠叫聲與小狗相連結，並迅速形成「犬吠」的事件經驗。過去有關視聽整合的研究結果顯示，無論是低階層的時間／空間結構，抑或是高階層的語義標籤，皆對人類的視聽整合事件經驗構成顯著影響。過去探討跨感官視聽整合經驗的研究大多透過視、

聽覺刺激訊號的單一配對來檢視人類的知覺經驗，甚少有研究者關注視聽整合如何在更為自然的資訊處理情境中發生。例如，在人類溝通行為中，視聽整合往往涉及聽覺口語陳述和視覺物體兩類物理刺激訊號。本論文試圖從視聽理解歷程切入，探討在有關人類意義產製與交換的溝通情境中，來自聽覺的語言如何與來自視覺的物體要素共同形成完整的事件知覺經驗。

一、語言變因

在視聽理解歷程之中，來自心理語言學領域的研究者大多側重於探討語言如何被處理，以達成回應心理語言學理論問題的研究目標。以「口語詞彙辨識」（spoken word recognition）來說，研究者或從「詞彙」（word）的局部層次著手，瞭解人如何將逐步開展的物理音訊刺激轉換成指涉世界實體的一項語言詞彙。對「語言分歧解困」（language disambiguation）議題感興趣的研究者，則從「語句」（sentence）的整體層次進行觀察，檢驗視聽資訊的理解者如何透過句法（syntax）、脈絡偏向（contextual bias）及世界知識（world knowledge）等語言結構因素預測即將提及的語言指涉對象。

在進行口語詞彙辨識的過程中，人會透過激發各種儲存在大腦長期記憶中語言或非語言範疇的表徵，並應用表徵之間的關聯認出該詞彙。究竟哪些表徵會在辨識詞彙的過程中被激發呢？第一，由於口語輸入本身是來自聽覺感官的聲波刺激，語音表徵素來被心理語言學者認為是成功辨識口語詞彙的必要元素。Allopenna, Magnuson, and Tanenhaus (1998)檢視不同時間點出現的語音特徵

‧

展，持續更新與之相符的語音表徵，透過所謂的「持續比對模式」（continuous mapping models）辨識出口語目標詞彙。

第二，由於語義是與意義產生最直接相關的表徵形式，故而語義表徵也會 (Moores, Laiti, & Chelazzi, 2003)。另一方面，物體在功能和類別等向度的「相關」（relatedness）程度，也被過去研究證實能改變語義表徵激發程度，並提升相關項目被注意的程度。Huettig and Altmann (2005)發現口語詞彙和視覺物體在類別上的相似程度會影響語言中介眼動的比例，在聽到「鋼琴」口語詞彙刺激輸入期間，目標物體「鋼琴」的凝視比例最高，同屬樂器類別的視覺物體「喇叭」會引起次高的凝視比例，和口語輸入分屬不同類別的物體（例如「山羊」

及「鐵鎚」）被凝視比例最低。

第三，儘管視覺表徵在直覺上與口語處理活動較無關，但實證資料顯示口語詞彙辨識歷程也會連帶激發物體的視覺表徵知識(Dahan & Tanenhaus, 2005;

Huettig & Altmann, 2011; Huettig & McQueen, 2007)。Dahan and Tanenhaus (2005) 發現形狀向度的視覺表徵會影響口語詞彙辨識歷程。當人聽到聽覺語句中的

「蛇」（snake）一詞時，儘管落在指涉物體「蛇」的凝視比例最高，但人注視在形狀相似競爭項目「繩子」的比例仍高於其他無關的「沙發」或「雨傘」項目，顯示物體項目與口語資訊在形狀方面的相似程度也會影響語言中介眼動行為。另一方面，Huettig and Altmann (2011)發現色彩向度的視覺表徵也會在口語詞彙辨識的過程中一併獲得激發，使具有相似色彩表徵的物體項目獲得更高的

‧

McQueen (2007)的實驗中，請參與者一邊理解聽覺語句（例如：“Eventually she looked at the beaker...”），一邊觀看包含四項物體的視覺陳列：與口語詞彙指涉 物體’beaker’在語音（’beaver’）、語義（’fork’）或形狀（’bobbin’）相似的競爭

在另外一項研究中，Chen and Mirman (2015)發現，視覺陳列的預覽時間和詞彙辨識歷程中語義表徵的激發程度成正相關；不同的語義表徵激發程度會進一步調節有關語音表徵的「語音鄰項效果」（phonological neighborhood size effect），

語義表徵低度激發（圖片預覽0 毫秒）和語義表徵高度激發（圖片預覽 1,000 毫秒）的語音鄰項效果較弱，而語義表徵中度激發（圖片預覽500 毫秒）的語音鄰項效果最強。總結來說，以上研究結果具有三項重要意涵：不同表徵類型的激發活動不僅受到視覺陳列的呈現時間（長預覽時間對短預覽時間）影響，

‧

前文預測後語，以提升理解作業的運作效率(Altmann & Kamide, 1999; Altmann

& Mirković, 2009; Arai & Keller, 2013; Crocker, Knoeferle, & Mayberry, 2010;

Kamide, Altmann, & Haywood, 2003; Kukona, Fang, Aicher, Chen, & Magnuson, 2011)。針對口語處理歷程中發生的「主動預測」功能，Altmann and Kamide (1999)透過「主動句式」（即：Subject–Verb–Object 句型）中動詞對於接續受詞的「選擇限制」來進行檢驗。在這項實驗中，研究者請參與者觀看一項包含男孩、蛋糕、玩具等物體的準真實場景，同時聆聽並理解語句內容（例如：’The boy will eat the cake.’或’The boy will move the cake.’）。結果發現，聽到動詞’eat’

語音訊號後，參與者可產生後續將提到一項可食用物體的預期，其視線會快速集中到視覺陳列中唯一可供食用的「蛋糕」物體所在位置，而聽到動詞’move’

後視線則平均分散在多項可被移動的場景物體區域，因此在聽到最終的口語詞彙’cake’之前，「蛋糕」和「玩具」等視覺物體被凝視的比例並無顯著差異。

Kamide et al. (2003)的後續研究更發現，語言系統對受詞的預期不只來自於動詞對其語義屬性的提示，也來自執行動作者（主詞）的身分角色（thematic role）。在實驗一中，Kamide 與其同事請參與者觀看包括男人（Man）、女孩

（Girl）、摩托車（Motorbike）、旋轉木馬（Carousel）、啤酒（Beer）、甜點

（Sweets）的準真實場景，並提供四種不同「主詞−動詞」及「受詞」組合的聽覺語句：(a) ‘The man will ride the motorbike’; (b) ‘The girl will ride the carousel’;

(c) ‘The man will taste the beer’; (d) ‘The girl will taste the sweets’。結果顯示，理 解者對於受詞的預期受到動作者身分和動詞屬性的共同作用：在句末目標詞語音出現前，聽到’The man will ride’在摩托車物體的凝視比例最高，’The girl will ride’和’The man will taste’次之，’The girl will taste’最低；句末目標詞語音出現 後，各實驗條件的凝視比例趨勢仍一直維持穩定不變。綜合以上研究結果，理解者會整合已知的語言和視覺場景資訊，主動預測並提前凝視在尚未揭曉的候選對象，無需等到口語詞彙的聽覺訊號真正發生後，才將眼線轉移到相應的視覺物體所在位置。

二、視覺變因

‧

complexity）探討視覺陳列包含的物體個數對視聽理解歷程的影響(Hintz &

Huettig, 2015; Sorensen & Bailey, 2007)。與視覺搜尋作業的「矩陣尺寸」（array size）相似，假設當視覺陳列的物體個數增加時，辨識及搜尋一項特定物體的時間會增加，因而延長人類認知系統整合口語和其視覺指涉對象的所需時間。由於過去心理語言學實驗的視覺陳列僅包含少量的物體項目，理解期間迅速發生的視聽事件整合有可能只是此種簡單視覺環境的特例，不必然發生在多項物體組成的真實視覺環境。Sorensen and Bailey (2007)操弄物體陣列的項目個數（2 × 2、3 × 3、4 × 4）檢驗視覺複雜度對視聽事件整合效率的影響，並以語言中介眼動行為作為反映視聽事件整合的測量指標。結果發現較複雜的物體陣列（3 × 3 和4 × 4 物體陣列）觀察到的語言中介眼動行為比簡單物體陣列（2 × 2 物體陣列）更晚發生，表示前者的視聽事件整合速率較慢。Hintz and Huettig (2015)進一步檢驗視覺複雜度對詞彙–物體配對連結機制的影響。他們要求參與者聆聽語

‧

理解或產出期間被注意、使用或提及的可能性增加(Cavicchio, Melcher, & Poesio, 2014; Clarke, Coco, & Keller, 2013; Coco & Keller, 2015; Coco, Malcolm, & Keller, 2014; Theeuwes, 1992; Vogels, Krahmer, & Maes, 2013)。以口語理解過程為例，

Coco and Keller (2015)採用視覺情境典範來檢驗物體的視覺凸顯特性對語言中介眼動行為的影響。結果發現，高視覺凸顯物體（對比低視覺凸顯物體）會在目

在文檔中聽其所見，觀其所聞：以眼動探討口語與場景互動的跨感官理解歷程 - 政大學術集成 (頁 17-22)

視聽理解歷程的語言和視覺變因

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

文獻探討

第一節 視聽理解歷程的語言和視覺變因

‧

‧

‧

‧

‧

立政治大學

第一節視聽理解歷程的語言和視覺變因