場景一致性的脈絡因素

理解或產出期間被注意、使用或提及的可能性增加(Cavicchio, Melcher, & Poesio, 2014; Clarke, Coco, & Keller, 2013; Coco & Keller, 2015; Coco, Malcolm, & Keller, 2014; Theeuwes, 1992; Vogels, Krahmer, & Maes, 2013)。以口語理解過程為例，

Coco and Keller (2015)採用視覺情境典範來檢驗物體的視覺凸顯特性對語言中介眼動行為的影響。結果發現，高視覺凸顯物體（對比低視覺凸顯物體）會在目

‧

項獨立物體以空間上合法（spatially licensed）且語義上連貫（semantically coherent）的方式組成，使場景在整體上具有可命名（nameable）的特性 (Henderson, 2011; Henderson & Ferreira, 2004; Henderson & Hollingworth,

1999a)。背景通常是不可移動、相對大範圍的結構，例如海灣、沙漠、街道和城堡，而物體則是具有自體行動能力或可被移動、相對小範圍的實體，例如海鷗、汽車和消防栓。除了組成要素在階層上的分野外，物體和背景也必須以合乎規律性（regularities）的方式構成場景。這套規律性與人透過直接或間接經驗獲得的世界知識密切相關，並可細分為兩種層次：一為物理限制，意指各要素的出現方式必須服膺普世性的物理定律（universal law of physics），諸如地心引力、時間及空間等因素皆屬此類。例如，消防栓受限於地心引力不可能漂浮在半空中，兩個物體不可能重疊出現並佔據同一視覺空間位置。二為語義限制

（semantically constraints），指的是物體在視覺環境中的識別（identity）與功能

‧

能出現在郵筒上方，其大小也不可能超過摩天大樓(Biederman, Mezzanotte, &

Rabinowitz, 1982)。

場景與物體陣列的最大差異在於，前者除了提供個別意義的物體之外，亦整體意義(Castelhano & Henderson, 2008; Oliva, 2005; Oliva & Schyns, 2000;

Potter, 1972; Thorpe, Fize, & Marlot, 1996)。場景的整體意義又被稱為「主旨」

（gist），Oliva (2005)將其定義為：視覺系統在匆匆一瞥中，提取到關於場景描述的一項總括性空間表徵。場景的整體主旨來自早期的視知覺歷程，包含各種層級的視覺表徵資訊激發活動，從低階層的色斑（color blobs）和輪廓

（contour），中階層的形狀和質地（texture），到高階層的語義表徵皆屬此列。

主旨有助於幫助觀看者在極短時間內建立概略性的場景類型資訊，被認為是一項高度自動化的程序(Joubert, Rousselet, Fize, & Fabre-Thorpe, 2007; Li,

VanRullen, Koch, & Perona, 2002; Potter & Levy, 1969; Subramaniam, Biederman, &

Madigan, 2000)。例如，Joubert et al. (2007)發現，即使每項場景的呈現時間僅 26 毫秒，參與者在場景類型判斷作業（人工環境或天然環境）仍有高達 96%的正確率，表示人可在短於一個凝視點的時間內提取到場景主旨資訊。Li et al.

(2002)採用「雙重作業」（dual task paradigm）進行場景分類實驗，發現參與者能在極短暫的暴露時間（刺激呈現27 毫秒）成功區辨出現在周邊視野的場景類型（動物或交通工具），表示場景主旨的建立幾乎不需要注意力的集中投入。

主旨除了有助於建立場景類型的知識外，過去研究也發現主旨有助於觀看者形成有關個別物體的預測，並具有兩項主要功能。第一，主旨的意義表徵有

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

助於形成語義關聯知識，對出現在該場景類型的物體產生相關預期(Bar, 2004;

Bar et al., 2006; Friedman, 1979; Gordon, 2004; Palmer, 1975)。第二，主旨的空間表徵有助形成物理結構知識，用以提示候選物體的所在位置，並據此快速引導注意力和眼球凝視前往該區域進行物體細節處理(Chun & Jiang, 1998; Neider &

Zelinsky, 2006; Torralba, Oliva, Castelhano, & Henderson, 2006; Võ & Henderson, 2010; Wolfe, Võ, Evans, & Greene, 2011)。

例如，Torralba 及其同事(2006)提出的「脈絡導引模型」（Contextual Guidance Model），即主張場景觀看的凝視位置是兩項平行迴路（parallel pathway）共同影響的結果：一為來自場景低階層物理表徵、以畫素為基礎

（pixel-based）的視覺凸顯（saliency），視覺凸顯愈高的空間位置愈能吸引凝視。二為來自場景高階層語義脈絡表徵、特定搜尋物體在現下場景的空間分布機率。以「廚房」場景為例（圖1），該模型模擬低階物理表徵和高階搜尋目標如何共同作用，並改變該視覺場景最凸顯的空間位置。根據低階物理表徵的模型運算結果，圖片上方和下方各有高凸顯區域。根據高階意義表徵的模型運算結果，搜尋目標「馬克杯」較可能出現在畫面下方的水平區域，故凝視位置集中在畫面下方的高凸顯區域。然而，當搜尋目標為「畫作」，場景高階層意義表徵顯示畫面上方的水平區域是最可能的區塊，因此凝視集中在畫面上方的高凸顯區域。

圖 2-1 脈絡導引模型說明圖例

資料來源：Torralba, Oliva, Castelhano & Henderson (2006) Figure 11。

‧

影響呢？過去文獻最常報告的一種關係為「場景一致性」（scene consistency），

例如，一頭乳牛搭配農場背景符合多數人的生活經驗，可視為一種高場景一致性的組合；但一頭乳牛出現在客廳則違反多數人的預期，可視為一種低場景一致性的組合。過去多項研究證據顯示，高場景一致性能促進個別物體的辨識效率(Biederman et al., 1982; Boyce, Pollatsek, & Rayner, 1989; Davenport & Potter, 2004; Friedman, 1979; Spotorno, Tatler, & Faure, 2013)。例如，Biederman et al.

(1982)透過「物體偵測典範」（object detection paradigm）來檢驗場景一致性因素對物體辨識的影響。結果顯示，無論物體與背景在物理限制（例如：漂浮在空中的消防栓）或語義關聯（例如：廚房裡的消防栓）出現不一致情況，均導致較長的反應時間及較低的正確率，顯示人對這類脈絡違常物體的辨識較困難。

此外，這項實驗提供150 毫秒的場景觀看時間，可知觀看者能在單一凝視期間取得場景一致性資訊並影響物體辨識成效。Davenport and Potter (2004)僅提供參與者80 毫秒的觀看時間，即觀察到發生在物體辨識作業和背景辨識作業的場景一致性效果。他們的研究結果進一步表明，構成場景的物體和背景兩項主要成分在進行個別辨識時具有連帶關係（mutual relationship）。

儘管上述多項行為實驗指出場景一致性因素會影響物體辨識成效，然至今關於場景一致性效果發生在場景觀賞歷程的哪個階段仍未有定論。過去文獻指出物體細節的感知需要一定程度的聚焦注意力(Henderson & Hollingworth, 1999b, 2003; Rensink, 2000; Rensink, O'Regan, & Clark, 1997; Simons & Levin, 1997)，因此這類研究大多透過記錄觀看期間參與者的眼動模式來觀測發生在特定物體的物體比場景一致物體更早被凝視(Bonitz & Gordon, 2008; Loftus & Mackworth, 1978; Underwood & Foulsham, 2006; Underwood, Humphreys, & Cross, 2007;

‧

Underwood, Templeman, Lamming, & Foulsham, 2008)。

相對於前述研究，其他研究主張場景一致性須至場景觀賞的晚期階段才會介入影響物體凝視行為反應(De Graef, Christiaens, & d'Ydewalle, 1990;

Henderson, Weeks Jr, & Hollingworth, 1999; Võ & Henderson, 2009, 2011)。例如，

De Graef et al. (1990)發現場景不一致物體必須在多個凝視點發生後，才能於晚期場景觀賞階段觀察到更多的物體凝視次數。Võ and Henderson (2011)的研究也呈現類似結果。他們發現必須到第八或第九次凝視行為發生之後，才能觀察到官視聽理解模型。第一類為階層取徑（hierarchical approach），包括 Crocker et al. (2010)的「協同相互作用說法」（coordinated interplay account, CIA）和 Kukona and Tabor (2011)的「神經衝動處理模型」（impulse processing model）。

階層觀點假設各項變數必須依循特定順序，滿足各種階層性表徵的比對程序，

相反的，以Huettig, Olivers, et al. (2011)的「工作記憶模型」（working

在文檔中聽其所見，觀其所聞：以眼動探討口語與場景互動的跨感官理解歷程 - 政大學術集成 (頁 22-27)

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

立政治大學