動態視覺處理中的物體與背景

第一章緒論

第三節動態視覺處理中的物體與背景

物體與背景兩個部份的一項模型。如圖1 所示，Bar(2003, 2004, 2007, 2009)所提出的模型將視覺系統分成兩條路徑。第一條路徑負責處理場景中物體(譬如：陽傘)，

其低空間頻率訊息透過背側大細胞路徑快速投射至眼眶額葉皮質，形成「可能物體(candidate object)」(譬如：洋菇、香菇、陽傘)，爾後傳入下顳葉皮質。事先形成的「可能物體」由上而下地引導視覺系統進行更為細緻的視覺處理。第二條路徑負責處理場景中的背景訊息(譬如：海洋)，同樣是萃取出低空間頻率訊息，並透過海馬旁皮質快速處理後形成「可能背景(candidate background)」，爾後進一步將訊息傳遞到下顳葉皮質。在物體處理路徑上，決策階段會比對「可能物體」與

‧

名，並被稱為脈絡效果(context effect)。此效果最早可追溯至 Biederman 及其同僚首創的「物體偵測典範(object detection paradigm)」(Biederman, 1972; Biederman, Glass, & Stacy, 1973; Biederman, Rabinowitz, Glass, & Stacy, 1974)。後續研究不僅針對脈絡效果的細節有較多著墨(Boyce, Pollatsek, & Rayner, 1989; Boyce &

Pollatsek, 1992; Hollingworth & Henderson, 1998)，爾後也發展出不同的物體辨識模型，試圖解釋脈絡效果之形成機制(Henderson, 1992; Henderson & Hollingworth, 1999)。

最早由Biederman(1972)所定義的脈絡效果，是透過將自然場景圖片切割成形狀相同的六個矩形，並隨機擺放六個矩形位置，以此方式製成「散亂圖(jumbled)」，

做為破壞脈絡線索的一種操弄。另一種情況，則是保留自然場景之原本樣貌，並被稱為「統合圖(coherent)」。實驗過程中，由於場景圖片的呈現時間相當短暫(300、

500 或 700 毫秒)，因此 Biederman(1972)設計了箭頭符號用來準確提示目標物體的位置。不僅如此，他也設計了四張物體圖片，讓參與者判斷出現在場景中的物不會使脈絡效果減弱。此現象已經獲得重複驗證(Biederman et al., 1974)，亦另有實驗以搜尋目標物體的反應時間做為依變項，同樣得到「統合圖」比起「散亂圖」

有較好的作業表現，而只需較短反應時間辨識目標物體(Biederman et al., 1973)。

然而，上述研究最為人所詬病的是這種破壞脈絡線索的操弄方式，反而額外增加新的輪廓特徵，使「統合圖」與「散亂圖」的視覺複雜度並不相同(Henderson,

‧

1992; Henderson & Hollingworth, 1999)。換言之，脈絡效果可能並非來自於「統合圖」中脈絡線索對物體辨識的促進作用，而是來自於「散亂圖」中新輪廓特徵的情況。Boyce 等人(1989)同樣以物體偵測典範進行實驗，並且在考量控制組的作業表現下，亦已得到一致情況比起不一致情況有較高的物體辨識正確率，是支持背景對物體辨識具影響力之核心證據(Henderson & Hollingworth, 1999)。

二、物體對背景分類的影響

除了背景對物體辨識的影響之外，物體對背景處理之影響亦不容忽視。過去已有學者以Thorpe, Fize, 與 Marlot(1996)所建立的「Go/No-go 作業」，驗證物體對背景分類的影響(Joubert et al., 2007)。關於「Go/No-go 作業」的實驗流程與結果分析，其細節如下：將自然場景短暫呈現 20 毫秒，要求參與者判斷場景內是否出現目標內容(譬如：動物)。參與者需根據短暫呈現的內容進行判斷，並決定進行「Go 反應」或者是「No-go 反應」。倘若參與者認為場景中有目標內容，則需進行「Go 反應」；倘若參與者認為場景中沒有目標內容，則毋需反應，亦即

「No-go 反應」。參與者做出「Go 反應」的反應時間以及正確率會被記錄下來。

Thorpe 等人(1996)首創以大量的彩色場景圖片(大約有 4000 張以上)進行實驗，其中有一半數量是目標圖片(亦即：包含動物的圖片)，以及其他一半數量則是干擾圖片(亦即：不包含動物的圖片，如：樹林、山丘、湖泊等)。視覺系統對各類自然場景通常反應時間太過快速，以致單從平均反應時間的分數無法顯示視覺系統

‧

Joubert 等人(2007)採用上述 Thorpe 等人(1996)所建立的「Go/No-go 作業」，

探討自然場景中的「醒目物體(salient object)」對於背景分類的影響，並將其自然場景圖片分成出「無醒目物體」、「有醒目物體且物體與背景類別相同」、「有醒目效果(consistent object advantage)(Mack & Palmeri, 2010)，此結果支持物體對背景分類具影響力。

三、物體與背景之間的相互影響

Davenport 與 Potter (2004)在同一篇論文的系列實驗，設計一項創新的作業與實驗材料，驗證物體與背景的交互作用模型(interactive model)。交互作用模型強調「背景對物體辨識的影響」以及「物體對於背景辨識的影響」，這兩方面具相互影響的特性。他們的系列實驗，採用相同作業與相同實驗材料，為交互作用模型提供支持的實徵證據。

Davenport 與 Potter (2004)研究中，參與者被要求先觀看短暫呈現 80 毫秒的場景，爾後就其中的「物體內容」或者是「背景內容」進行呈報，本研究稱此作業

‧

為「快速閃現的內容呈報作業」。Davenport 與 Potter (2004)根據物體與背景之間的關係，設計出以下四種視覺場景，分別有：(1)物體與背景是語意一致的情況，

並稱為「場景一致情況」。譬如：舞台搭配芭蕾舞者。(2)物體與背景是語意不一致的情況，並稱為「場景不一致情況」。譬如：客廳搭配斑馬。(3)單獨呈現物體，

以及(4)單獨呈現背景等。

Davenport 與 Potter (2004)的實驗一旨在探討背景對於物體辨識的影響，其結果顯示：場景一致情況下比起場景不一致情況有較高的物體辨識正確率。實驗二

關於物體與背景相互影響的交互作用模型，後續在Davenport(2007)亦獲得支持。Davenport 與 Potter (2004)所設計的視覺場景只呈現「單一個物體」，但過去研究在視覺場景中則是呈現多個物體(Boyce et al., 1989)。據此，Davenport(2007) 進一步設計出具有「兩個物體」的視覺場景，與過去只呈現單一個物體的視覺場景進行比較。Davenport(2007)實驗一乃物體辨識作業。其結果顯示：(1)場景一致圖比起場景不一致圖能有較好的物體辨識正確率。(2)單一物體以及兩個物體的視覺場景並不會影響物體辨識之表現。Davenport(2007)實驗二乃背景辨識作業，其結果與實驗一相同。Davenport(2007)實驗三更進一步依照這兩個物體之間的關聯

‧

模型，已經獲得支持的實徵證據(Davenport & Potter, 2004; Davenport, 2007)。

綜合上述，關於物體與背景之間相互影響的內涵，目前尚無學者以逐步揭露

在「理論觀點」方面，主要分為以下三方面進行討論。首先，Davenport 與 Potter (2004)認為視覺系統對物體辨識的優勢，可能來自於物體本身在視覺處理具有特殊地位。譬如：物體能自動吸引注意力，物體對於視覺系統在早期階段萃取出圖片梗概(gist)具重要貢獻(Biederman, 1972; Potter, 1975, 1976)。第二，就生存重要性的角度來看，物體對個體生存通常比起背景而言更為重要，譬如：物體通常包含動物、人類臉孔、動物臉孔、交通工具等(Delorme, Richard, & Fabre-Thorpe, 2000; Rousselet, Macé, & Fabre-Thorpe, 2003; VanRullen & Thorpe, 2001)。而背景則大多是城市、室內、山丘、海洋(Rousselet, Joubert, & Fabre-Thorpe, 2005)和自然、

人造(Joubert et al., 2007)等。第三，Rousselet 等人(2005)則是提出以下兩項原因。

首先，他們認為視覺系統在物體辨識上的優勢是來自於，物體與背景在影像結構上的不同所致。對於背景圖片來說，即便是相同主題的背景，仍然可能在影像上展現出相當不同的低層次特徵(low-level feature)以及空間上的分配情況(spatial

‧

物體辨識的研究中，這些以Thorpe 等人(1996)典範進行「Go/No-go 作業」的各項結果一致地顯示，短暫呈現圖片的情況下(大約是 20 毫秒左右)，參與者只需相當短的反應時間(約 350-447 毫秒)即可完成物體辨識的作業，並且有相當高的正確辨識率。物體辨識內容包含動物(Delorme et al., 2000; Thorpe et al., 1996;

Fabre-Thorpe, Richard, & Thorpe, 1998; Rousselet et al., 2003; VanRullen & Thorpe, 2001)、交通工具(VanRullen & Thorpe, 2001)以及食物(Delorme et al., 2000;

Fabre-Thorpe et al., 1998)等。至於，背景辨識的研究中，如表 1 所整理，他們同樣是以Thorpe 等人(1996)所建立的「Go/No-go 作業」進行實驗，結果顯示：短暫呈現圖片的情況下(大約是 26 毫秒左右)，參與者只需相當短的反應時間(383-485 毫秒)即可完成背景辨識，並且有著相當高的正確辨識率。背景分類的內容則有城市、室內、山丘、海洋(Rousselet et al., 2005)和自然、人造(Joubert et al., 2007)。

Rousselet 等人(2005)除了將海洋、山丘、城市與室內的辨識的反應時間加以測量出來之外，他們還比較這些背景圖片與動物圖片在視覺辨識上的反應時間差異。

Rousselet 等人 (2005) 取用他們的研究團隊關於動物圖片的視覺辨識資料 (Rousselet et al., 2003)與背景辨識的情況進行比較，其結果發現：動物辨識作業正確率與背景辨識作業正確率雖未達統計顯著差異。但是，反應時間的結果則是顯

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

除此之外，如同表1 所整理的，雖然視覺系統對於背景辨識也是有快速處理與正確辨識之特性，但是就速度上來說，其反應時間上仍然比起物體辨識的時間還要慢30-90 毫秒。綜合上述，物體優勢效果似乎是一項穩定的現象。

除此之外，Davenport 與 Potter (2004)以更為豐富多樣的物體與背景探討視覺系統對其進行處理的情況，物體內容包含有：芭蕾舞者、沙發、沙堡、慢跑者、

救護車、太空梭、士兵、斑馬、主教、豬、水牛、駱駝等28 項物體；背景內容則包含：舞台、客廳、沙灘、公園、湖泊、地球、山路、遊行、戰爭、道路、教堂、農場、停車場、圖書館等28 項。Davenport 與 Potter (2004)的典範與 Thorpe 等人(1996)不同，參與者並非對圖片進行有無目標物的判斷，也並非對圖片中的物體或背景進行分類，參與者需清楚了解圖片內容為何，並被要求回答出物體或背景的內容。在這個實驗中，每張圖片只會短暫呈現 80 毫秒，爾後被遮蔽刺激 (mask)加以遮蓋。Davenport 與 Potter (2004)的實驗三，主要是以「只呈現物體」

和「只呈現背景」兩種視覺呈現方式，比較視覺系統對於「物體」與「背景」辨識情況是否有差異。其結果顯示視覺系統對於物體辨識相較於背景辨識有較高的正確率。Davenport 與 Potter (2004)的實驗四，則是以「同時呈現」物體與背景的視覺呈現方式進行實驗，而且被要求同時回答「物體」與「背景」的內容為何，

並比較視覺系統對於「物體」與「背景」回答正確率的情況是否有差異，其結果同樣顯示物體相較於背景有較高的辨識正確率。

綜合「理論觀點」與「實徵結果」兩方面的論述，物體優勢效果似乎是自然場景研究中一項穩定的現象。

‧

Delorme 等人(2000)

412 330 520

445 382 503 Thorpe 等人(1996)

422 383 503 Fabre-Thorpe 等人(1998)

384 312 464

Rousselet 等人(2003)

371 330 428

Delorme 等人(2000)

427 360 493

447 401 504 Fabre-Thorpe 等人(1998)

背景

城市

478 322 615

Rousselet 等人(2005)

479 318 580

‧

種是讓參與者判斷是否有動物出現(Schettino et al., 2011)，第二種是讓參與者比對

「從粗略到細緻的圖片」與「事先指定」的圖片是否相同(Schettino et al., 2012)。

這兩種作業方式都是讓參與者在「尚未開始」看圖之前，便事先對於所要辨識的

在文檔中以故事性的自然場景探討主角與地點在動態視覺處理上的相互影響 - 政大學術集成 (頁 21-30)

第一章 緒論

第三節 動態視覺處理中的物體與背景

‧

‧

‧

‧

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

第一章緒論

第三節動態視覺處理中的物體與背景

立政治大學