自然場景的動態視覺處理 - 緒論 - 以故事性的自然場景探討主角與地點在動態視覺處理上的相互影響

第一章緒論

第二節自然場景的動態視覺處理

著實是一系列複雜而且極具挑戰的視覺運算(Marr, 1982)。Hegdé(2008)文獻回顧中便嘗試說明，視覺系統如何從影像中萃取出特徵，並進行多次的貝斯推論 (Bayesian inference)，亦即：根據現有的影像特徵訊息並且從機率的角度進一步推敲出場景中的可能內容。這個一系列的視覺運算過程不僅僅仰賴被動地由下而上 (bottom-up)的感官輸入(sensory input)，個體主動(proactive)¹由上而下(top-down) 的作用更是影響著視覺系統對於外界訊息的辨識與理解，從近年來視覺辨識的模型可以窺見一二(Bar, 2009; Summerfield & Egner, 2009)。這些模型主要強調「預期(expectation)」或者是「預測(prediction)」在視覺系統中所扮演的重要角色 (Summerfield & Egner, 2009; Enns & Lleras, 2008)。他們假設視覺系統能從感官輸入的內容中主動生成最有可能的知覺內容，進而使用這些內容引導視覺系統進一步萃取外在訊息，也能幫助視覺系統解釋模稜兩可(ambiguous)的刺激。「預測編碼模型」是從神經生理角度說明視覺處理繁複過程的模型。此類模型認為從早期視覺皮質區域而來的前饋(feed-forward)訊息在視覺處理階層的每個階段能與由上而下的預期(top-down expectation)進行比對，主要透過反覆反饋(recurrent feedback)的連結進行比對。假如比對結果出現錯誤訊號(error signal)，那麼錯誤訊號會透過前饋連結傳遞給較高層次的大腦區域。錯誤訊號是用來修正在視覺處理階層每個階段對於輸入內容的判斷。「預期的訊息」以及「觀察到的訊息」兩者之間會不斷修正與調整，直到視覺系統對於感官輸入產生一個穩定的知覺解釋 (Summerfield & Egner, 2009; Enns & Lleras, 2008)。

Bar(2003, 2004, 2007, 2009)所提出的模型正說明了物體辨識過程中，由上而

1 Proactive 是指由下而上的訊息尚未進入視覺系統，個體便主動預備好，等待著訊息的輸入。

‧

下促進(top-down facilitation)的神經運作機制所扮演之角色。根據 Bar 的模型，視覺系統從影像輸入的訊息中萃取出低空間頻率(low spatial frequency, LSF)，使場景中的物體(譬如：陽傘)在腦海中形成初始臆測(譬如：洋菇、香菇、陽傘)，此過程主要透過背側大細胞路徑(dorsal magnocellular pathway)快速投射至眼眶額葉皮質(orbitofrontal cortex, OFC)，爾後傳入下顳葉皮質(inferior temporal cortex, ITC)。

至於場景中的脈絡訊息(context)(譬如：海洋)，視覺系統同樣是藉由萃取出低空間頻率訊息以形成脈絡訊息，並透過海馬旁皮質(parahippocampal cortex, PHC)快速處理後，進一步將訊息傳遞到下顳葉皮質。在整個物體辨識過程中，高空間頻率訊息(high spatial frequency, HSF)在低空間頻率之後逐漸被處理，辨識過程受到由上而下促進的作用影響，此作用進一步引導視覺系統對影像做更細緻的視覺處理。 1994)與神經生理取向(Peyrin et al., 2010; Kauffmann, Ramanoël, & Peyrin, 2014;

Hegdé, 2008)兩方面皆已獲得實徵支持。

以心理物理取向的研究為例，Schyns 與 Oliva (1994)的實驗一採用分屬兩種不同類別的場景作為實驗材料(譬如：城市與高速公路)，然後將其分別保留高空間頻率訊息或者是低空間頻率訊息後並加以透明重疊起來，藉此即可生成「低空間

‧

被要求進行比對作業(matching task)，他們須判斷先後呈現的兩張圖片是否相同，

並回答「是」或「否」即可。先後呈現的兩張圖之中的第一張圖是實驗的主要操秒以及150 毫秒。Schyns 與 Oliva (1994)的實驗一主要結果顯示，在短呈現時間(30 毫秒)下，視覺系統對於低頻重疊圖(1)比起高頻重疊圖(2)而言有較好的作業表現。

在長呈現時間(150 毫秒)下，視覺系統對於高頻重疊圖(2)比起低頻重疊圖而言有較好的作業表現。

Schyns 與 Oliva (1994)的實驗二進一步探討視覺系統在自然的情境下，傾向使用「從粗略到細緻」或者是「從細緻到粗略」(fine-to-coarse)做場景分類。此實驗市。依據此實驗邏輯，Schyns 與 Oliva (1994)的實驗二結果發現參與者使用「從粗略到細緻」進行口頭回報的比例比起「細緻而粗略」是較高的(前者是 69%，

後者是29%)。綜合Schyns 與 Oliva (1994)的實驗一與實驗二，以心理物理實驗證明了「從粗略到細緻」的特性是視覺處理在動態變化中的基調。

‧

機制的文獻回顧與實徵證據(Peyrin et al., 2010; Kauffmann et al., 2014; Hegdé, 2008)。Hegdé(2008)和 Kauffmann 等人(2014)以文獻回顧整理相關的實徵證據，說明視覺系統中由視網膜到大腦皮質之各個階層，對於「從粗略到細緻」視覺運作的神經生理基礎。Peyrin 等人(2010)則是以功能性磁振造影(fMRI)與事件關聯電位(event-related potential, ERP)技術，定位出「從粗略到細緻」視覺處理所影響的大腦活化部位。該研究以城市、海灘、室內三種圖片作為視覺材料，並且在空間頻率訊息的出現順序上操弄兩種情況，分別是「低頻爾後高頻圖片」以及「高頻爾後低頻圖片」。參與者需判斷先後出現的兩張圖片是否屬於相同類別。功能性磁振造影的結果顯示：「低頻爾後高頻圖片」相較於「高頻爾後低頻圖片」的呈現順序使枕葉皮質(occipital cortex)、額葉皮質(frontal cortex)和顳葉(temporal cortex)與頂葉皮質(parietal cortex)區域有較為強烈的反應。此外，針對事件關聯電位的結果進一步作來源定位分析後則是發現：高階大腦區域(包括「額葉」與「顳

‧

起來(Hanes & Schall, 1996; Kim & Shadlen, 1999)。在神經生理取向方面，目前則有功能性磁振造影(Ploran et al., 2007)的腦造影技術以及事件關聯電位(Schettino et al., 2011)技術定義出視覺辨識的決策成分(包含：感官輸入、累積訊息與完成視覺辨識的瞬間)所相對應的大腦運作區域。在電腦模擬取向方面，亦有用累積器模型估計視覺辨識的決策過程中的各項參數，譬如：知覺累積的速度以及知覺累積的量等(Ratcliff, Thapar, Gomez, & McKoon, 2004; Mack & Palmeri, 2010)。

在神經生理取向方面，Ploran 等人(2007)使用逐步揭露作業將視覺刺激的呈現方式分成七個步驟，主要是透過將視覺刺激疊合上白底黑點的噪形(noise)的方式，

Ploran 等人(2007)區辨這三個成分的邏輯是：他們認為此三個成分的運作情況，

會隨著參與者分辨出視覺刺激內容的時間點不同(亦即：第四、第五、第六與第七個步驟)，而使負責處理此三個成分的大腦區域展現出不太一樣的反應特性。大腦區域的基本反應具有三個特性，分別是反應起始點(onset point)、反應最高點(time at peak)、以及由開始到結束反應的時間幅度。負責處理「感官輸入」的大腦區域，

其反應特性應與視覺刺激被分辨出來的「時間點」無關，而僅僅與視覺刺激輸入

‧

透過上述分析邏輯，Ploran 等人(2007)指出「感官輸入」、「累積訊息」、以及

「完成視覺辨識的瞬間」分別由並不相互重疊的大腦區域負責反應。根據 Ploran 等人(2007)實驗設計與實驗邏輯，整理出來的結果是：(1)「感官輸入」的相關腦區有後枕葉皮質區域(posterior occipital regions)；(2)「累積訊息」的相關腦區則有下顳葉、額葉與頂葉皮質區域，其中包括：雙側梭狀迴(bilateral fusiform gyrus) 和背側前額葉皮質(dorsal lateral prefrontal cortex, DLPFC)等腦區；(3)「辨識瞬間」

的相關腦區則有內側額葉皮質(medial frontal cortex)、前扣帶皮質的背側區域 (dorsal region of anterior cingulate cortex, dACC)和前腦島(anterior insula)等腦區。

關於累積器模型在電腦模擬上的實現，以「擴散模型(diffusion model)」最為有名(Ratcliff, 1978)。擴散模型是用來描述參與者反應時間與正確率行為表現背後所仰賴的決策歷程，僅適用於短暫且快速的單一次的決策，並不適用於多階段的

擴散模型已經在詞彙決策(lexical-decision)(Ratcliff et al., 2004)以及知覺決策 (perceptual decision)(Mack & Palmeri, 2010)等心智活動上成功模擬，並能估計出上述的各項參數。Ratcliff 等人(2004)採用擴散模型瞭解年輕人與老年人的詞彙判斷

‧

率」與年輕人是沒有顯著差異的。誠如Ratcliff 等人(2004)研究，累積器模型的電腦模擬取向成為一種工具，提供研究者有效區分決策過程的諸多成分，並深入探 (Schettino et al., 2011)，或者是被要求進行比對作業，比對「從粗略到細緻」的圖片與事先指定的圖片是否相同(Schettino et al., 2012)。針對這由「從粗略到細緻」

的六個影像層次，即可計算出其相對應的「正確反應的平均正確率²」。如同預期

2 「正確反應的平均正確率」是指：只取正確反應的嘗試加以分析，計算這些嘗試在每一影像層次的「平均正確率」。

‧

量的不同。Schettino 等人(2011, 2012)以此作業探討圖片的情緒價性(valence)對於視覺辨識的知覺累積的影響。其結果顯示具有情緒內涵的圖片(包括：正向刺激與負向刺激)比起中性圖片需累積較多知覺證據，以致需較高空間頻率訊息才能被辨識出來(Schettino et al., 2011; Schettino et al., 2012)。具情緒內涵的圖片相較於中性圖片，其視覺運作上很可能是在重新形成臆測，並重新比對臆測內容與觀察訊息的步驟上更為多次，這較為多次的比對過程反映在知覺累積的量上，最後在「正確反應的平均正確率」上被加以量化出來。

綜合上述，逐步揭露作業是用來展示自然場景動態視覺歷程的直接做法，其

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

截至目前為止，此作業只被用來探討物體被加以辨識出來的變化過程(Schettino et al., 2001)，以及辨別整張圖片時的快慢情況(Schettino et al., 2002)。

‧

物體與背景兩個部份的一項模型。如圖1 所示，Bar(2003, 2004, 2007, 2009)所提出的模型將視覺系統分成兩條路徑。第一條路徑負責處理場景中物體(譬如：陽傘)，

其低空間頻率訊息透過背側大細胞路徑快速投射至眼眶額葉皮質，形成「可能物體(candidate object)」(譬如：洋菇、香菇、陽傘)，爾後傳入下顳葉皮質。事先形成的「可能物體」由上而下地引導視覺系統進行更為細緻的視覺處理。第二條路徑負責處理場景中的背景訊息(譬如：海洋)，同樣是萃取出低空間頻率訊息，並透過海馬旁皮質快速處理後形成「可能背景(candidate background)」，爾後進一步將訊息傳遞到下顳葉皮質。在物體處理路徑上，決策階段會比對「可能物體」與

在文檔中以故事性的自然場景探討主角與地點在動態視覺處理上的相互影響 - 政大學術集成 (頁 12-21)

自然場景的動態視覺處理

第一章 緒論

第二節 自然場景的動態視覺處理

‧

‧

‧

‧

‧

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

第一章緒論

第二節自然場景的動態視覺處理

立政治大學