• 沒有找到結果。

第一章 緒論

第二節 自然場景的動態視覺處理

著實是一系列複雜而且極具挑戰的視覺運算(Marr, 1982)。Hegdé(2008)文獻回顧 中便嘗試說明,視覺系統如何從影像中萃取出特徵,並進行多次的貝斯推論 (Bayesian inference),亦即:根據現有的影像特徵訊息並且從機率的角度進一步推 敲出場景中的可能內容。這個一系列的視覺運算過程不僅僅仰賴被動地由下而上 (bottom-up)的感官輸入(sensory input),個體主動(proactive)1由上而下(top-down) 的作用更是影響著視覺系統對於外界訊息的辨識與理解,從近年來視覺辨識的模 型可以窺見一二(Bar, 2009; Summerfield & Egner, 2009)。這些模型主要強調「預 期(expectation)」或者是「預測(prediction)」在視覺系統中所扮演的重要角色 (Summerfield & Egner, 2009; Enns & Lleras, 2008)。他們假設視覺系統能從感官輸 入的內容中主動生成最有可能的知覺內容,進而使用這些內容引導視覺系統進一 步萃取外在訊息,也能幫助視覺系統解釋模稜兩可(ambiguous)的刺激。「預測編 碼模型」是從神經生理角度說明視覺處理繁複過程的模型。此類模型認為從早期 視覺皮質區域而來的前饋(feed-forward)訊息在視覺處理階層的每個階段能與由 上 而 下 的 預 期(top-down expectation)進行比對,主要透過反覆反饋(recurrent feedback)的連結進行比對。假如比對結果出現錯誤訊號(error signal),那麼錯誤訊 號會透過前饋連結傳遞給較高層次的大腦區域。錯誤訊號是用來修正在視覺處理 階層每個階段對於輸入內容的判斷。「預期的訊息」以及「觀察到的訊息」兩者 之間會不斷修正與調整,直到視覺系統對於感官輸入產生一個穩定的知覺解釋 (Summerfield & Egner, 2009; Enns & Lleras, 2008)。

Bar(2003, 2004, 2007, 2009)所提出的模型正說明了物體辨識過程中,由上而        

1 Proactive 是指由下而上的訊息尚未進入視覺系統,個體便主動預備好,等待著訊息的輸入。

下促進(top-down facilitation)的神經運作機制所扮演之角色。根據 Bar 的模型,視 覺系統從影像輸入的訊息中萃取出低空間頻率(low spatial frequency, LSF),使場 景中的物體(譬如:陽傘)在腦海中形成初始臆測(譬如:洋菇、香菇、陽傘),此過 程主要透過背側大細胞路徑(dorsal magnocellular pathway)快速投射至眼眶額葉皮 質(orbitofrontal cortex, OFC),爾後傳入下顳葉皮質(inferior temporal cortex, ITC)。

至於場景中的脈絡訊息(context)(譬如:海洋),視覺系統同樣是藉由萃取出低空間 頻率訊息以形成脈絡訊息,並透過海馬旁皮質(parahippocampal cortex, PHC)快速 處理後,進一步將訊息傳遞到下顳葉皮質。在整個物體辨識過程中,高空間頻率 訊息(high spatial frequency, HSF)在低空間頻率之後逐漸被處理,辨識過程受到由 上而下促進的作用影響,此作用進一步引導視覺系統對影像做更細緻的視覺處理。 1994)與神經生理取向(Peyrin et al., 2010; Kauffmann, Ramanoël, & Peyrin, 2014;

Hegdé, 2008)兩方面皆已獲得實徵支持。

以心理物理取向的研究為例,Schyns 與 Oliva (1994)的實驗一採用分屬兩種不 同類別的場景作為實驗材料(譬如:城市與高速公路),然後將其分別保留高空間 頻率訊息或者是低空間頻率訊息後並加以透明重疊起來,藉此即可生成「低空間

被要求進行比對作業(matching task),他們須判斷先後呈現的兩張圖片是否相同,

並回答「是」或「否」即可。先後呈現的兩張圖之中的第一張圖是實驗的主要操 秒以及150 毫秒。Schyns 與 Oliva (1994)的實驗一主要結果顯示,在短呈現時間(30 毫秒)下,視覺系統對於低頻重疊圖(1)比起高頻重疊圖(2)而言有較好的作業表現。

在長呈現時間(150 毫秒)下,視覺系統對於高頻重疊圖(2)比起低頻重疊圖而言有 較好的作業表現。

Schyns 與 Oliva (1994)的實驗二進一步探討視覺系統在自然的情境下,傾向使 用「從粗略到細緻」或者是「從細緻到粗略」(fine-to-coarse)做場景分類。此實驗 市。依據此實驗邏輯,Schyns 與 Oliva (1994)的實驗二結果發現參與者使用「從 粗略到細緻」進行口頭回報的比例比起「細緻而粗略」是較高的(前者是 69%,

後者是29%)。綜合Schyns 與 Oliva (1994)的實驗一與實驗二,以心理物理實驗證 明了「從粗略到細緻」的特性是視覺處理在動態變化中的基調。

機制的文獻回顧與實徵證據(Peyrin et al., 2010; Kauffmann et al., 2014; Hegdé, 2008)。Hegdé(2008)和 Kauffmann 等人(2014)以文獻回顧整理相關的實徵證據,說 明視覺系統中由視網膜到大腦皮質之各個階層,對於「從粗略到細緻」視覺運作 的神經生理基礎。Peyrin 等人(2010)則是以功能性磁振造影(fMRI)與事件關聯電 位(event-related potential, ERP)技術,定位出「從粗略到細緻」視覺處理所影響的 大腦活化部位。該研究以城市、海灘、室內三種圖片作為視覺材料,並且在空間 頻率訊息的出現順序上操弄兩種情況,分別是「低頻爾後高頻圖片」以及「高頻 爾後低頻圖片」。參與者需判斷先後出現的兩張圖片是否屬於相同類別。功能性 磁振造影的結果顯示:「低頻爾後高頻圖片」相較於「高頻爾後低頻圖片」的呈 現順序使枕葉皮質(occipital cortex)、額葉皮質(frontal cortex)和顳葉(temporal cortex)與頂葉皮質(parietal cortex)區域有較為強烈的反應。此外,針對事件關聯電 位的結果進一步作來源定位分析後則是發現:高階大腦區域(包括「額葉」與「顳

起來(Hanes & Schall, 1996; Kim & Shadlen, 1999)。在神經生理取向方面,目前則 有功能性磁振造影(Ploran et al., 2007)的腦造影技術以及事件關聯電位(Schettino et al., 2011)技術定義出視覺辨識的決策成分(包含:感官輸入、累積訊息與完成視 覺辨識的瞬間)所相對應的大腦運作區域。在電腦模擬取向方面,亦有用累積器模 型估計視覺辨識的決策過程中的各項參數,譬如:知覺累積的速度以及知覺累積 的量等(Ratcliff, Thapar, Gomez, & McKoon, 2004; Mack & Palmeri, 2010)。

在神經生理取向方面,Ploran 等人(2007)使用逐步揭露作業將視覺刺激的呈現 方式分成七個步驟,主要是透過將視覺刺激疊合上白底黑點的噪形(noise)的方式,

Ploran 等人(2007)區辨這三個成分的邏輯是:他們認為此三個成分的運作情況,

會隨著參與者分辨出視覺刺激內容的時間點不同(亦即:第四、第五、第六與第七 個步驟),而使負責處理此三個成分的大腦區域展現出不太一樣的反應特性。大腦 區域的基本反應具有三個特性,分別是反應起始點(onset point)、反應最高點(time at peak)、以及由開始到結束反應的時間幅度。負責處理「感官輸入」的大腦區域,

其反應特性應與視覺刺激被分辨出來的「時間點」無關,而僅僅與視覺刺激輸入

透過上述分析邏輯,Ploran 等人(2007)指出「感官輸入」、「累積訊息」、以及

「完成視覺辨識的瞬間」分別由並不相互重疊的大腦區域負責反應。根據 Ploran 等人(2007)實驗設計與實驗邏輯,整理出來的結果是:(1)「感官輸入」的相關腦 區有後枕葉皮質區域(posterior occipital regions);(2)「累積訊息」的相關腦區則有 下顳葉、額葉與頂葉皮質區域,其中包括:雙側梭狀迴(bilateral fusiform gyrus) 和背側前額葉皮質(dorsal lateral prefrontal cortex, DLPFC)等腦區;(3)「辨識瞬間」

的相關腦區則有內側額葉皮質(medial frontal cortex)、前扣帶皮質的背側區域 (dorsal region of anterior cingulate cortex, dACC)和前腦島(anterior insula)等腦區。

關於累積器模型在電腦模擬上的實現,以「擴散模型(diffusion model)」最為 有名(Ratcliff, 1978)。擴散模型是用來描述參與者反應時間與正確率行為表現背後 所仰賴的決策歷程,僅適用於短暫且快速的單一次的決策,並不適用於多階段的

擴散模型已經在詞彙決策(lexical-decision)(Ratcliff et al., 2004)以及知覺決策 (perceptual decision)(Mack & Palmeri, 2010)等心智活動上成功模擬,並能估計出上 述的各項參數。Ratcliff 等人(2004)採用擴散模型瞭解年輕人與老年人的詞彙判斷

率」與年輕人是沒有顯著差異的。誠如Ratcliff 等人(2004)研究,累積器模型的電 腦模擬取向成為一種工具,提供研究者有效區分決策過程的諸多成分,並深入探 (Schettino et al., 2011),或者是被要求進行比對作業,比對「從粗略到細緻」的圖 片與事先指定的圖片是否相同(Schettino et al., 2012)。針對這由「從粗略到細緻」

的六個影像層次,即可計算出其相對應的「正確反應的平均正確率2」。如同預期        

2 「正確反應的平均正確率」是指:只取正確反應的嘗試加以分析,計算這些嘗試在每一影像層次的「平 均正確率」。

量的不同。Schettino 等人(2011, 2012)以此作業探討圖片的情緒價性(valence)對於 視覺辨識的知覺累積的影響。其結果顯示具有情緒內涵的圖片(包括:正向刺激與 負向刺激)比起中性圖片需累積較多知覺證據,以致需較高空間頻率訊息才能被辨 識出來(Schettino et al., 2011; Schettino et al., 2012)。具情緒內涵的圖片相較於中性 圖片,其視覺運作上很可能是在重新形成臆測,並重新比對臆測內容與觀察訊息 的步驟上更為多次,這較為多次的比對過程反映在知覺累積的量上,最後在「正 確反應的平均正確率」上被加以量化出來。

綜合上述,逐步揭露作業是用來展示自然場景動態視覺歷程的直接做法,其

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

12 

截至目前為止,此作業只被用來探討物體被加以辨識出來的變化過程(Schettino et al., 2001),以及辨別整張圖片時的快慢情況(Schettino et al., 2002)。

物體與背景兩個部份的一項模型。如圖1 所示,Bar(2003, 2004, 2007, 2009)所提 出的模型將視覺系統分成兩條路徑。第一條路徑負責處理場景中物體(譬如:陽傘),

其低空間頻率訊息透過背側大細胞路徑快速投射至眼眶額葉皮質,形成「可能物 體(candidate object)」(譬如:洋菇、香菇、陽傘),爾後傳入下顳葉皮質。事先形 成的「可能物體」由上而下地引導視覺系統進行更為細緻的視覺處理。第二條路 徑負責處理場景中的背景訊息(譬如:海洋),同樣是萃取出低空間頻率訊息,並 透過海馬旁皮質快速處理後形成「可能背景(candidate background)」,爾後進一步 將訊息傳遞到下顳葉皮質。在物體處理路徑上,決策階段會比對「可能物體」與