第三章 研究方法與步驟
3.1 資料前置處理
本研究實驗資料包含影像內容與影像註解資料,資料前置處理目的為取出資料內容 中重要且可代表資料之特徵並用以代表原始影像。以下將說明本實驗前置處理部分,本 章節包含影像特徵向量與註解特徵向量之擷取過程。
3.1.1 影像特徵向量擷取
由於本研究需要將影像轉換為特徵向量以供後續資料訓練使用,因此在選取影像特 徵表示法時將以可轉換為固定長度向量之表示法為主。目前於影像相關研究中,最為常 見之影像特徵分別為影像色彩(color)、形狀(shape)、紋理(Texture)以及輪廓(Contour),但此 些常見之影像特徵各有其優缺點。然色彩資訊在自然物體中較為穩定,對於任何影像而 言,色彩亦為最基本之組成元素,對於影像內容具有良好之表達能力,除此之外,色彩 資訊萃取也較易達成,且透過色彩資訊可有效率的將影像內容轉換成固定長度之影像特 徵向量,因此本研究採用之影像特徵為影像色彩分佈直方圖(color histogram)作為代表影 像內容之影像特徵。在進行影像特徵向量轉換之前,本研究將對影像之彩色資訊進行對 應之色彩還原過程,將影像像素值還原為灰階值(Grey Level)以降低資訊量,進而提升處 理效率,但此步驟將損失部分影像色彩及內容資訊。為提升影像特徵對影像之表達能 力,本研究另外採用影像之頻率資訊作為其特徵以統計影像中之平緩程度,其作法為將 影像轉換為可表達影像變換頻率之影像能量分佈頻譜(power spectrum)以獲得更多影像 相關資訊。採用色彩分佈直方圖之目的在於擷取影像內容當中的色彩特徵,且色彩分佈 直方圖所花費之計算與處理速度較快且成本較低。採用影像能量頻譜之目的在於取得影 像內容在空間表現上之特徵,同時亦希望取得影像內容變動之頻率特徵作為代表該影像 之影像特徵。
在萃取色彩特徵時,首先須將影像進行RGB三原色之像素還原,並進行影像色彩分 佈直方圖之特徵向量擷取步驟。還原過程是將彩色像素(Pixel)轉成0至255之灰階值,透 過下式(1)可得到,其中I為影像像素轉換後之灰階像素值。
I = 0.299R + 0.587G + 0.114B (1)
其中R、G、B分別代表該像素之紅、綠、藍色之值。並加以統計與計算所得到之影像色 換(discrete Fourier transform,DFT)進行轉換所得到。DFT 通常被用在做頻譜分析與濾波 器之設計上,對於一個n×n 的方塊,二維正 DFT 之定義為
另 DFT 轉換的二維核心(kernel)是可分開的,即
Di = { ki1,ki2,ki3,…………..,……,kini} (6) 像之註解向量(annotation vector)。影像註解文件特徵向量如圖 3-1-2 所示。其中 0 代表該 向量成份所對應之關鍵字並不是此影像之註解關鍵字;反之若為 1 則代表此關鍵字出現 在此影像之註解中。例如字彙集中之第 15 號關鍵字便出現在影像arborgreenImage01 之 註解中。
圖 3-1-2 影像註解文件特徵向量