第三章 研究方法
3.2 影像分析
3.2.5 區域二元化圖型
速,適合用於即時系統(real-time system),而缺點在於平滑影像或轉換成灰階影像後紋 理表現不明顯者的描述效果較差。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
98 26 23 85 50 36 12 13 50 圖 3-24. 3×3 區塊範例
4. 閾值運算:
周圍八個點分別與閾值比較大小,如大於或等於閾值,則設定為 1;如小於閾值,
則設定為 0,運算結果如下圖。
1 0 0
1 0
0 0 1
圖 3-25. 區塊經 LBP 運算後結果
5. 權重(Weight)設定: 給予周圍八個點權重,如圖 3-26 所示。
20 21 22 27 23 26 25 24 圖 3-26. 區塊權重分布
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
6. 數值統計:
將運算後結果與權重分布相乘後再相加,如圖 3-24、圖 3-25 先相乘後相加,可得20
×1+2 ×1+4 2 ×1=145。 7 7. 直方圖(Histogram)統計:
將影像以上述方式計算完畢後,即可累加計算統計出此影像的區域二元化圖型直方 圖(local binary pattern histogram),此直方圖中共有 256 個 Bin,故此區域二元化圖 型直方圖即為一大小為 256 的陣列(array)。
8. 特徵描述: 最後將 256 個 Bin 的個數作為一 256 維的影像描述特徵。
3.2.5.1 Uniform Pattern
Ojala 也提出區域二元化圖型中,特定的圖型(如圖 3-27 所示)經過旋轉後將可得到生 成此區域二元化圖型特徵之基底(Base),稱之為 Uniform Pattern。於文獻實驗中,使用 最初定義 8 個像素而半徑為 1 的 3×3 區塊,Uniform Pattern 的直方圖數量總和佔所有 8-bit (00000000~11111111)的 85%~90%,故將這 58 個 Uniform Pattern 獨立出來計算直方圖,
作為特徵向量中的 58 個維度,並將剩下的直方圖 Bin 值加總後作為第 59 維。
圖 3-27. Uniform Pattern
於本研究中為實現即時音訊分類,希望可利用 Uniform Pattern 之特性,將描述用的 256 維空間減少至 59 維空間,以達到降低維度之效。故設計一實驗針對時間-頻率頻譜
‧
圖是否亦具有 Uniform Pattern 分布之特性。將輸入之音訊透過預處理與起始點偵測,取 得其音訊事件之影像,及其透過區塊偵測所得之音訊區塊影像進行 Uniform Pattern 分布 性質測試,於此取訓練資料中 8 個分類各 5 個樣本(於附錄 D 收錄音訊事件與其音訊區 塊之樣本)來進行實驗。其中音訊區塊影像僅處理非 0 部分(意即影像中黑色區塊不納入 區域二元化圖型計算)。
實驗結果如下,我們可從實驗結果中表 3-10、表 3-11 得出,音訊事件與音訊區塊 之時間-頻率頻譜圖於 Uniform Pattern 中的分布約略落於 75%~90%之間,意即 75%~90%
的值分布此 58 維空間中,故我們可將原 256 維空間降低至此 58 維空間,以降低維度求 取更為快速的計算,同時也因 Uniform Pattern 之特性,不因大幅度的降維而造成描述力 的損失。其中因為 Uniform Pattern 編碼所呈現多為邊緣與紋理,故亦可從實驗結果觀察 的得知,音訊區塊因保留較多的音訊事件主體及其紋理,故於此實驗中有較佳的表現。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
表 3-11. 音訊區塊之 Uniform Pattern 比例
Sample 1 Sample 2 Sample 3 Sample 4 Sample 5 Door Bell-1 87.31 86.33 86.32 85.92 84.87 Door Bell-2 91.87 89.87 92.48 90.26 92.66 Phone Bell-1 84.83 84.86 85.97 85.48 93.72 Phone Bell-2 78.23 77.16 74.05 86.66 89.38 Baby Cry 78.74 74.32 83.61 81.98 78.46 Car Alarm 91.11 89.91 90.47 85.69 87.39 Kettle Whistle 91.63 88.26 87.36 90.15 88.17 Fire Alarm 87.22 89.26 85.15 84.36 90.57
單位:百分比
音訊事件影像經過區域二元化圖型運算並因其 Uniform Pattern 特性,可得一 59 維 之編碼直方圖,於此我們對此直方圖正規化(Normalize),將此正規化過後之直方圖視為 此音訊事件的特徵向量。透過之後的直方圖距離定義與計算,對音訊事件加以分類。