• 沒有找到結果。

第二章 文獻探討

2.4 資料探勘

資料探勘(Data Mining)係指從大量資料中抽取出有意義的資訊或特徵,

以建立有效的模型及規則。資料探勘的技術可以概分為自動化或半自動化的方 法,自動化法係以事先定義妥善的數學或統計模型或是電腦演算法,來求得預先 定義的特徵(pattern)、趨勢(trend)、分類(Classification)、叢集(Clustering)、

相關性(relationship)等資訊,此法最大的優點就是在挖掘資訊的過程中可做 到完全的自動化,但其最大的缺點也正是因自動化而導致的彈性(flexibility)問 題。因為,所有欲挖掘的資訊都必須有一個已事先定義的模式(model)或特徵

(pattern)存在,若是碰到了未定義的特殊模式或特徵時,則可能會失去了挖掘 到有用資訊的機會。

而在影像分析鑑定中,我們針對某一廠牌、型號之數位相機時,也是先藉由 運算出的特徵值建立出預測或鑑定模型,這個模型就代表著該相機與眾不同之 處,再將尚未分類之影像投入辨識並做分析,從而獲得鑑識結果。

在資料探勘軟體的工具應用,我們採用由台灣大學資訊工程系的林智仁教授 所開發的 LibSVM[12]軟體;SVM(Support Vector Machines)演算法(decomposition methods)在 1997 年被提出,其方法是否收斂,一直是個很困難的問題,林教授 在 2000 年及 2001 年 IEEE Trans. on Neural Networks 期刊所發表之理論,證明了 此一演算法以及目前被廣泛使用之軟體 SVM light 所用之演算法,都具有收斂 性,在此領域這項論點是一個重要的突破。林教授同時也開發了應用軟體 LIBSVM 供全世界的學者使用。該軟體也被收錄於人工智慧領域常見問題與軟 體,以及其他機器學習與模型辨識領域之重要網站。

這個 SVM 工具軟體,目前最常拿來用於「分類(classification)」。例如:如 果有一堆已經分好類的東西,但是分類的依據是未知的!當再度收到新的資料 時,可以藉由 LibSVM 預測(predict)新的資料,應該是屬於哪一個類別,同時 驗證其準確率。雖說,這個軟體的功能強大,但是在以往的參考文獻中,作者們 通常只針對兩類做分類,或者增加到四、五類。如果欲分類的資料量及類別越來 越多,會不會對辨識率造成某種程度上的影響,我們也會在第四章節的實驗結果 中作一系列的討論。

第三章、實驗架構與流程

3.1 實驗設計

本研究之實驗設計主要分為兩部分:

第一部份之實驗特色在於針對影像內容、影像擷取特徵、SVM 訓練模型之 照片多寡、影像後處理及相機之廠牌型號這五大方向作交叉實驗驗證。如圖 8,

我們依序設計出 9 組不同實驗案例來逐一討論並分析對辨識率的影響。

個案 實驗設計內容

Case1 2 台不同廠牌型號數位相機、

影像相似度高

Case2 3 台同廠牌不同型號 1 台不同廠牌型號、

影像相似度高

Case3 3 台同廠牌不同型號 1 台不同廠牌型號、

影像相似度低

Case4 3 台同廠牌不同型號 1 台不同廠牌型號、

每台各兩組影像資料

Case5 3 台同廠牌不同型號 1 台不同廠牌型號、

訓練資料數量少、影像相似度高 Case6 3 台同廠牌不同型號 1 台不同廠牌型號、

訓練資料數量多、影像相似度低 Case7 3 台同廠牌不同型號 1 台不同廠牌型號、

Case8 3 台同廠牌不同型號 1 台不同廠牌型號、

影像特徵有分類、影像相似度高 Case9 2 台不同廠牌不同型號、

影像經過破壞

圖 8:第一部份之實驗設計架構圖及個案內容

第二部份之實驗特色在於假設各台相機所拍攝的數位影像內容的相似度完 全不同狀態下,我們將針對相機之廠牌、型號、感測元件以及參與分類的相機數 量這四個方向我們設計出 10 個不同案例來逐一討論並交叉分析其差異處對辨識 率的影響,其基本架構如下圖:

圖 9:第二部份之實驗設計架構圖

3.2 實驗流程

本研究之實驗流程除了部分參考文獻[7]之外,另外本文新增加了 SVM 最佳 參數搜尋步驟,除了避免以試誤法(try and error)來找尋參數之外也提升了實驗之 辨識率,詳細之實驗步驟如下:

步驟一、蒐集不同相機所拍攝出來不同的影像內容,程式中設定如果相片解析度 大於 1600×1200 者則裁減相片的大小尺寸,其餘則保持原解析度尺寸。

步驟二、經由程式將相片以影像處理技術計算每一張影像的特徵值,並將其記錄 下來。

步驟三、在計算完影像特徵值後,我們利用隨機亂數將全部影像分為兩類分別為 SVM 訓練模型資料(SVM Train Data)與 SVM 實驗驗證資料(SVM Test Data)。舉一個分類兩台相機的例子,如果我們每台相機拍攝 150 張影 像,欲將其中之 60 張當成訓練模型資料。那就是個別從相機本身的 150 張先隨機選擇其中的 60 張作為建立該相機的影像特徵模型,等建立完 成之後再個別將剛剛未被選取的影像資料 90 張納入實驗驗證資料兩台 合計共 180 張作為實驗分類用途,如表 1。

表 1:分類與預測鑑定樣本數

原影像 訓練模型張數 實驗驗證張數 Nikon CoolPix 5000 150 Random 60 90

SONY-P1 150 Random 60 90

總計 300 120 180

步驟四、以資料探勘軟體 LibSVM 進行剛剛個別選取之 60 張訓練模型資料分別 進行特徵值運算、分類後完成建立個別相機之訓練模型(train model)。

步驟五、利用參數搜尋工具程式,根據各台訓練模型之資料共 120 張影像進行預 測分類並完成最佳參數分佈圖的繪製,如圖 11。

圖 11:最佳參數預測分佈圖

步驟六、參考最佳參數預測分佈圖(圖 11)後擇定最佳參數值帶入實驗驗證之參數 進行分類鑑識,最後獲得實驗驗證資料的辨識率。

步驟七、為了減少步驟三因隨機取樣而造成鑑識結果誤差,我們重複進行前述實 驗步驟(步驟三~五)10 次,並以平均的辨識率作為真正表列之辨識結 果數據。

第四章、實驗結果與討論

本研究之實驗設計如圖 8, 9 所述分為兩個部分,第一部分著重於針對影像內 容相似度高低、SVM 模型建立相片數量(Train Data)、影像特徵值以及相機品牌 型號等四個重點分別設計出 9 個不同個案來探討對於辨識率的影響。實驗的第二 部分則更接近於實務層面,在每張影像內容相似度極低的相片中針對品牌、型 號、感測元件與相機數量等四個重點方向作實驗驗證。我們設計出了 10 個實驗 個案,其實驗假設及辨識率結果分述如下:

4.1 實驗第一部份

(一)個案 1-1

實驗環境:參考文獻[7]與該文章作者聯繫後在作者的同意之下我們獲得了與 文獻[7]完全相同的影像資料檔案。其影像資料庫樣本如圖 12,

分別以不同廠牌型號相機 Nikon E2100 與 SONY-P51 所拍攝。

圖 12(a): SONY-P51 影像 圖 12(b): Nikon-E2100 影像 實驗結果:

表 2:個案 1-1 之實驗結果 實驗分類

Nikon-E2100 SONY-P51 辨識率(%) Nikon-E2100 90.0 0.0 100 原始

類別 SONY-P51 2.6 87.4 97.8

結果說明:從圖表數據中,可看出使用與文獻[7]相同之影像資料搭配本文所 採用的實驗流程方法得到非常好的辨識率。由於辨識率已近乎 100%且相較於參考文獻[7]中的效果更好,證實本文所採行的方 法除了確實可行之餘更提升了原始作者的分類辨識率。

(二)個案 1-2

實驗環境:本實驗設計動機在於假設一理想條件下,參加實驗的四台相機每 一台所拍攝內容相似度極高(如個案 1-1 之圖 12a,b,c,d),我們藉 以探討數位影像相似度是否會提升或降低照片分類辨識率。在本 實 驗 中 採 用 的 四 台 數 位 相 機 分 別 為 SONY-T7 、 SONY-P9 、 SONY-P1 與 NIKON-E995 分別各拍攝了 150 張照片其中 60 張照 片當 Train Data 另外 90 張照片當 Test Data 作分類辨識率實驗。

圖 12(a):SONY-T7 圖 12(b):SONY-P9

圖 12(c):SONY-P1 圖 12(d):Nikon-E995 實驗結果:

表 3:個案 1-2 之實驗結果 實驗分類

SONY-T7 SONY-P9 SONY-P1 Nikon-E995

辨識率 (%)

SONY-T7 90 0 0 0 100

SONY-P9 0 90 0 0 100

SONY-P1 0 0 90 0 100

原 始 類

別 Nikon-E995 0 0 0 90 100

結果說明:表 3 之實驗數據乃針對相同分類步驟重複作十次平均後的結果,其辨 識正確率每次都高達 100%。從表 3 之實驗數據中可以看出數位影像 拍攝的內容在相似度極高的狀況下對於對辨識率確實會有很大的提 升效果,而這個論點是以往文獻中所未涉及的實驗個案。經過了這 個個案實驗之後,我們可以觀察相關研究文獻中的實驗設計幾乎清

一色是採用相似度極高的影像照片來作分類辨識率的實驗,除了在 這樣的條件下會提升辨識率之外也同時反映出採用相似度極高的照 片來作分類是比較不切合實際生活上的實用性。

(三)個案 1-3

實驗環境:個案 1-2 之實驗假設是在影像內容相似度極高的狀態下,這是一 個很理想的狀況但是在實務應用上卻很少會有這樣的機率。為了 瞭解數位影像內容相似度是否確實會影響辨識率,我們採用與個 案 1-2 完全相同的數位相機與影像張數,唯獨這一個案中參與實 驗的四台相機這次所拍攝內容相似度極低(如圖 14a,b,c,d)。我們 特別將這四台參與實驗相機分別拍攝影像複雜度以及影像光線 差異極大的相片內容來作分類實驗。希望能將這組實驗數據與個 案 1-2 作一比較驗證出個案 1-2 所說明的結果。

圖 14(a):SONY-T7 圖 14(b):SONY-P9

圖 14(c):SONY-P1 圖 14(d):Nikon-E995 實驗結果:

表 4:個案 1-3 之實驗結果 實驗分類

SONY-T7 SONY-P9 SONY-P1 Nikon-E995

辨識率 (%) SONY-T7 83.5 2.6 3.7 0.2 92.77 SONY-P9 1.6 80.1 6.4 1.9 90 SONY-P1 3.4 1.7 84.9 0 94.33 原

始 類

別 Nikon-E995 0.3 3.2 0 86.5 96.11

結果說明:從表 4 之實驗數據中我們可以觀察到數位相片之拍攝內容相似度 高低與否確實會對於分類辨識率有一定程度的影響。在採用本研 究方法比較後相同廠牌間之數位相機辨識率會略低於不同廠牌 的相機這是可以預期的因為相同廠牌相機所使用的關鍵零組件 有可能源自於相同的上游供應廠商,所以會有比較差的分類辨識 率。但在這些影像內容差異極大的相片中平均辨識率仍能達到 93%以上這證明了本文所採用的方法有一定的強健性。

(四)個案 1-4

實驗環境:在分析個案 1-2 及 1-3 之後,在這邊我們已經可以初步得到一些 實驗上的結論就是影像內容相似度確實對於分類辨識率會有一 定程度的影響。這間接說明了另一個現象便是當初參與訓練而建

實驗環境:在分析個案 1-2 及 1-3 之後,在這邊我們已經可以初步得到一些 實驗上的結論就是影像內容相似度確實對於分類辨識率會有一 定程度的影響。這間接說明了另一個現象便是當初參與訓練而建

相關文件