基於RANSAC篩選之書籍封面辨識研究

全文

(1)國立台灣師範大學資訊工程研究所碩士論文. 指導教授：李忠謀博士. 基於 RANSAC 篩選之書籍封面辨識研究 UsingRANSAC for Book Cover Recognition. 研究生：許峻瑋撰中華民國 105 年 02 月.

(2) 摘要本研究提出一個使用手機鏡頭拍攝的書籍封面影像做為辨識對象，透過比對不同於資料庫內的一定範圍角度之書籍封面影像，建構一個根據書籍封面來進行書籍辨識的方法，取代現行使用 OCR 來辨識書籍的方法。本研究提出的方法是採用 SURF 特徵點偵測建立資料庫中書籍封面的特徵點資訊後，使用 KNN 做特徵點的匹配，再透過本研究利用書本特性提出一個根據 RANSAC 所改良的特徵點篩選方法來改善 RANSAC 在篩選特徵點匹配的盲點。最後配合本研究基於 RANSAC 的改良法，提出一個根據 Miksik[19]的重複率的判別方法來做為準確率的依據。. 本研究將實驗分成兩部分，實驗的第一部份，是影像縮小對於實驗的速度成效驗證和基於 RANSAC 改良法所制定的閾值範圍實驗；實驗的第二部分，則是測試本研究提出之方法在實際場景的準確度，在使用者將書本拿起進行拍攝的情況下，驗證本研究提出之方法和實驗第一部分中閾值對於本研究方法的準確率影響程度。. 關鍵字：SURF、RANSAC、特徵擷取、圖片辨識. ii.

(3) Abstract This paper provide a way for book recognition by book cover image matching instead of OCR. First, we apply matching process base on SURF, then using nearest neighbor and RANSAC to select the matched candidates. In order to improve the result of matched candidates, we develop a selected method which improves RANSAC's blind spot in matching the feature candidates.. The experiment has two parts; the first part try to find out the effect of input image resizing and the threshold for our own method. The second part is testing the accuracy in experimental environment and reality. We find out that our method's accuracy were achieved about 93% and the accuracy could endured the image rotation upto 15 degrees.. 關鍵字：SURF、RANSAC、feature selection、image matching. iii.

(4) 目錄圖目錄 ........................................................................................................................ I 表目錄 ...................................................................................................................... IV 第一章前言 ................................................................................................................ 1. 1.1 研究動機 ................................................................................................................ 1. 1.2 研究目的 ............................................................................................................... 2. 1.3 研究範圍與限制 ................................................................................................... 2. 1.4 論文架構 ............................................................................................................... 2. 第二章文獻探討 ........................................................................................................ 3. 2.1 特徵點取得方式 ................................................................................................... 3. 2.1.1 尺度不變特徵轉換(SIFT) ........................................................................... 3. 2.1.2 加速穩健特徵(SURF) ................................................................................... 5. 2.1.3 FAST 和其相關的改良方法 ......................................................................... 5. 2.1.4 特徵點匹配 .................................................................................................. 8. 2.2 透視變換 ............................................................................................................... 8 iv.

(5) 2.3 特徵點匹配的評估探討 ...................................................................................... 10. 第三章研究方法 ...................................................................................................... 12. 3.1 系統架構 ............................................................................................................. 12. 3.2 前處理 .................................................................................................................. 14. 3.3 加速穩健特徵（SURF） ...................................................................................... 14. 3.3.1 積分影像（Integral Image）.................................................................. 14. 3.3.2 基於積分影像的海森矩陣（Hessian Matrix）...................................... 15. 3.3.3SURF 特徵點和其特徵點描述單元 ............................................................. 16. 3.4 特徵點匹配和篩選 .............................................................................................. 20. 3.4.1 最接近距離法(NN)和 RANSAC .................................................................... 21. 3.4.2𝐍𝐍𝐍𝐍Area 篩選和 RANSAC 殘留率(RANSAC Remain Rate) .......................... 22. 3.4.3 基於重複率(Repeatability score)的評估準則................................... 24. 第四章實驗 .............................................................................................................. 26. 4.1 開發環境與實驗資料庫 ...................................................................................... 26. v.

(6) 4.1.1 資料庫和實驗資料來源 ............................................................................ 26. 4.2 實驗設計與評估方法 .......................................................................................... 30. 4.2.1 實驗一 ......................................................................................................... 31. 4.2.2 實驗二 ......................................................................................................... 33. 4.2.3 實驗三 ......................................................................................................... 37. 4.2.4 實驗四 ......................................................................................................... 38. 4.3 實驗總結 ............................................................................................................. 40. 第五章結論 .............................................................................................................. 41 參考文獻 ................................................................................................................. 42. vi.

(7) 圖目錄圖 1 SIFT 的 128 維度特徵描述點示意圖[1]。....................................... 4. 圖 2 SIFT 特徵點中 1/4 的特徵點梯度方向和尺度，右圖為累計至 8 個主方向的結果[1]。.......................................................................... 5. 圖 3 將 RANSAC 過濾後的結果，透過透視變換後可將辨識物體框出。. 9. 圖 4 對映變換示意圖[12]........................................................................ 10. 圖 5 系統架構和流程圖。......................................................................... 13. 圖 6 利用積分影像計算任意大小的矩形強度總和之公式和幾何意義。 .............................................................................................................. 15. 圖 7 利用積分影像和 LoG 方法近似海森矩陣的結果[2]，灰色部分皆為 0。左邊兩張圖片是近似前，右邊兩張是近似後的結果。....... 16. 圖 8 由圖上的表可知，SURF 所使用的 Fast-Hessian 的結果較為精準 [2]。.................................................................................................... 16. 圖 9 為了降低描述值的量，使用特徵點周圍半徑為 6 個尺度大小的 60 度扇形區域[2]。................................................................................ 17. i.

(8) 圖 10 SURF 特徵點描述單元的計算方式示意圖[2]。........................... 18. 圖 11 SIFT 特徵點和 SURF 特徵點在有無雜訊的影像上的差別[2]。. 18. 圖 12 為了找出特徵值而將不同尺度結果沿 Z 軸排列的方式[2]。..... 19. 圖 13 SURF 於不同維度的準確率[2]。................................................... 20. 圖 14 RANSAC 結果示意圖。..................................................................... 22. 圖 15 範例為 16Area 篩選，a 圖和 c 圖為特徵點篩選前的配對結果，b 圖和 d 圖則為篩選後的配對結果。a、b 圖組可看出下方四格的特徵點匹配因與原圖所在的區塊不同而遭剔除，而 c、d 圖組雖是不同圖片，但可看出因文字字型這類特徵點類似情況也可透過 N2Area 篩選。.................................................................................... 24 圖 16 資料庫的書籍封面範例。............................................................... 27. 圖 17 模擬實驗用測試資料集編號前 5 本(由左開始為 1)的縮圖範例。 .............................................................................................................. 28. 圖 18 模擬實驗用測試資料集編號前 5 本(由左開始為 1)的縮圖範例。 .............................................................................................................. 29. 圖 19 實際拍攝資料集的範例。............................................................... 30 ii.

(9) 圖 20 影像縮小比例和 SURF 特徵點運算時間關係圖............................. 32. 圖 21 影像縮小比例和本研究方法的運算時間關係圖........................... 33. 圖 22 經 9Area 篩選後，各圖的正確圖片(Correct)和最接近正確圖片之圖片(Second Best)的 RANSAC 殘留率分布圖，兩者交集主要落在 80%~90%之間。............................................................................... 35. 圖 23 經 16Area 篩選後，各圖的正確圖片(Correct)和最接近正確圖片之圖片(Second Best)的 RANSAC 殘留率分布圖，兩者交集主要落在 70%~90%之間。........................................................................... 35. 圖 24 經 25Area 篩選後，各圖的正確圖片(Correct)和最接近正確圖片之圖片(Second Best)的 RANSAC 殘留率分布圖，兩者交集主要落在 70%~90%之間，且正確圖片的殘留率大部分都落在 90%~80%之間，於圖 22 和圖 23 比較可發現在 25Area 的時候，特徵點匹配的誤判情形有變多的趨勢。.................................................................. 36. 圖 25 各角度的平均 RANSAC 殘留率........................................................ 36. 圖 26 各角度 TOP1 和 TOP5 之準確率，可看出準確度在 15 度以後開始有明顯下降。...................................................................................... 38. iii.

(10) 表目錄表 1 Test data 和 Real data 的準確度結果 .................... 39. iv.

(11) 第一章前言 1.1 研究動機. 書是人類獲取知識的主要來源，一本書的內容往往無法從標題和其前言得知。在書店和圖書館的時候，使用者要判斷一本書是否符合他的需求，以往必須先看過他人的書評或是讀後心得等相關資訊才能加以判斷，而現今隨著網際網路的發展速度越來越快，則可透過網路取得書本的各種資訊甚至是相關連的書籍。可是也由於網路上充斥著各種資訊，在使用者用書籍標題進行搜尋的同時，會得到許多同類且名稱相似的書籍。如此會導致搜尋結果的品質不一，無法快速精準找到所要的書籍和其相關資訊。然而目前許多線上圖書館和網路書城的書籍資料中都有書籍封面，如果能透過書籍封面做為搜尋的依據便可大大降低搜尋的結果數量和提升其搜尋結果的品質，也可因此更精準找到所需的資訊。. 而書籍辨識可以被廣泛的應用在各個領域，例如在教育學習應用上，學生可透過書本辨識快速查詢出書籍是否符合學習上的需求；在商業應用上，書籍辨識可以提供消費者在選購書籍時，可以預先得知相關資訊，避免購買到不是自己需要的書籍；在圖書管理方面，可被應用於圖書館書籍查詢系統，使用者可透過網路上傳書籍封面來查詢。. 1.

(12) 1.2 研究目的. 由於目前各大網路書城和圖書館網站的查詢系統都是透過關鍵字查詢書籍，但是這往往會出現過多類似的資訊使得搜尋成果不彰。但同類型的書籍往往擁有不同封面，所以若是利用書本封面影像來進行搜索，就可避免掉關鍵字查詢所造成的問題，故本研究擬找到一種以書本封面做搜尋的方法。方法是利用加速穩健特徵(Speeded up robust features, SURF)和 RANSAC 來找出兩本書的特徵匹配點，再利用透視變換來提高書本匹配的準確度。. 1.3 研究範圍與限制. 因使用者需要查詢書本資訊應為處於圖書館或是書店等室內空間使用手機即時進行拍攝和查詢，所以本研究以室內空間為實驗環境，採用手機鏡頭拍攝書籍封面影像做為辨識對象並考量使用者在正常拍攝的情況下的書本拍攝情形，限制影像為書本的正面且旋轉角度限制在 0 度到左旋或右旋 25 度之間。. 1.4 論文架構. 本論文共分成五章，第二章為文獻探討，將特徵擷取和影像辨識之相關的技術方法提出來討論；第三章為研究方法，深入探討整體架構流程、理論以及方法，第四章為實驗，第五章為結論。. 2.

(13) 第二章文獻探討主要是在探討圖片特徵擷取以及取得每張圖片中書籍的位置和如何辨識只拍攝到部分書籍封面的相關技術，本論文將相關文獻分成下列三類：（1）特徵點取得方式和特徵點匹配方法（2）透視變換(Perspective Transformation) （3）特徵點匹配的評估方法，比較本研究與相關文獻之方法技術與應用。. 2.1 特徵點取得方式. 在電腦視覺以及影像處理的領域中，對於特徵點偵測已有相當多且成熟的方法被提出，而較常見的方法為找出「角」或「區塊」的特徵，再根據這些特徵的位置來計算特徵描述單元。近年來著名的方法有：（1）尺度不變特徵轉換 (Scale-invariant feature transform, SIFT)[1]（2）加速穩健特徵(Speeded up robust features, SURF)[2] （ 3 ） Feature from Accelerated Segment Test(FAST)[3]。上述提及的三種方法，SIFT 和 SURF 具有尺度不變性，而 FAST 則是三種方法中，速度最快的一種方法。. 2.1.1 尺度不變特徵轉換(SIFT). SIFT 方法是近年來最著名的特徵點擷取方法之一，SIFT 的核心想法是模擬人眼視網膜在辨識不同影像的作法，因為特徵點會出現在物體的邊緣處，所以其取特徵點的概念流程是使用近似於高斯差分(Difference of Gaussian)來計 3.

(14) 算得到可能為邊緣的特徵點，再對影像不同尺寸做高斯模糊後所得的結果相減，藉此取代原本計算量繁複的高斯拉普拉斯轉換(Laplacian of Gaussian)並取得特徵點的位置。再利用類似 Harris 角點偵測的方式，來找出特徵點的方向。. 由於 SIFT 為了提升特徵點在對光變化和角度變化的容忍度，採用生物對於梯度變化可視為是某種頻率和方向的表示的概念，所以 SIFT 的特徵描述是透過特徵點周圍區域梯度值的統計結果來描述一個由 128 維度所構成的描述向量。如圖 1 左半部所示，特徵描述的方法是先以特徵點為中心，擴張出四個 8*8 的區域並計算其梯度。將每個區域分別劃分成四個 4*4 的小區域並分別計算八個方向的梯度方向直方圖並結合每個梯度方向的累計值形成關鍵點描述單元 (Keypoint Descriptor)，如圖 2 所示。將所有結果結合即可構成一個 128 維度(4*4*8)的特徵點的描述向量。. 圖 1 SIFT 的 128 維度特徵描述點示意圖[1]。 4.

(15) 圖 2 SIFT 特徵點中 1/4 的特徵點梯度方向和尺度，右圖為累計至 8 個主方向的結果[1]。. 2.1.2 加速穩健特徵(SURF). SURF 是由 Bay 的研究[2]所提出之方法。相較於 SIFT 使用高斯差分，SURF 則是使用海森矩陣行列式(Determinant of Hessian)來計算特徵點所在的位置，並使用 Box filters 逼近海森矩陣行列式。SURF 會預先建立數個不同尺度的核心濾波器，透過這樣的做法可以相對避免掉 SIFT 中對每張圖都做縮放和建立特徵以及不同尺度相減所花費的大量計算。關於 SURF 的詳細做法，本論文會在第三章再加以說明。. 2.1.3 FAST 和其相關的改良方法. FAST 在選取特徵點上是一種比 SIFT 和 SURF 更快可以找出特徵點的方法，但是 FAST 不同於 SIFT 和 SURF 的是，FAST 並不具有尺度的不變性。. 5.

(16) FAST 的做法是首先對每一點的特定範圍內(通常為 9 個點，FAST-9)的像素灰度差異是否大於閥值(Threshold)來決定該點是否為特徵候選點。接著利用角點偵測(Corner Detection)判斷具有角度變換的區域，並決定這些區域的狀態為較暗、相似、較亮(-1，0，1)三種中的其中一種。最後利用非極大值抑制 (Non-Maximum Suppression)，將不是最大值的點移除，藉此得到正確的特徵點。. 做為一個快速的特徵點取得方法，也有許多以 FAST 為基礎的方法，例如 AGAST[4]、FASTER[5]、BRISK[6]、BRIEF[7]。. BRIEF 的做法是先對已知的特徵點取出一個大小固定的區域且對該區域影像作高斯模糊，再利用 BRIEF 提出的τ測試，隨機選取不同位置的亮度二元值，可得到一個預設大小為 64 位元組的二元字串(brief-64)。因為是二元字串，在配對時是採用漢明距離(Hamming distance)來作相似度的分析，但是 BRIEF 的特徵描述單元並沒有提供尺度和角度的資訊。. ORB(Oriented BRIEF)[8]則是為了使 BRIEF 具有旋轉不變性所提出來的改良方法。同時對於 BRIEF 在無法處理尺度變化的問題，也提出了利用尺度金字塔來產生數個不同尺度的 FAST 特徵點，但由於 ORB 使用的 Harris 角點測量 (Harris corner measure)[9]並不具有尺度不變性，所以必須每個不同尺度都計算一次。最後用 Intensity Centroid 對每個特徵點計算角點的方向來計算出. 6.

(17) 特徵點方向描述，並且利用機器學習的方法(PCA)將變異數相對小的特徵組成成分排除後，得到特徵點描述單元 rBRIEF。另外 ORB 也使用了考慮方向的 oFAST(Oriented FAST)和利用積分圖(Integral Image)來改良二值化τ測試的抗噪能力。. BRISK(Binary Robust Invariant Scalable Keypoints)[6] 是一個採用 AGAST(Adaptive and generic corner detection based on the accelerated segment test)[4]的 FAST 改良方法，BRISK 透過建立二元搜尋樹和另外設置三個與記憶體存取時間相關的參數，並使用深度優先搜尋法(Depth First Search) 和動態規劃(Dynamic Programming)所建立的最佳化決策樹做為加速的方法，進一步的改善了 FAST 的速度。BRISK 在取特徵點時，使用尺度空間特徵點偵測 (Scale-Space Keypoint Detection)計算特徵點讓 BRISK 的特徵點具有尺度不變性。BRISK 的特徵點描述單元是可參數化的，方法是根據 DAISY[10]的影像濃度特徵描述來設計的。首先對於每個尺度特徵點都取出 60 個固定位置的參考點並且每個參考點皆對特徵點作以距離為權重的高斯模糊，再計算參考點配對的局部梯度值得到特徵方向。特徵描述部分則是結合了類 BRIEF 和類 ORB 但可更快得到結果的方法，方法是使用加入旋轉變量α(類 ORB)的τ測試(類 BRIEF)來取得一個 512 位元長度的描述單元，因為是採用固定的參考點所以在作高斯模糊時而有失真的問題產生，加上參考點數少於 BRIEF 也使得計算速度可以得到 7.

(18) 提升。. 2.1.4 特徵點匹配. 了解特徵點的取得過程和其意義後，經由研究發現由於每種特徵點描述單元的資料形態都不相同，要精準且快速的找到匹配的特徵點就必須要先定義何謂有效的相似度。舉例來說，SIFT 是 128 維度的浮點數構成的描述向量，通常都會採用歐式距離(Euclidean distance)來計算特徵點的相似度，特徵點描述單元是使用二元值的 ORB 和 BRISK 則會使用漢明距離來計算特徵點的相似度。而在擷取書本封面影像的特徵點時往往可取得的特徵點數量會相當多，所以使用 FLANN Base Matcher 會是較為有效的做法。另外考慮到 FLANN 在進行配對時，往往會有許多不是配對的特徵點也因 FLANN 的演算法而被配對而影響準確率，所以為了提升匹配的品質和準確度[24]，可以使用 RANSAC[11][26]的方法來有效的刪除離群值。. 2.2 透視變換. 在 RANSAC 進行特徵點篩選後，藉由書本幾乎為四邊形的特性，可使用透視變換(PerspectiveTransformation)[12][13]將兩張圖片中書本的大致位置取出，並將結果做更進一步的特徵點篩選和匹配，如圖 3 所示。. 8.

(19) 圖 3 將 RANSAC 過濾後的結果，透過透視變換後可將辨識物體框出。. 透視變換，又稱為投影映射(Projective Mapping)，是一種利用投影矩陣將圖片投影到另一個 Viewing Plane 的方法，基礎的變換公式[12]如下：. [X ′. a11 , Y , W′] = [u, v, w] �a21 a31 ′. a12 a22 a32. a13 a23 � a33. 其中(u,v)為原始圖片的點，(X,Y)為(u,v)投影映射於另一圖片上的點，則 X=. X′. W′. =. a 11 u+a 21 v+a 31 a 13 u+a 23 v+a 33. ， Y=. Y′. W′. =. a 12 u+a 22 v+a 32 a 13 u+a 23 v+a 33. 。. 所以如果知道一張圖上的數個點和其透視變換後所對應的點即可計算出透視變換的變換公式。但是因為求解的過程中需計算繁複的 8*8 矩陣，所以 Heckbert 在其研究[12]中更進一步的提出了一個節省運算的做法。因為單位正方形(unit square)和任一四邊形在進行透視變換矩陣運算時是一種特殊案例. 9.

(20) (special case)，運算過程相對容易許多，故只需要在四邊形 A 和四邊形 B 透視變換的過程加入一個單位正方形，分別計算出單位正方形(unit square)和四邊形 A、四邊形 B 兩者的透視變換矩陣，再透過單位正方形做兩次的透視變換就可將四邊形 A 快速的透視變換為四邊形 B，過程如圖 4 所示。. 圖 4 對映變換示意圖[12]. 2.3 特徵點匹配的評估探討. 評估特徵點匹配的方法從 SIFT 開始就陸續有許多論文有相關的探討和實驗，早期如 Mikolajczyk 的研究[25]中，他提出一個透過位置變化量和方向分布來改善 SIFT 的方法，稱為 GLOH(Gradient Location And Orientation Histogram)。Mikolajczyk 的實驗主要在於比對 SIFT、PCA-SIFT 和 GLOH 在映射、旋轉、縮放、光影變化、模糊等情況下的結果，其使用的比較方法為先透過其自定的特徵點相似度閥值過濾掉相似度低的特徵點，再透過查準率 10.

(21) (precision)和查全率(recall)來計算特徵點和所有取得點的關係。實驗的結論為 SIFT 在大多數的情況下表現其他兩者好，而 GLOH 卻沒有因為多計算位置變化和方向分布而有較好的表現。. Juan 的研究[26]並未提出自己的方法，而是將 SIFT、SURF 和 PCA-SIFT 透過 KNN(K-Nearest Neighbor)來進行特徵點的匹配，再利用 RANSAC[11]過濾離群值的點。三者比較後的結果，SIFT 在處理旋轉和尺度變化的情況表現最好， SURF 則是三者中速度最快且在有光暗變化情況下下有較高的匹配度。. 2012 年 Miksik 的研究[19]則將 SIFT、SURF、FAST、BRIEF、BIRSK 和 ORB 等方法透過 KNN(K-Nearest Neighbor)來進行特徵點的匹配，匹配準確度的評估則是採用重複率(Repeatability score)和全準率(Precision-Recall)來做為評估的準則，另外 Miksik 同時也嘗試透過比較特徵點計算速度和記憶體使用量的結果來對上述方法做速度方面的探討。結果顯示，在速度上由於 BRIEF 和 ORB 的特徵描述元是 32 Bytes[7][8][19]，所以在速度上明顯比特徵描述元為 128 Bytes 的 SIFT[1]和 64 Bytes 的 SURF[2]來得快，同時計算所需要的記憶體也是所有方法中最少的。但是在重複率和全準率的表現上，SIFT 和 SURF 仍然優於其他的方法。. 11.

(22) 第三章研究方法本研究提出一個透過利用 SURF 和 RANSAC 來找出兩本書的特徵匹配點，再利用透視變換來提高書本匹配的準確度。先使用 SURF 特徵點偵測建立資料庫中書籍封面的特徵點，再將使用者拍攝的照片做前處理和特徵點偵測後，使用 FLANN 進行特徵點匹配，最後再使用本研究所提出的 RANSAC 篩選法將特徵點匹配篩選的結果透過基於重複率(Repeatability score) [19]的改良方法做為評估的準則並找出最終相符的結果。. 本章將分成 4 個小節，3.1 節為系統架構，說明本研究之系統架構及流程， 3.2 節為前處理，3.3 節為 SURF 介紹與其特徵點偵測，3.4 節為特徵點匹配。. 3.1 系統架構. 本論文建立一個以正面拍攝的書籍封面的資料庫做為比對的依據，以室內空間為實驗環境，使用手機鏡頭拍攝大小的書籍封面圖片做為主要的辨識對象，透過拍攝不同於比對資料庫內的角度的書籍封面圖片，驗證本論文所提出的方法是否能辨識使用者在日常生活中拍攝的圖片，並考慮因使用者拿起拍攝時，書本旋轉的角度和用手拿起而導致遮蔽到部分書籍封面的情形，流程如圖 5 所示。. 從使用者獲得拍攝的照片後，先將照片縮放至固定的大小，再對其作灰階 12.

(23) 轉換和尺寸縮小的前處理，並對處理過的照片做 SURF 特徵點偵測。與資料庫的特徵點比對步驟可分為三步，第一步是用 FLANN 做初步的特徵點比對。第二步則是在 FLANN 的結果上，使用 RANSAC 演算法對第一步之結果做更進一步的篩選。第三步是利用 RANSAC 的結果計算出透視變換矩陣，並利用透視變換矩陣的方框對特徵點匹配做最後的篩選。將最後篩選的結果根據 Miksik 研究 [19]中，用來比較常用的區域特徵比對演算法的重複率所更改的類重複率當做最佳匹配結果選擇，計算該次特徵點匹配的類重複率，最後取所有匹配結果中最高者作為最佳的匹配結果。. 圖 5 系統架構和流程圖。 13.

(24) 3.2 前處理. 由於拍攝的照片通常像素值過高，會導致特徵值的計算量過於龐大，所以統一將從讀入的影像大小縮小至一定比例。為了避免光線強弱影響色彩，將讀入的影像（𝐼𝐼𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 ）根據 IT-R Recommendation BT. 709[14]，進行灰階轉換，轉換公式如下：. 𝐼𝐼𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔 (𝑥𝑥, 𝑦𝑦) = 0.2126 ∗ 𝐼𝐼𝑅𝑅 (𝑥𝑥, 𝑦𝑦) + 0.7152 ∗ 𝐼𝐼𝐺𝐺 (𝑥𝑥, 𝑦𝑦) + 0.0722 ∗ 𝐼𝐼𝐵𝐵 (𝑥𝑥, 𝑦𝑦) 其中𝐼𝐼𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔 (𝑥𝑥, 𝑦𝑦)為原始影像（𝐼𝐼𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 ）上(𝑥𝑥, 𝑦𝑦)位置的像素值經過轉換後的結果， 𝐼𝐼𝑅𝑅 、𝐼𝐼𝐺𝐺 、𝐼𝐼𝐵𝐵 分別表示紅、綠和藍各個通道的像素值。 3.3 加速穩健特徵（SURF）. 本研究需考慮角度、縮放、旋轉等因素的影響，所以使用具有尺度不變性的方法。由於擬做到即時檢索的能力，故選擇使用速度較 SIFT 快的 SURF 來計算影像的特徵點。SURF 速度能比 SIFT 快的原因就在於使用積分影像來減少在計算海森矩陣(Hessian Matrix)所花費的時間[15]。. 3.3.1 積分影像（Integral Image）. 積分影像[15]是對於一張積分影像(IΣ(x))上位於(𝑥𝑥, 𝑦𝑦)位置的點之值可用左. 上方所有像素的總和來表示，即：. 14.

(25) IΣ(x) =. �. 𝑥𝑥 ′ ≤𝑥𝑥,𝑦𝑦′ ≤𝑦𝑦. 𝐼𝐼𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔 (𝑥𝑥′, 𝑦𝑦′). 上式中𝐼𝐼𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔 (𝑥𝑥, 𝑦𝑦)代表輸入的灰階影像。如圖 6 所示，透過積分影像，SURF 在計算任何大小的矩形內的強度(intensities)總和只需要使用四個變數的加減法即可做到。. 圖 6 利用積分影像計算任意大小的矩形強度總和之公式和幾何意義。. 3.3.2 基於積分影像的海森矩陣（Hessian Matrix）. 對於一張影像中，尺度為σ的點X，其海森矩陣可表示為：. H(X, σ) = �. LXX (x, σ) LXy (x, σ). LXy (x, σ) � Lyy (x, σ). LXX (x, σ), LXy (x, σ), Lyy (x, σ)皆為作高斯濾波後，圖像g(σ)在X方向的二階導數。利用 Box filters 和 Lowe 的高斯拉普拉斯 LoG(Laplace of Gaussian)[15] 逼近海森矩陣並使用積分影像的幫助可以大幅降低運算時間[20]，結果如圖 7 15.

(26) 所示。而對於影像旋轉的 Repeatability Score，這樣做也有較好的表現，如圖 8 所示。. 圖 7 利用積分影像和 LoG 方法近似海森矩陣的結果[2]，灰色部分皆為 0。左邊兩張圖片是近似前，右邊兩張是近似後的結果。. 圖 8 由圖上的表可知，SURF 所使用的 Fast-Hessian 的結果較為精準[2]。. 3.3.3SURF 特徵點和其特徵點描述單元. SURF 的特徵點和 SIFT 相同，一樣是採用一組特徵點的最大方向和一個固定維度的特徵點描述向量，但是 SURF 為了減少描述向量方向的計算量而改變了特徵點描述單元的取得方法，不過仍舊保持和 SIFT 相同在主方向對局部特徵的. 16.

(27) 依賴性。SURF 為了降低描述值的量，使用特徵點周圍半徑為 6 個尺度大小的 60 度扇形區域，如圖 9 所示。. 圖 9 為了降低描述值的量，使用特徵點周圍半徑為 6 個尺度大小的 60 度扇形區域[2]。. 接著使用 Haar 小波特徵的水平和垂直響應總和，小波波長為 4 個尺度，每次計算 5 度，計算完後以最大的響應方向記作特徵方向。接著以特徵點為中心，建立一個長寬 20 尺度的方形並將其分成 4*4 個區域，如圖 10 左半部所示。每個區域內取出 5*5 個像素點的相對於主方向的水平和垂直小波特徵值和以及絕對值和，一共 4 種特徵描述，這樣就構成了 64 維度(4*4*4)的特徵點描述單元，如圖 10 右半部所示。同時 SURF 在上述的特徵描述方法下，可以從圖 11 的比較來看出，SURF 在處理有雜訊的影像時也比 SIFT 具有較高的容忍度。. 17.

(28) 圖 10 SURF 特徵點描述單元的計算方式示意圖[2]。. 圖 11 SIFT 特徵點和 SURF 特徵點在有無雜訊的影像上的差別[2]。. 為了找出特徵點，SURF 提出了一個對於 3*3*3 的鄰近區域作非極大值抑制 (non-maximum suppression)並結合 Neubeck and Van Gool 的研究[17]作為特徵點判斷的依據。如圖 12，再將海森矩陣所算出的不同尺度結果由小至大沿 Z 軸方向排列，最後使用 Brown and Lowe 研究[18]中提出的方法來找出特徵點。. 18.

(29) 圖 12 為了找出特徵值而將不同尺度結果沿 Z 軸排列的方式[2]。. SURF 可利用改變特徵點描述單元的維度來配合相關應用。SURF 特徵點描述單元可將維度提升到和 SIFT 一樣的 128 維度，其做法是將 SURF-64 的 ∑ |dx | 和 ∑ dx 依據dy < 0 或dy ≥ 0 來分開計算，而對於∑ |dy | 和 ∑ dy 也相對依據. dx < 0 或dx ≥ 0來分開計算。SURF-128 在計算特徵點時和 SURF-64 相比只慢一. 點(原文為: not much slower to compute)，根據實驗結果顯示出，其維度為. SURF-64 的兩倍導致在進行特徵點匹配的時候會明顯比 SURF-64 慢上許多，但卻沒有因此而大大提高準確率。相對於提高維度來提升準確率，Bay 也嘗試透過將 SURF 特徵點描述單元的維度降低來加快特徵點匹配的速度。他將 SURF 特徵點描述單元的維度降低至 16、32、36 三種，可以從 SURF 的實驗結果，圖 13 顯示出，SURF-36 在準確度的部分比 SURF-64 較為遜色，但是在特徵點匹配的速度比 SURF-64 快上許多。[2]. 由於本研究的目的是希望能做到利用圖像進行檢索，須要能較快速得到結 19.

(30) 果的方法，所以採用 SURF-36 為特徵點描述單元來改善特徵點匹配時的速度。. 圖 13 SURF 於不同維度的準確率[2]。. 3.4 特徵點匹配和篩選. 本研究使用的特徵點匹配方法使用最接近距離法(NN, Nearest Neighbor)，因為是兩個最接近的候選點比較距離並以門檻值作過濾是比較好的方式[2]。但 20.

(31) 經過 NN 配對後仍發現會有不屬於書籍封面的群外值，以本研究的應用來看，即為可能存在於背景的其他書籍封面、背景本身，故引進隨機抽樣一致性(RANSAC) 過濾掉這些配對錯誤的特徵點。接著本研究利用書本封面皆為矩形的特徵，利用透視變換做進一步的篩選。. 3.4.1 最接近距離法(NN)和 RANSAC. 在找到特徵點後，本研究根據 Lowe 的建議使用最接近距離法。NN 的方法是找出鄰近的兩個相似點，過濾掉距離差異小於一定門檻的特徵，但由於本研究的應用需考慮到辨識的圖片可能存在有其他書籍封面和背景本身的干擾，所以使用了 RANSAC 方法來除去不在對比影像範圍內的群外值來提升準確度。 RANSAC 的做法是先在對比的圖片的特徵點中隨機取出 n 個點計算出 model parameters ，如果有對比圖片的特徵點和 model 的誤差小於該 model 的 threshold，則將其加入 Consensus set 中，即表示此點為內群(inliers)。重複 N 次後，如果超過一定數量的點在 Consensus set 中則表示此 model 為可行之 model，最後將上述步驟重複一定次數找出誤差最小的 model 即為 RANSAC 的結果，結果如下圖所示。. 21.

(32) 圖 14RANSAC 結果示意圖。. 3.4.2 𝐍𝐍 𝟐𝟐 Area 篩選和 RANSAC 殘留率(RANSAC Remain Rate) RANSAC 篩選因其演算法的關係，會出現兩張圖雖有成功的配對點但是從圖中的相對位置來看卻是落於不同的區域內，如圖 15 中的 a 圖和 c 圖所示。利用書本大部分為矩形的特性，可將特徵點的相對位置分成於書本內和書本外，且書本內的特徵點也可更進一步劃成等份區塊來做判斷，如果特徵點落於不同的區塊內便可將其列為錯誤的配對。所以本研究提出一個篩選方法稱為N2 Area 篩選，利用書本封面大部分為矩形的特性和上一節 RANSAC 篩選的配對特徵點計算的兩張圖片間透視變換矩陣(perspective matrix)[12]，透過此法將上述之配對錯誤的特徵點剔除。. 首先，將資料庫的書本封面圖分成N2 份(N > 2)，稱為N2 Area，將各矩形 22.

(33) 的四頂點座標利用透視矩陣對映至目標圖片上，如圖 15 的 a 圖所示。接著檢查所有配對的特徵點是否各自落在兩張圖片同對映區塊內，如果不是則將該配對剔除。最後N2 Area 篩選的結果如圖 15 的 b 圖所示。而圖 15 的 c 圖和 d 圖則可看出，RANSAC 在相似度高的特徵點情況會將特徵點做匹配(在這個例子上為圖中文字字型)，但實際上來看匹配的特徵點所坐落的區域不同，所以不應該被匹配在一起。. 篩選過的 RANSAC 配對特徵點即為處於書本封面內且為同區域的特徵點，利用本研究提出之 RANSAC 殘留率(Remain Rate)可算出其與 RANSAC 結果之比例。比例越高者，則代表該圖為正確配對的可能性越高。下列算式為 RANSAC 殘留率 (Remain Rate)的計算方式:. RANSACRemainRate =. RANSAC𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚ℎ 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅 𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅. 故本研究可使用 RANSAC 殘留率做為篩選圖片的閾值(Threshold)，並藉此對於在 RANSAC 無法檢驗到的細部對配對特徵點做更進一步的篩選，來達到提升準確率的目的。. 23.

(34) 圖 15 範例為 16Area 篩選，a 圖和 c 圖為特徵點篩選前的配對結果，b 圖和 d 圖則為篩選後的配對結果。a、b 圖組可看出下方四格的特徵點匹配因與原圖所在的區塊不同而遭剔除，而 c、d 圖組雖是不同圖片，但可看出因文字字型這類特徵點類似情況也可透過N2 Area 篩選。. 3.4.3 基於重複率(Repeatability score)的評估準則. 本研究對圖片匹配結果的評估準則是採用 Miksik 研究[19]中用來判斷常用的區域特徵比對演算法優劣的方法。其所提出的重複率 (Repeatability score)[19]主要是依據配對點是否有正確配對和匹配的數量多寡[25]來設計的， 24.

(35) 這樣設計主要在避免最接近距離法取出的匹配點過少但 RANSAC 篩選下皆屬於正確配對的情形，同時對於本研究的研究對象來說正好相符合。但因為 Miksik 所提出的重複率的分子部分是使用 RANSAC 篩選的結果，而本研究則是於 3.4.2 節有進一步改善 RANSAC 篩選的過程，所以計算式中分子的部分改為 RANSAC 和基於透視變換的N2 Area 篩選法的匹配特徵點數量，計算的式子為 R=. R+ R∗. 其中，R+為經由 RANSAC 和基於透視變換的N2 Area 篩選法的匹配特徵點數量， R∗ 為最接近距離法所選出的匹配特徵點數量。. 25.

(36) 第四章實驗本章的實驗將分成兩個部份，一共四個實驗來驗證本研究所提出之方法的成效和可行性。第一部份，是影像縮小對於實驗的速度成效驗證和基於 RANSAC 改良法所制定的閾值範圍實驗；實驗的第二部分，則是測試本研究提出之方法在實際場景的準確度，在使用者將書本拿起進行拍攝的情況下，驗證本研究提出之方法和實驗第一部分中閾值對於本研究方法的準確率影響程度。. 4.1 節會先針對開發環境和使用資料庫的說明；4.2 節則會說明實驗的內容、目的、評估的計算方式和其結果與分析；4.3 節為實驗總結。. 4.1 開發環境與實驗資料庫. 本研究使用 OpenCV 2.4.6 做為開發的主要 Library 配合實做出 FLANN 的 Boost C++ Library。前置處理會先將影像的 SURF 特徵值用 XML 檔案格式儲存以避免硬碟重複讀取和重複計算資料庫特徵點所造成的時間損失。. 4.1.1 資料庫和實驗資料來源. 本研究有一個資料庫、兩個實驗用資料集和一個使用者實際拍攝的資料集。資料庫為比對用資料庫，主要做為實驗中的正確數據。兩個實驗用資料集，一個是用比對資料庫產生的模擬實驗用測試資料集和另一個為實際環境下拍攝所. 26.

(37) 收集的實際拍攝資料集。最後一個使用者實際拍攝的資料集是用在驗證本論文所提出的方法是否能適用於一般生活中並用於比較與實驗資料集的數據差別。. 本研究實驗用的比對資料庫是從 Open Library[21]、Cover Browser[22] 和 Amazon[23]三個網站所下載的書籍封面 1000 本作為比對用資料庫，每張圖片皆為掃描的書本封面。因為每本書的長寬比例不一致，所以每張圖片的大小也不盡相同，資料庫中圖片尺寸在 500 X 600 到 500 X 400 之間，圖 16 為比對用資料庫的縮圖範例。. 圖 16 資料庫的書籍封面範例。. 模擬實驗用測試資料集，如圖 17 所示，主要為比對用資料庫中挑選出兩百張不重複的書本封面，並考量使用者在實際拍攝下的書籍封面角度的可能旋轉範圍將選出的圖片做實際可能出現的旋轉角度。本實驗集將包含下列幾種旋轉角度：無旋轉、5 度、10 度、15 度、20 度、25 度，角度若再繼續傾斜，考量. 27.

(38) 到與現實使用者的使用情況不符合，故不列入範圍內。. 圖 17 模擬實驗用測試資料集編號前 5 本(由左開始為 1)的縮圖範例。. 實際拍攝資料集，如圖 18 所示，影像取得方式為在圖書館的室內環境中使用手機鏡頭拍攝 150 本固定為正面且無歪斜不重複的書籍封面，影像均採用同一背景和只存在一本書籍，旋轉的角度則如同模擬實驗的測試資料集一樣。. 28.

(39) 圖 18 模擬實驗用測試資料集編號前 5 本(由左開始為 1)的縮圖範例。. 使用者實際拍攝的資料集是根據日常生活中，使用者拍攝一本書籍封面時會往往都將書本用手直接拿起進行拍攝的假設下所收集的測試資料。本研究將. 29.

(40) 場景設計在室內環境下並且每張影像中只存在一本書籍的情況下，請使用者用下列五種方法隨機拿起書本：左手握住書的左下角、左手握住書背中間、右手握住書的右下角、右手握住書背中間以及用手握住書的上方；限制使用者拿起書籍並使用手機拍攝的旋轉角度範圍為 0 度至 15 度之間的隨機角度，最後採計 10 位使用者、100 本不同書籍，總共 120 張影像，如圖 19 所示。. 圖 19 實際拍攝資料集的範例。. 4.2 實驗設計與評估方法. 本節為解釋每個實驗的目的、流程、使用的資料來源、資料數量以及所使 30.

(41) 用的分析評估方法。本研究的實驗分成兩部分，一共有四個，第一部分為(1) 影像尺寸對於執行速度的影響(2) 閾值實驗；第一部分為(3)模擬情況的準確率實驗 (4) 實際情況的準確率實驗. 4.2.1 實驗一. 由於實驗用的影像皆使用像素為 2070 萬畫素的手機鏡頭進行拍攝，所以原始取得的影像大小為 2160 X 3840，而在執行 SURF 和 RANSAC 時，則會因為特徵點的多寡影響運算的速度，考慮到本研究的比對用資料庫的圖片尺寸多為 500 X 600 的圖片和使用者拍攝的影像中必定有背景，所以將原始圖片縮小為 540 X 960(原始圖片的 25%)，則可大致符合比對用資料庫中的圖片尺寸，同時應可加快運算的速度，故本實驗的目的在於驗證不同尺寸的相同輸入資料對於本研究提出之方法的速度影響。使用同一張圖片將其尺寸調整 4 個比例，分別為 100%、75%、50%和 25%後再對資料庫進行本研究之方法比對並計算時間，而此實驗所採取的時間評估方法為使用 OpenCV 中的 getTickCount 函式和 getTickFrequency 函式來計算時間，計算方式為. 時間差 =. TickCount 後 − TickCount 前 𝑇𝑇𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖. 本實驗嘗試透過縮小輸入圖片來減少本研究方法的計算量，而四個不同尺寸比例的圖片實驗結果如下圖所示，圖 20 的橫軸為影像縮小比例，縱軸單位為 31.

(42) 與原圖相比的花費時間比例。圖 20 可以明顯看出縮小輸入圖片的比例可以降低在特徵點的運算時間。圖 21 為運算後和比對用資料庫中的 1000 張圖片進行 RANSAC 和N2 Area 篩選所花費的平均時間，可看出沒有明顯的改善，更進一步的去觀察篩選後的特徵點數量，發現在四個尺寸的特徵點數量在經過篩選後並沒有太大的差異，所以可以推論縮小圖片尺寸主要在於降低 SURF 取特徵點的時間，而且 25%尺寸比例的圖片可以減少 80%左右的運算時間，所以後續實驗皆採取先將原圖縮小至 25%比例再進行運算。. 100%(13.82秒). 花 100% 費 90% 時 80% 間與 70%. 78%(10.82秒). ( 原圖相比. 60% 50%. 38%(5.31秒). 40%. ). 30%. 19%(2.56秒). 20% 10% 0% 100%(2160X3840). 75%(1620X2880). 50%(1080X1920). 圖 20 影像縮小比例和 SURF 特徵點運算時間關係圖. 32. 25%(540X960).

(43) 3 2.5 2 秒 1.5 1 0.5 0 100%(2160X3840). 75%(1620X2880). 50%(1080X1920). 25%(540X960). 影像縮小比例. 圖 21 影像縮小比例和本研究方法的運算時間關係圖. 4.2.2 實驗二. 在透過 RANSAC 和N2 Area 篩選後，可剔除不在同一區域的匹配點。透過 3.4.2 節所提出的 RANSAC 殘留率做為閾值，藉此對於在 RANSAC 無法檢驗到的細部對配對特徵點做更進一步的篩選，來達到提升準確率的目的。而本實驗的目的是利用模擬實驗用測試資料集的圖片，以本研究所提出之N2 Area 篩選對該測試資料進行篩選(N 分別取 3、4、5 三種)，將篩選過的匹配結果做 RANSAC 殘留率(Remain Rate)的計算，再分別計算各角度之正確圖片(Correct)的平均 RANSAC 殘留率和扣除正確圖片後的所有圖片中 RANSAC 殘留率最好的結果圖片 (Second Best)之平均後，以兩者平均 RANSAC 殘留率中交集的最低值作為閾值。 33.

(44) 接下來的三張圖為實驗結果，橫軸為圖片編號，縱軸為 RANSAC 殘留率，菱形代表正確圖片(Correct, C)的平均 RANSAC 殘留率，方形則為扣除正確圖片後的所有圖片中 RANSAC 殘留率最好的圖片(Second Best, SB)之平均。. 由下面三張實驗結果可以得知，正確圖片在 9Area 篩選和 16Area 篩選的殘留率分布大多集中在 1.0~0.9 的區間，而 25Area 篩選的結果卻是分散於 1.0~0.6 之間，初步判斷應是分成 25 個區塊使得每個區塊太小而造成誤判把不應剔除的配對剔除，這個問題會在 4.2.3 的實驗中做進一步的驗證。至於閾值的判斷，綜合圖 25 的平均值折線圖來看，可以從 Correct 的平均值坐落於 0.95~0.80 之間和 Second Best 的平均值坐落於 0.65~0.45 之間的情況推論出 Correct 和 Second Best 之間如果有較多交集的區域應該為 0.80~0.50 之間，若只對圖片做 9Area 篩選或 16Area 篩選分割的話，可將範圍縮小至 0.80~0.55 之間。但為了繼續驗證 25Area 篩選的準確率，本研究將閾值設為 0.5。. 34.

(45) 100% 90% 80% 70% 殘留率. 60% 50% 40%. Correct. 30%. Second Best. 20% 10% 0% 0. 25. 50. 75. 100. 125. 150. 圖片編號. 圖 22 經 9Area 篩選後，各圖的正確圖片(Correct)和最接近正確圖片之圖片(Second Best)的 RANSAC 殘留率分布圖，兩者交集主要落在 80%~90%之間。 100% 90% 80% 70% 殘留率. 60% 50% 40%. Correct. 30%. Second Best. 20% 10% 0% 0. 25. 50. 75. 100. 125. 150. 圖片編號. 圖 23 經 16Area 篩選後，各圖的正確圖片(Correct)和最接近正確圖片之圖片(Second Best)的 RANSAC 殘留率分布圖，兩者交集主要落在 70%~90%之間。. 35.

(46) 100% 90% 80% 70% 殘留率. 60% 50% 40%. Correct. 30%. Second Best. 20% 10% 0% 0. 25. 50. 75. 100. 125. 150. 圖片編號. 圖 24 經 25Area 篩選後，各圖的正確圖片(Correct)和最接近正確圖片之圖片(Second Best)的 RANSAC 殘留率分布圖，兩者交集主要落在 70%~90%之間，且正確圖片的殘留率大部分都落在 90%~80%之間，於圖 22 和圖 23 比較可發現在 25Area 的時候，特徵點匹配的誤判情形有變多的趨勢。 100% 95% 90% 85% 殘留率. 80%. 9 Area_C. 75%. 16 Area_C. 70%. 25 Area_C. 65%. 9 Area_SB. 60%. 16 Area_SB. 55%. 25 Area_SB. 50% 45% 0°. 5°. 10°. 15°. 20°. 角度變化. 圖 25 各角度的平均 RANSAC 殘留率. 36. 25°.

(47) 4.2.3 實驗三. 本實驗的實驗目的為使用以實際拍攝資料集和比對用資料庫對本研究提出之辨識法進行準確率的評估。利用本研究之書籍辨識方法進行辨識，分別計算資料集中每張圖片和資料庫圖片匹配的結果，再經實驗二的閾值篩選後去計算準確率。準確率的計算方式則是使用 3.4.3 節中本研究提出的類重複率做為評估準則。將各圖片之類重複率取第一名(TOP 1)和前五名(TOP 5)，判斷正確對應的圖片是否於其中，並藉此計算出準確率。. 從圖 26 來看，雖然 25Area 篩選的準確度在對比的圖片無旋轉的情況與 9Area 篩選和 16Area 篩選並無太大差異，但是在有旋轉的狀況下，TOP1 和 TOP5 的準確度明顯劣於 9Area 篩選和 16Area 篩選。就實驗數據的整體而言，旋轉角度超過 15 度後，則本研究提出的方法準確率越低，所以實驗四的研究將著重在 0 度到 15 度之間。. 37.

(48) 100% 98% 96% 94% 準 92% 確 90% 率 88% 86% 84% 82% 80%. 9 Area_TOP1 16 Area_TOP1 25 Area_TOP1. 0°. 5°. 10°. 15°. 20°. 25°. 角度變化. 100% 98% 96% 94% 準 92% 確 90% 率 88% 86% 84% 82% 80%. 9 Area_TOP5 16 Area_TOP5 25 Area_TOP5 0°. 5°. 10°. 15°. 20°. 25°. 角度變化. 圖 26 各角度 TOP1 和 TOP5 之準確率，可看出準確度在 15 度以後開始有明顯下降。. 4.2.4 實驗四. 本實驗的實驗目的為使用以使用者實際拍攝的資料集和比對用資料庫對本研究提出之辨識法進行準確率的評估。實驗進行的方法和 4.2.3 相同，不同的地方為最後將各圖片之類重複率取第一名(TOP 1)和前五名(TOP 5)之準確率後，. 38.

(49) 和 4.2.3 所有數據的準確率做比較，可測試本研究所提出之方法在使用者於旋轉角度範圍為 0 度至 15 度之間的限制條件下之辨識準確率。Test data 為實驗 4.2.3 中同樣角度為 0 度至 15 度所有數據的平均準確率，Real data 則為本實驗採集數據之準確率，比較之結果如表一所示。. 表 1 Test data 和 Real data 的準確度結果. 9Area. 16Area. 25Area. 9Area. 16Area. 25Area. TOP1. TOP1. TOP1. TOP5. TOP5. TOP5. Test data. 95.8%. 96.0%. 94.6%. 98.0%. 98.0%. 97.0%. Real data. 93.3%. 94.0%. 90.7%. 94.6%. 94.6%. 92.0%. Test data without. 89.4%. 85.6%. 83.5%. 96.7%. 96.7%. 90.6%. 83.3%. 82.0%. 78.8%. 93.2%. 93.2%. 88.7%. threshold. Real datawithout threshold. 從表中可看出，25Area 篩選的準確率在 Test data 和 Real data 的表現明顯不如 9Area 篩選和 16Area 篩選，而 9Area 篩選和 16Area 篩選的準確率雖然有下降，但是和 Test data 的差距落在 3%。從 TOP1 來看，25Area 的數據在 Real data 的情況下比 9Area 和 16Area 有 3%的差距，因為是同一批的資料圖片的關係，所以最接近距離法(NN)的特徵點篩選數量不會改變，故主要影響重複 39.

(50) 率進而影響準確率的是基於 RANSAC 的本研究提出之篩選法所篩選的匹配特徵點數量。所以推論 25Area 篩選在篩選過程中，將特徵匹配點誤移除的數量一定多於 9Area 篩選和 16Area 篩選，導致準確率的下降。而在閾值的篩選上，可以從本實驗中看出，TOP1 會因為在沒有閾值的篩選下有少數出現類重複率的結果和正確圖片好，但是 RANSAC 殘留率比正確圖片低不少的情況下造成準確率下降， TOP5 則因為可容許五張內的誤差所以影響較小。. 4.3 實驗總結. 總和 4.2 節的各個實驗結果，先透過縮小輸入影像來降低 SURF 在計算特徵點的速度，但同時也發現 RANSAC 和N2 Area 的篩選結果並不會因為縮小影像而有太大的差別，而使得 RANSAC 速度並沒有因此而得到改善。RANSAC 運算速度沒有改善的情況會造成實驗三和實驗四在因為比較資料越多而造成的時間花費越多，進而得知若要應用在即時比對則必須解決 RANSAC 的速度問題。而從實驗三和實驗四的結果可知，實驗二的結果所決定的閾值對本研究方法具有一定的影響力，透過閾值可先行刪去重複率[19]可能會誤判的情況。25Area 篩選在實驗三和實驗四的結果，可推論N2 Area 篩選法在判斷特徵點的區域落點應有一定的誤差，才會造成在分割成 25Area 的時候，實驗二的 RANSAC 殘留率與實驗三、實驗四的準確率都較 9Area 和 16Area 來得低。. 40.

(51) 第五章結論本研究提出一個基於 SURF 和 RANSAC 的方法來取代傳統 OCR 方法進行書本辨識，透過本研究根據書本特性提出的基於透視變換的N2 Area 特徵點篩選法，可將 RANSAC 的結果再進行更一步的篩選，藉此提升書本辨識的準確，同時利用篩選所計算出的 RANSAC 殘留率當作閾值，也可以在計算重複率之前先行判定是否要將該結果列入考量，藉此減少誤判的情況發生。但由於透視變換的對映矩陣是基於 RANSAC 結果所計算而來，所以運算速度取決於 RANSAC 演算法的限制而較為緩慢。而透過實驗的結果，N2 Area 篩選法在進行特徵點區域落點判斷時，應有一定的誤判，才會造成區域分割越多，反而準確率越低的情況。. 從實驗結果來看，本研究方法仍有可以改良的地方；可使用 Overlapping 的方法來減少N2 Area 篩選法所造成的誤判；因為計算 RANSAC 的時間為本研究提出的方法中花費最多時間的步驟，若能改善 RANSAC 的計算時間就能夠更快的提供比對結果，如何加快 RANSAC 的運算速度為本研究是否能實現即時檢索的關鍵，降低 SURF 維度也是一種方法，但是 Bay 的研究[2]已經提出會因降低 SURF 維度而造成準確率降低，不過考慮到檢索可以用前 n 筆中有包含到正確圖片就算對的情況下，或許是一個可以實作的選項之一。. 41.

(52) 參考文獻 [1]D.G. Lowe, "Distinctive image features from scale-invariant keypoints", In: International journal of computer vision, 60.2(2002), 91-110. [2]H. Bay, T.Tuytelaars, and L. Van Gool, "Surf: Speeded up robust features" , In: Computer Vision-ECCV 2006.Springer,2006,404-417. [3]E. Rosten andT. Drummond, "Machine learning for high-speed corner detection", In: Computer Vision-ECCV 2006.Springer,2006,430-443. [4]E. Mair, G. D. hager, D. Burschka, M. Suppa, and G. Hirzinger, "Adaptive and generic corner detection based on the accelerated segment test", In: Computer Vision-ECCV 2010.Springer,2010,183-196. [5]E. Rosten, R. Porter, and T. Drummond, "Faster and better: A machine learning approach to corner detection", In: Pattern Analysis and Machine Intelligence, IEEE Transactions on32.1(2010), 105-119. [6]S. Leutenegger, M. Chli, and R. Y. Siegwart, "BRISK: Binary robust invariant scalable keypoints", In: Computer Vision(ICCV), 2011 IEEE International Conference on.IEEE,2011, 2548-2555. [7]M. Calonder, V. Lepetit, M. Ozuysal, T. Trzcinski, C. Strecha, and P. Fua, "BRIEF: Computing a local binary descriptor very fast", In:Pattern Analysis and Machine Intelligence, IEEE Transactions on34.7(2012), 1281-1298. [8]E. Rublee, V. Rabaud, K. Konolige, and G. Bradski, "ORB: an efficient alternative to SIFT or SURF",In:In: Computer Vision(ICCV), 2011 IEEE International Conference on.IEEE,2011, 2564-2571. [9]C. Harris and M. Stephens, "A combined corner and edge detector",In: Alvey vision conference.Vol. 15. Manchester, UK, 1988, p.50. [10]E. Tola, V. Lepetit, and P. Fua, "Daisy: An efficient dense descriptor applied to wide-baseline stereo", In:Pattern Analysis and Machine Intelligence, IEEE Transactions on32.5(2010), 815-830. [11]M. A. Fischler and R. C. Bolles, "Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography", In: 42.

(53) Communications of the ACM24.6(1981),381-395. [12]P. Heckbert. Fundamentals of Texture Mapping and Image Warping. Master’s thesis, University of California at Berkeley, Department ofElectrical Engineering and Computer Science, June 17 1989. [13]A. Criminisi, I. Reid, and A. Zisserman, "A plane measuring device", In: Image and Vision Computing, vol17, Issue 8, June 1999, 625–634. [14]"Parameter values for the HDTV standards for production and international programme exchange," ed: ITU-R Rec. BT. 709-5, 2002. [15]P.A. Viola and M.J. Jones," Rapid object detection using a boosted cascade of simple features", In: CVPR, issue 1, 2001, pp. 511–518. [16]D. Lowe, "Object recognition from local scale-invariant features", In: Computer Vision(ICCV), 1999 IEEE International Conference on.IEEE,1999, 1150-1157. [17]A. Neubeck and L. Van Gool, "Efficient non-maximum suppression", In: ICPR, 2006. [18]M. Brown and D. Lowe, "Invariant features from interest point groups", In: BMVC, 2002. [19]O. Miksik and K. Mikolajczyk, "Evaluation of local detectors and descriptors for fast feature matching", In: Pattern Recognition(ICPR), 2012 21st International Conference on. IEEE, 2012, 2681-2684. [20] T. Lindeberg, "Scale-space for discrete signals",In: Pttern Analysis and Machine Intelligence,IEEE Transactions on 234-254, 1990. [21]Open Library. URL:https://openlibrary.org/lists [22]Cover Browser. URL:http://www.coverbrowser.com/ [23]Amazon. URL: http://www.amazon.com [24]Q. Fan, V. Lepetit, and P. Fua, "Daisy: An efficient dense descriptor applied to wide-baseline stereo", In:Pattern Analysis and Machine Intelligence, IEEE Transactions on 32.5(2010), 815-830. [25]K. Mikolajczyk and C. Schmid. "A performance evaluation of local descriptors". In: Pttern Analysis and Machine Intelligence, IEEE Transactions on 27.10(2005), 1615-1630 43.

(54) [26]L. Juan and O. Gwun. "A comparison of sift, pca-sift and surf". In: International Journal of Image Processing(IJIP) 3.4(2009), 143-152. 44.

(55)