以深度學習為基礎之路面破損與閥栓檢測系統

全文

(1)國立臺灣師範大學機電工程學系碩士論文指導教授：吳順德博士以深度學習為基礎之路面破損與閥栓檢測系統 Road-crack and Manhole-cover Inspection System Based on Deep Learning. 研究生：楊松儒撰中. 華. 民. 國. 1. 0. 8. 年. 8. 月.

(2) 摘要近年來台灣道路平整度議題經常被提出來討論，其中一項就是孔蓋的正常與否。每年都需要花費大量的人力在孔蓋巡檢上。為保證巡檢品質與第二年作業需求，需要檢查作業人員拍攝回來之照片，其中包含著門牌以及閥栓近遠照等照片。路面平整度的另一個議題是路面破損，而目前路面破損之檢測如同閥栓巡檢一般依靠了大量的人力。為了減少大量人力需求，本研究將設計一快速且準確之閥栓分辨系統以及一道路破損辨識系統。. 本研究中以 YOLOv3-tiny 及作為基礎，建置一快速分辨閥栓以及門牌之系統。在實驗結果中，本研究在近照之閥栓分辨結果中，達到了 Precision 99.33%、Recall 98.89%之高精度。在門牌與街牌辨識的部分，也達到了 Precision 95.96%、Recall 93.45%之精度。. 道路破損辨識的部分，本研究使用 YOLOv3 類神經網路進行訓練，並使用一簡單之分割操作，提升了辨識準確率。並希望在未來使用其餘類神經網路以及各種技術，改善此一辨識率。. 關鍵字 : 目標檢測、深度學習、YOLO 神經網路. i.

(3) Abstract Road flatness plays a key role in traffic safety, the manhole covers placed on roads often reduce the flatness and cause traffic accident. In order to guarantee the traffic safety, it is necessary for government to do manhole-cover inspection every year. A lot of pictures, including doorplates, street signs, and manhole cover of valves and hydrants, will be reproduced in manhole-cover inspection, and it takes a large amount of time to check these pictures manually. Another important issue of traffic safety is road crack, and the inspection of this problem is also laborintensive work. The objective of this study is to design an automatic inspection system of manhole-cover and road crack to reduce the workload.. The manhole-cover inspection system proposed in this study is based on YOLOv3-tiny network. Experimental results show that the system has high efficiency with precision of 99.33%, and recall of 98.89%. In terms of road-crack detection, this study applies YOLOv3 network to road-crack detection system, and uses simple image segmentation to detect the pictures, which increases system recall. In the future, we hope to improve the performance of detection by using other networks and operations.. Keyword：object detection, deep learning, YOLO neural network. ii.

(4) 誌謝在師大念書，若不含中途去當兵的時間，算到如今也是第六年了，而待在訊號處理實驗室也已經四年了。在此想趁這次撰寫論文的機會，一併感謝至今遇到的人。最首先還是要感謝吳順德老師，從大學最一開始時的程式設計一路上來，教了許多的知識，並在大學專題以及就讀碩士期間給予了十分多的幫助。老師為人不太計較得失，總是本持著自己的道德標準看待每件事情，並總是跟我們講說把事情做好最重要。老師在研究方面也有著十分深厚的知識，經常實驗上遇到什麼問題時，老師都會提供意見幫忙解決。在實驗室的四年，經過老師的指導後讓我精神上與知識面上都獲得了十分大的成長。除了感謝老師以外，我同時也還想感謝在訊號處理實驗室中所遇到的學長姊與學弟妹們。辛承宣學長和郭柏賢學長兩位與我一樣都是來自於屏東的學生，在當完兵剛回來還沒適應時，從旁給予了很多的幫助。同學方姿晴也是來自於屏東的人，在實驗室的大小事務上，大多數都是由他負責幫忙處理完的，關於這點真的是非常感謝。我也認為能在師大離屏東這麼遙遠的地方遇上這麼多來自同個縣市的人十分的幸運，李旻祐學弟、嚴謹學弟和謝孟寰學弟也在我剛回來時候一同進行了其餘的研究並且補足了我對於類神經網路的相關知識。訊號處理實驗室是一個大家庭，在遇到低潮或者是瓶頸的時候，實驗室或是打氣或者是幫忙思考等，不會有人對遇到困境的夥伴袖手旁觀。我認為我自己很幸運能加入訊號處理實驗室並以訊號處理實驗室的一份子為榮。最後我想要感謝口試委員王俊傑博士與呂有勝教授，有你們的指導與意見才讓本研究可以更加完備。回首大學到碩士班這幾年，能感受到自己有著 iii.

(5) 顯著的成長，但學得越多就越感受到自己仍有不足的地方。最後期許自己在經過此一階段後能成為一個更好的人，並再次感謝在求學生涯中所遇到的每一個人。楊松儒謹誌中華民國一百零八年七月. iv.

(6) 目錄摘要 ......................................................................................................................... i Abstract ................................................................................................................... ii 誌謝 .......................................................................................................................iii 目錄 ........................................................................................................................ v 表目錄 .................................................................................................................viii 圖目錄 ................................................................................................................... ix 第一章緒論 ........................................................................................................ 1 1.1 前言 .......................................................................................................... 1 1.2 研究動機與目的 ...................................................................................... 2 1.3 系統架構 .................................................................................................. 3 1.4 論文架構 .................................................................................................. 4 第二章文獻回顧與資料收集 ............................................................................ 5 2.1 目標檢測文獻探討 .................................................................................. 5 2.1.1 二階段偵測(Two-Stage Detection) ............................................... 6 2.1.2 一階段偵測(One-Stage Detection) ............................................... 7 2.2 路面檢測文獻探討 .................................................................................. 8 2.2.1 影像處理法(Image Processing Techniques) ................................. 8 2.2.2 類神經網路法(Neural Network) ................................................... 9 2.3 圖像資料 ................................................................................................ 11 2.3.1 制水閥手孔蓋 ............................................................................. 11 2.3.2 地下式消防栓箱 ......................................................................... 11 2.3.3 地上式消防栓外觀 ..................................................................... 11 2.3.4 門牌 ............................................................................................. 11 v.

(7) 2.3.5 街牌 ............................................................................................. 11 2.3.6 路面破損 ..................................................................................... 12 2.4 影像標籤 ................................................................................................ 13 第三章類神經網路架構 .................................................................................. 14 3.1 卷積神經網路 ........................................................................................ 14 3.1.1 卷積層 .......................................................................................... 14 3.1.2 池化層 .......................................................................................... 16 3.1.3 Flatten ........................................................................................... 17 3.1.4 全連接層 ..................................................................................... 17 3.2 Grid Cell 與輸出 ..................................................................................... 17 3.3 Anchor Box ............................................................................................. 19 3.4 Loss Function .......................................................................................... 19 3.5 Feature Pyramid Network ....................................................................... 21 3.6 Residual Network .................................................................................... 22 3.7 YOLOv3-tiny 與 YOLOv3 網路架構 .................................................... 23 第四章實驗流程與結果討論 .......................................................................... 26 4.1 閥栓巡檢 ................................................................................................. 26 4.1.1 實驗流程 ..................................................................................... 26 4.1.2 實驗結果與討論 ......................................................................... 27 4.2 道路破損檢測 ........................................................................................ 41 4.2.1 實驗流程 ..................................................................................... 41 4.2.2 實驗結果與討論 ......................................................................... 43 第五章結論與未來展望 .................................................................................. 49 5.1 結論 ........................................................................................................ 49 vi.

(8) 5.2 未來展望 ................................................................................................ 50 參考文獻 .............................................................................................................. 51. vii.

(9) 表目錄表 2-1 道路破損種類 ..................................................................................... 10 表 4-1 混淆矩陣範例 ..................................................................................... 28 表 4-2 近照模型結果 ..................................................................................... 30 表 4-3 近照辨識模型模擬照片錯置測試結果 ............................................. 30 表 4-4 使用近照辨識模型辨識遠景照結果 ................................................. 31 表 4-5 同時使用近照及遠景照訓練模型結果 ............................................. 32 表 4-6 近照及遠景照模型模擬照片錯置測試結果 ..................................... 32 表 4-7 近遠照混和加上負面訓練資料集分類結果 ..................................... 33 表 4-8 門牌與街牌分類結果 ......................................................................... 34 表 4-9 門牌街牌辨識模型測試閥栓近照結果 ............................................. 35 表 4-10 門牌街牌辨識模型測試閥栓遠照結果 ........................................... 35 表 4-11 門牌街牌辨識模型測試非相關照片結果 ....................................... 36 表 4-12 使用制水閥、地下式與地上式消防栓近照訓練之模型結果 ....... 37 表 4-13 使用所有種類照片訓練，門檻值為 25%結果............................... 39 表 4-14 使用所有種類照片訓練，門檻值為 75%結果............................... 40 表 4-15 道路破損種類縮寫對應表 ............................................................... 41 表 4-16 YOLOv3-tiny 模型訓練結果 ........................................................... 43 表 4-17 YOLOv3 模型訓練結果 ................................................................... 44 表 4-18 使用新北市政府網站照片加上街景車照片訓練結果 ................... 45 表 4-19 使用分割辨識結果 ........................................................................... 47 表 4-20 限縮照片區域進行訓練結果 ........................................................... 48. viii.

(10) 圖目錄圖 1-1 閥栓巡檢作業流程圖 ........................................................................... 1 圖 2-1 閥栓巡檢圖像資料 ............................................................................. 12 圖 2-2 路面破損圖像資料 ............................................................................. 12 圖 2-3 labelImg 實際運作畫面 ...................................................................... 13 圖 2-4 標籤資料格式說明 ............................................................................. 13 圖 3-1 卷積操作圖像化 ................................................................................. 15 圖 3-2 最大池化示意圖 ................................................................................. 16 圖 3-3 YOLO 網路架構 ................................................................................. 18 圖 3-4 Feature Pyramid Network 與其他架構差異 .................................... 22 圖 3-5 Residual Network 基礎結構示意圖 .................................................. 23 圖 3-6 YOLOv3-tiny 網路架構示意圖 ......................................................... 23 圖 3-7 Darknet-53 網路架構 .......................................................................... 24 圖 4-1 閥栓辨識模型訓練流程圖 ................................................................. 27 圖 4-2 辨識錯誤實際圖像 ............................................................................. 31 圖 4-3 不合格的門牌照片實例 ..................................................................... 34 圖 4-4 道路破損模型訓練流程圖 ................................................................. 42 圖 4-5 分割示意圖 ......................................................................................... 46 圖 4-6 照片區域變更示意圖 ......................................................................... 47. ix.

(11) 第一章緒論 1.1 前言一座城市隨著時間發展，會有愈來愈多的建設。其中在道路之下的各式管線，是極度重要的城市命脈。為了方便管線維護，在地面及道路上均會設置對應的閥栓孔蓋以便開啟維修。但由於路面平時可能有破損，或需要定期維護更新，經常發生孔蓋遭到新鋪設的路面柏油覆蓋、孔蓋下陷或異常突起，造成用路人危險。因此，為用路人安全及管線維護考量，定期進行道路閥栓巡檢作業，檢查狀況是不可避免的。. 圖 1-1 閥栓巡檢作業流程圖圖 1-1 中簡述了閥栓巡檢作業的流程，首先巡檢人員參考前一年的記錄尋找目標閥栓，找到後拍攝三張照片記錄，這三張照片照排列分別為門牌、近照、遠景照。最後結果上傳資料庫後，再經由內業人員做最後檢查。但由於巡檢人員習慣不同或是巡查時疏忽，照片中定位用的門牌及閥栓照片並不 1.

(12) 會完全正確排序。疏忽更甚者，可能根本沒有把閥栓的狀況拍入照片裡。若這些照片沒有被檢查出來，輕則造成下次巡檢人員需要面對錯誤資料進行比對，嚴重則導致若管線真的需要維修更新，會因為當初留下的錯誤資訊花費許多人力物力成本進行修正，甚至會因此導致用路人危險。因此整理並檢測這些照片之順序及內容是否有誤，是巡檢作業完成後非常關鍵的一環。但若用傳統的方法整理照片，也需耗費及大量的人力與時間。因此若有一個快速且準確，能夠分辨巡查攝回照片格式是否正確的系統，將對整個巡檢作業流程有極大的幫助。對於用路人來說，不只有閥栓的故障會造成危險，若是路面有破損，或是標線不清，都可能對用路人的安危產生影響。因此路面檢測也是重要議題。但目前的檢測方法與閥栓巡查相同，也是採用人力實地巡檢、街景車拍攝、甚至是等待民眾自行拍照上傳至政府機關，再由人工判斷照片上之路面是否有破損。因此有許多研究團隊嘗試提出一可信且便宜之路面檢測系統。 Christoph Mertz[2]在 2011 年即有提出一車輛搭配雷射測距儀進行路面檢測之想法，在車輛上搭配雷射測距儀，以深度作為主要辨識依據；Artis Mednis[3] 也在 2011 年提出使用智慧型手機之加速規於行進中車輛上收集資料，並依照此資料判斷經過的路面上是否含有坑洞。而使用影像辨識技術的人也不在少數，Abdel-Qader 在 2003[4]就已使用過四種邊緣偵測的技術：Fast Haar Transform(FHT), Fast Fourier Transform, Sobel Edge Detector, 以及 Canny Edge Detector。在此一論文結論中，得到 FHT 為最佳解之結果。. 1.2 研究動機與目的基於上述所提到之種種因素，本研究將會同時研究關於閥栓巡檢辨識以及道路破損檢測兩方面。閥栓巡檢人力檢查照片的部分，一般會遇到如下幾項問題：(1)閥栓種類拍攝錯誤；(2)拍攝到的門牌因種種原因字體無法辨識；(3)照片順序錯誤；(4) 2.

(13) 照片上沒拍到目標物。因此本研究將針對這幾項問題，期望能開發出一符合現實巡檢作業所需求的閥栓辨識系統，取代掉原本內業人員檢查照片的部分，將可大幅度減少內業成本以及作業效率。路面檢測之相關研究多採用了兩種技術：(1)影像處理及(2)人工智慧。就目前大多數的路面檢測相關技術以及研究結果而言，影像處理仍是研究團隊主要之研究目標，如 Yong Shi 等人[5]以及 Henrique Oliveira[6]等人。但在近幾年內，由於電腦技術之蓬勃發展造成了人工智慧技術間接提升，所以將人工智慧應用在路面檢測相關的文章數量也是持續上升。但人工智慧法大多數研究團隊之研究目標圖像，如 Lei Zhang 等人[7]以及 Young‐Jin Cha 等人[8] 皆是格放了路面破損之圖像，且也沒分類過該破損是何種破損。因此本研究希望在路面破損的部分，能夠提出一適用於一般街景照片之路面檢測系統，並且能夠分辨出該破損是屬於何種破損。. 1.3 系統架構本研究將以同一種方式建構閥栓巡檢模型以及路面檢測模型，其架構分成三部分：(1)資料收集與標籤(Data Label)；(2)網路訓練與測試(Network Training)；(3)資料庫系統(Database System)，其簡要概念說明如下： 1. 資料收集與標籤：收集各式各樣之資料圖像等，這些資料收集必須符合標準。之後再經由人工標籤，標籤時所採用之標準需要統一，並且需定義何為合格何為不合格，標籤種類也需定義好。標籤完後的結果我們稱之為 ground truth，也就是專家的結果。在此一研究中，閥栓辨識的部分即為各式各樣的閥栓照片，而路面破損的部分，我們為了貼近現實生活，使用的照片為合作廠商之街景車照片以及從新北市路平報馬仔系統[9] 上所取得之照片。 3.

(14) 2. 網路建模與測試：近年蓬勃發展的類神經網路，其也出現了許多不同的分支，其中較為主流的目標檢測演算法有 YOLO (You Only Look Once)、 SSD (Single Shot Multiple Detection)、Mask R-CNN 等演算法。 3. 資料庫系統：使用程式建立資料庫如 MySQL 或者是 Apache Cassandra 等，並將辨識完的成果整理至資料庫中，並於資料庫中處理資訊。本研究將會依循此架構，先從資料收集開始。標籤的部分則會使用 labelImg[10]此一程式來協助標籤，標籤定義的部分，將會與實際閥栓巡檢廠商以及道路巡檢廠商作業人員討論過並明確定義。網路建模則會使用 YOLO 神經網路，並使用 Joseph Redmon 於其個人網站所提供之 Darknet 套件[11] 進行訓練。希望未來能將此次辨識成果與資料庫系統整合於一起，以達即時辨識並通知作業人員之系統。. 1.4 論文架構而本論文將會依序從第一章先簡介何為閥栓巡查、路面檢測以及其重要性，並簡單介紹本研究之架構以及目標。第二章則會回顧前人之文獻並說明本研究中所使用之資料來源以及標籤過程。第三章則會針對 YOLO 演算法進行詳細的探討。第四章則會以 YOLO 演算法進行網路訓練，並經由調整各種參數以找出最符合本研究所需求之參數，並在此一章節中展現各種實驗之後的結果。第五章則會針對前一章節之結果進行探討，並且提出可能之改進方向以及未來展望。. 4.

(15) 第二章文獻回顧與資料收集本研究為成功辨識出閥栓巡檢照片以及路面檢測之各種破損，而閥栓辨識以及道路破損辨識，都可使用目標檢測演算法實現。因此必須先探討各式各樣目前之目標檢測演算法，並了解現今之閥栓辨識與路面破損辨識的技術發展，但是就本研就目前所收集到的文獻來看，並沒有閥栓辨識相關的文獻。因此本章僅將探討前人所使用之目標檢測演算法以及路面檢測之相關研究。並於最後介紹本次研究中所使用之圖像資料。本章將分為四部分：(1)目標檢測文獻探討；(2)路面檢測文獻探討；(3)圖像資料；(4)影像標籤。. 2.1 目標檢測文獻探討本研究中，考慮了各式各樣的目標檢測技術。之所以會決定使用類神經網路進行本次研究，是因為本次研究合作對象之閥栓巡檢或者是路面檢測之中，都不同於一般研究會將目標單純限定在僅有路面之圖像，本次研究之目標會具有各式各樣之外部干擾，如各種光影變化、位於目標旁之行人、作業人員所攜帶之工具等等。若以一般現行之影像處理法進行各種邊緣檢測，則需要各種大量的計算以及分類器等等，需要各式各樣額外的計算才有辦法應付這次研究目標之情況。但是若以類神經網路進行本次研究，因類神經網路並不需要另行進行抽取特徵，其特徵抽取的過程都會在訓練過程中自行調整權重，恰恰是對應本次研究情況之較佳選擇。在下文中將會討論現行目標檢測之兩種主流：(1)二階段偵測(Two-Stage Detection)和(2)一階段偵測(OneStage Detection)。而欲探討類神經網路目標檢測技術前，必須先了解其基底技術，也就是類神經網路，表 2-1 中是為一般人工神經網路之分類，目前的類神經網路，絕大多數的發展都是發展於監督式學習。所謂的監督式學習，即代表在訓練 5.

(16) 過程中將會告知神經網路此一輸入是否正確，而非監督式學習則相反，並不會告知神經網路此一輸入為正確或錯誤。而一般最簡單的監督式學習，最後輸出會是一維陣列，陣列中每一元素代表著此輸入為對應類別之可能性，而在此陣列之所有元素和相加會為一。 2.1.1 二階段偵測(Two-Stage Detection) 二階段偵測此一目標檢測演算法種類，是脫胎於多階段偵測(multi-stage detection)如 R-CNN[12]、SPPNet[13]，而所謂多階段偵測，則是神經網路需要訓練如 Selective Search、特徵抽取(Feature Extraction)等等，由於每一階段都需要獨自訓練，其速度十分緩慢。由於技術之進步，多階段偵測已被淘汰，故在此僅稍加解釋。而後 Ross Girshick 於 2015 年提出 Fast R-CNN[14]，就是為了應對多階段偵測之緩慢速度。Fast R-CNN 脫胎於 R-CNN，其主要改進是在於 R-CNN 需要使用 Selective Search 來篩選出可能的區域，稱之為 Region Proposals。 R-CNN 所分成之 Region Proposals 每張圖片會超過兩千個以上，而此一過程需要將圖片重複輸入 CNN (Convolution Neural Network)中，代表光是前面的 Region Proposals 篩選就需要將圖片輸入超過 2000 次以上而生成 2000 個以上的 CNN。而 Fast R-CNN 就是改進此一步驟，不需要每個 Region Proposals 都生成一個 CNN，而是所有的 Region Proposals 都共用同一個 CNN，在最後一層的輸出層分別接上代表類別以及目標框(Bounding Box)之全連接層(Full Connection Layer)以及後面的 softmax 分類層。但不管 R-CNN 或者是 Faster R-CNN 都需要經過 Selective Search 進行 Region Proposals 預選，而此一預選過程十分的緩慢，也因此降低了整個神經網路訓練的速度。故 Shaoqing Ren 和 Ross Girshick 等人再度於 2015 年提 6.

(17) 出 Faster R-CNN[15]，其用意就是在於簡化此一預選 Region Proposals 的過程。在此篇論文中提出了 RPN(Region Proposals Network)的概念，即是指 Region Proposals 也可以經由 CNN 獲得，而此一 CNN 也會與後面的 R-CNN 網路共享，故當訓練完成後，經由單獨一個 CNN 即可獲得結果。 2.1.2 一階段偵測(One-Stage Detection) 一階段偵測此一目標偵測演算法種類，最早是於 2016 年由 Joseph Redmon 等人所發表之論文[16]，而在之後幾年也持續發表了改進[17,18]。此演算法稱之為 You Only Look Once(YOLO)，其核心概念是不需要再另外計算 Region Proposals，CNN 的網路輸出也可以同時輸出 Bounding Box 座標、類別置信度(Class Confidence)以及物體置信度(Objectness)。此篇論文發表後，打破了 R-CNN 系列論文之二階段偵測潮流，另闢蹊徑為一直接端到端(End-To-End)之神經網路架構。詳細演算法內容將會於第三章中解釋。而同時於 2016 年 Wei Liu 等人也發表了另一種演算法 SSD [19]，與最初發表之 YOLO 演算法相比，SSD 演算法採用了與 YOLO 不同的做法。由於 CNN 每經過一層卷積層(Convolution Layer)之後，抽取的特徵會越來越高層，但相對的所抽取出來之特徵對位置的精確度就會降低。為了解決這個問題，SSD 演算法提出一多尺度預測，將低階與高階之 Feature Map 綜合起來進行預測。. 7.

(18) 2.2 路面檢測文獻探討路面檢測的部分，多數研究團隊所採用的方法，分為兩個主流：(1)影像處理法以及(2)類神經網路法。在本節中將會分別介紹與探討此兩種方法。 2.2.1 影像處理法(Image Processing Techniques) Henrique Oliveira 等人於 2009 年發表了一篇論文[20]。在此篇論文中，該研究團隊使用了 Laser Road Imaging System (LRIS) 此一系統以獲取實驗所需要之圖像。實驗中使用了 Morphological Filtering 與 Thresholding 進行影像前處理，處理完之後的圖像再使用 Entropy Filtering 與 Thresholding 進行辨識。實驗結果表明，此一演算法在兩個不同的圖像資料庫中，分別獲得 84%與 95.1%之 Precision、94.8%與 95.6%之 Recall。 Henrique Oliveira 等人於 2012 年再發表了新一篇文章[6]，希望能使用其他演算法來偵測出路面破損。文中比較了六種不同的檢測方法，其中三種為聚類 (Clustering) ，分別為： (1) Hierarchical Clustering ； (2) K-means Clustering；(3) Gaussian Mixture Model (GMM)。另外三種為單類別分類(OneClass Classification Strategies)，分別為：(1) Simple Gaussian Density；(2) Minimum Covariance Determinant Gaussian (MCDG) ； (3) Parzen Density Estimator。而實驗結果表明，GMM 有著最高的 Fm(F-measure)、最低的 Global Error-Rate，並在 Recall 上面有著第二好的表現。 Haijian Ma 等人於 2013 年提出一篇論文[21]，文中採用邊緣檢測搭配上衛星超高解析度空拍圖像，並使用了 Hough Transformation 偵測出道路路線，最後達到偵測出經過地震後何處道路有破損之目標。實驗結果顯示此篇論文所提出之方法可以達到 86%準確度。. 8.

(19) 2.2.2 類神經網路法(Neural Network) 2016 年 Lei Zhang[7]等人提出一用於檢測路面破損之論文，其論文使用了 CNN 作為基礎，訓練資料庫為 3264 x 2488 之圖像 500 張，此 500 張圖像是使用了一般智慧型手機所拍攝而成。雖然使用的訓練圖像大小為 3264 x 2488，但是其辨識方法仍是使用了 Sliding Window 的概念，訓練之 CNN 大小為 99 x 99，之中含有著四層的卷積層。實驗結果表明，比起使用支援向量機(Support Vector Machine, SVM)或者是 Boosting，CNN 在這實驗條件之下表現都較優(Precision 86.96%、Recall 92.51%)。由此結果可以推論類神經網路在路面檢測之領域比起傳統機器學習可獲得較佳表現。 2017 年 Chen, Fu-Chen 等人[22]提出一用於檢測核電廠反應爐上裂紋的神經網路架構稱之為 NB-CNN，是由 CNN 結合了 Naïve Bayes Data Fusion。實驗結果表明，使用 NB-CNN 此架構，可在判斷核反應爐裂紋上，達到 96.8% 之準確率。雖然此篇論文目標與本研究之路面並不相同，但在裂紋的判斷上，其所使用之圖像大小為 120 x 120 像素(pixel)，僅以此大小之圖片而言，反應爐上之裂紋與路面破損之裂紋即使以人眼來看，也無法分辨出太多的差異。因此本研究認為此一論文之結果也可作為本研究之參考。 2017 年 Young‐Jin Cha 等人[8]也提出用於檢測路面破損之論文，此篇論文用的 CNN 其學習率(Learning Rate)並不是採用固定，而是使用了指數下降之學習率。同樣的，此研究也採用了 Sliding Window 的概念，其所使用之 CNN 輸入大小為 256 x 256 像素，並在其中使用了線性整流函數（Rectified Linear Unit, ReLU）。最終實驗結果顯示，使用了指數下降學習率以及 ReLU 激發函數，可以提升 CNN 網路之準確率。 2018 年 Hiroya Maeda 等人[23]希望使用神經網路進行路面檢測時，不需要再進行 Sliding Window 此一費時之步驟，而是能直接以整張照片作為 9.

(20) 輸入後直接獲得結果。同時此篇論文也不同於前幾年之論文單純以裂紋作為研究目標，而是希望能夠分辨出不同之道路破損。表 2-1 道路破損種類破損種類. 詳細分類 Longitudinal. Liner Crack Lateral Alligator Crack. Wheel Mark Part Construction Joint Part Equal Interval Construction Joint Part Partial Pavement, Overall Pavement Rutting, Bump, Pothole, Separation Crosswalk Blur White Line Blur. Other Corruption. 表 2-1 是來自於 Road Maintenance and Repair Guidebook 2013 (JRA, 2013) 之道路破損分類，也是此篇論文所使用的分類，Rutting, Bump, Pothole, Separation 此四種其實嚴格分類的話並不屬於同一種，但單純使用影像辨認的話，並不容易區分出此四種類，因此在此篇論文中將這四種類並為同一種類。此篇論文使用之神經網路架構為 SSD，但以最後的實驗結果而言，並不如前幾篇論文那麼好。但因本研究希望能以實景拍攝照片作為訓練基礎，因此本篇足以作為本研究之參考。. 10.

(21) 2.3 圖像資料在本研究中，閥栓巡檢此一部份將會以資料庫中占最大宗之五類：制水閥手孔蓋、地下式消防栓箱、地上式消防栓、門牌與街牌等做為主要分類目標。以下解釋此五種類之外觀與定義。 2.3.1 制水閥手孔蓋制水閥手孔蓋之外觀為直徑 25 公分之圓形孔蓋，材質多為鑄鐵，周遭多有方狀之早強混凝土或者是 AC(Asphalt Concrete)所包圍住。. 2.3.2 地下式消防栓箱地下式消防栓箱之外觀為 30x40 公分之鑄鐵孔蓋，周遭以及蓋上多會上黃色漆特別標明。. 2.3.3 地上式消防栓外觀地上式消防栓之外觀為 40~100 公分之紅色鑄鐵柱狀物。. 2.3.4 門牌在一般巡檢作業規範裡面，門牌外觀需要能讓人明確知道地址，即使所拍攝照片確定是門牌，如果拍攝不清楚的話也會被判定為不合格。. 2.3.5 街牌而當巡檢閥栓旁邊並沒有門牌可供拍攝，或者是門牌皆因年份久遠或者是其餘原因無法辨識時，可拍攝街牌或是路牌等替代。. 11.

(22) 圖 2-1 閥栓巡檢圖像資料圖 2-1 為圖像資料範例，左上為制水閥手孔蓋、中上為地下式消防栓箱、右上為地上式消防栓、左下為門牌、右下為街牌。 2.3.6 路面破損而路面破損方面，其資料來源為新北市路平報馬仔上所上載之照片以及街景車實拍照片。. 圖 2-2 路面破損圖像資料圖 2-2 為路面破損圖像資料範例，左邊為新北市路平報馬仔照片，右邊為街景車之照片。 12.

(23) 2.4 影像標籤影像標籤將會使用 labelImg[10]作為標籤工具，由於資料庫中照片有可能因為第一章緒論裡所提到之疏失，而造成照片錯置，因此需要先經由人工選出正確的照片。而後統一標籤標準進行人工標籤作業，實際上作業畫面如圖 2-3 所示。. 圖 2-3 labelImg 實際運作畫面標籤完成後會生成一與照片名稱相同之 txt 檔案，其中有著標籤資訊如圖 2-4 所示。每一列資料皆代表著一個目標框。標籤資訊格式第一個數字代表的是類別種類，從 0 開始排序；第二、三個數字表示物體中心座標相對於整張圖長寬之比例；第四、五個數字表示目標框之長寬相對於整張照片長寬比例。. 圖 2-4 標籤資料格式說明. 13.

(24) 第三章類神經網路架構在本研究中將會採用的類神經網路架構稱之為 You Only Look Once (YOLO)。此一神經網路架構是 Joseph Chet Redmon 及其團隊於 2016 年所提出，比起一般卷積神經網路所採用的 Sliding Window 式的物體偵測或者是 Faster R-CNN 的兩次神經網路分別偵測物體以及類別之架構，YOLO 將物體偵測重新定義為一個回歸問題，由一個神經網路架構就能直接給出 Bounding Box 以及其對應類別的概率。由於其單只用一個神經網路，並且是端到端 (End-To-End)的設計，所以計算速度非其他同類物體偵測神經網路可比。在本章中，將會詳細介紹 YOLO 演算法以及其所應用到之各種技術。. 3.1 卷積神經網路卷積神經網路(Convolution Neural Network,CNN)為現今主流之類神經網路基底架構，其主要構成為卷積層(Convolution)、池化層(Pooling)、Flatten、全連接層(Full Connection)。以下說明各層功能。 3.1.1 卷積層使用一自行設定大小之卷積核(Convolution Kernel)，此一卷積核會覆蓋於輸入之上，輸入中之元素會與卷積核上對應之元素進行相乘，然後將所有相乘出來之結果相加即完成一次卷積操作。完成後卷積核會於輸入上滑動，在進行下一次卷積操作，此一步驟會持續至卷積核滑動至輸入最尾端。每個卷積核中元素都會利用反向傳播演算法(Backpropagation)得到。以下將卷積層運作方式以數學式表示。設定初始輸入為Ｘ，令𝑀𝑖 為 CNN 第𝑖 層的 Feature Maps，𝑀0 ＝Ｘ。其運算過程如以下公式：. 14.

(25) 𝑀𝑖 = f((𝑀𝑖−1 ) ⊗ 𝑊𝑖 + 𝑏𝑖 ). (3.1). 其中𝑊𝑖 表示第𝑖 層卷積核的權重(Weight)；運算符號⊗則代表著卷積核與第 i1 層 Feature Maps 進行卷積操作，其輸出再與第𝑖 層的偏移向量(Bias)𝑏𝑖 相加，最終透過激勵函數(Activation Function) f()得到第𝑖 層的特徵圖𝑀𝑖 。透過不同的卷積層進行卷積操作，能從輸入中提出不同的特徵。而經過了越多卷積層之後，所抽取之特徵會越來越複雜且抽象，而其對位置之敏銳度則會降低。圖 3-1 將卷積層運作圖像化，藍綠色底表輸入，紫色底為卷積核。一般為保持原圖像大小，會於沒有數據的地方補零，第一次卷積操作為紅色框範圍，得到之數據為 0，第二次卷積操作為藍色框範圍，得到之數據為 1，以此類推。而一般卷積核表示式為 AxB/C。AxB 表示卷積核大小、C 表示步長，為每次操作後卷積核移動的長度。在圖 3-1 中的卷積層表示即為 2x2/1。. 圖 3-1 卷積操作圖像化. 15.

(26) 3.1.2 池化層一般而言，類神經網路之卷積層，並不會單只有一卷積核，而是使用多層卷積核，每一層卷積核即代表一個與前一層 Feature Maps 相同大小之 Feature Maps。倘若持續進行卷積操作下去，其運算量會十分龐大，以致於系統無法負荷，因此需要有池化層來進行降維度。池化層操作與卷積層相當雷同。以最大池化為例子，首先會先指定一池化大小，而後於 Feature Maps 上滑動，每一次滑動僅會取出該範圍最大的元素。假設使用 2 x 2 之池化層，則原本大小為 256 x 256 x 3 之 Feature Maps 會被降維至 128 x 128 x 3。目前大多數神經網路池化層採用最大池化(Max Pooling)，其餘池化層尚有平均池化(Mean Pooling)等。圖 3-2 是為最大池化之實例，途中左邊為 6 x 8 之輸入，經過 2 x 2 之最大池化運算後，會獲得右邊 3 x 4 的結果. 圖 3-2 最大池化示意圖. 16.

(27) 3.1.3 Flatten 當進行完卷積層各種運算後獲得的 Feature Maps，需要將其變為一維向量，而此一過程稱之為 Flatten。 3.1.4 全連接層在最終的 Feature Maps 被攤平為一維向量後，需要接至最後的神經元，這些神經元每個都將會連接至 Feature Maps 攤平後之向量的所有元素，因此又稱之為全連接層。. 3.2 Grid Cell 與輸出在 YOLO 演算法中，Grid Cell 和輸出更新都是其演算法重要概念。在 YOLO 發表之前的目標檢測演算法基本上都是 R-CNN 家族，其特徵是皆需要先計算 Region Proposals。Joseph Chet Redmon 認為，既然 CNN 可以用同時用來計算 Region Proposals 以及類別，那為何不能直接將類別置信度以及物體座標都同時於 CNN 中輸出。. 17.

(28) 圖 3-3 YOLO 網路架構圖 3-3 是最早版本的 YOLO 網路架構[16]，最後輸出與一般類神經網路架構不同，YOLO 輸出並不是對應於類別的一維向量，而是一近似於 Feature Maps 的輸出。輸出大小 7 x 7 x 30，前面的 7 x 7 代表著會將輸入圖像切做 7 x 7 的大小分別進行預測此 7 x 7 每一個都稱之為 Grid Cell。而後面的 30 是計算出來的，代表著 Bounding Box 兩個乘上 5 個輸出再加上類別數量，那五個輸出是為 x , y , w , h ,Confidence。 x ,y 代表的是在此 Grid Cell 中物體的中心座標位置；w , h 代表的是對於整張圖片而言，目標圖像的長寬；最後的 Confidence 在訓練時此參數代表該 Grid Cell 與 Ground Truth 的 IOU (Intersection Over Union)。IOU 計算公式如下. 𝐼𝑂𝑈(𝐴, 𝐵) =. 𝐴∪𝐵 A∩B. (3.2). 在輸出時，此參數即可視為該 Grid Cell 中是否含有目標物的機率。假設將最後輸出層以 T 表示、S * S 表示 Grid Cell 總數、B 表示 Bounding Box 數量、C 表示類別總數量，則輸出層可整理為式 3.3 表示。. 𝑇 = 𝑆 ∗ S ∗ ((B ∗ 5) + C). 18. (3.3).

(29) 3.3 Anchor Box 在 YOLO 第二版的論文[17]中，作者引入了 Anchor Box 的概念。有別於 Faster R-CNN 的 Anchor Box 是人工選擇出來的，YOLO 的 Anchor Box 是經由 K-means Clustering 計算得出。由於作者使用 Anchor Box 是希望可以讓 Bounding Box 預測更精確，也就是提升 IOU，因此 K-means Clustering 計算中，關於距離的公式將會被替換為式 3.4。. (3.4). 𝑑(𝑏𝑜𝑥, 𝑐𝑒𝑛𝑡𝑟𝑜𝑖𝑑) = 1 − 𝐼𝑂𝑈(𝑏𝑜𝑥, 𝑐𝑒𝑛𝑡𝑟𝑜𝑖𝑑). 論文中嘗試過，使用 k=5 可以獲得較佳之平均 IOU 且不會因此造成 YOLO 神經網路過度複雜化。在之後的 YOLOv3-tiny 中，使用的 k=6；在 YOLOv3 中，使用的 k=9。. 3.4 Loss Function 因使用了與一般不同之輸出，要使用反向傳播優化參數時，所需要的 Loss Function 也與一般有一點不太一樣。 𝑆2. 𝐵 𝑜𝑏𝑗. 𝐿𝑜𝑠𝑠 = 𝜆𝑐𝑜𝑜𝑟𝑑 ∑ ∑ 𝕀𝑖𝑗 [(𝑥𝑖 − 𝑥̂𝑖 )2 + (𝑦𝑖 − 𝑦̂𝑖 )2 ] 𝑖=0 𝑗=0 𝑆2. +. 𝑜𝑏𝑗 𝜆𝑐𝑜𝑜𝑟𝑑 ∑ ∑ 𝕀𝑖𝑗 𝑖=0 𝑗=0 𝑆2. +. 𝐵. 2. 2. [(√𝑤𝑖 − √𝑤 ̂ 𝑖 ) + (√ℎ𝑖 − √ℎ̂𝑖 ) ]. 𝐵. 𝑆2. 𝑜𝑏𝑗 ∑ ∑ 𝕀𝑖𝑗 𝑖=0 𝑗=0. 𝑛𝑜𝑜𝑏𝑗 (𝐶𝑖 − 𝐶̂𝑖 ) + 𝜆𝑛𝑜𝑜𝑏𝑗 ∑ ∑ 𝕀𝑖𝑗 (𝐶𝑖 − 𝐶̂𝑖 )2. 𝐵. 2. 𝑖=0 𝑗=0. 𝑆2 𝑜𝑏𝑗. − ∑ 𝕀𝑖. ∑. 𝑖=0. 𝐶∈𝑐𝑙𝑎𝑠𝑠𝑒𝑠. (𝑝𝑖 (𝑐)−𝑝̂𝑖 (𝑐))2. (3.5) 19.

(30) 式 3.5 是於 YOLO 論文上提供 Loss Function，可以發現到，作者在此都僅使用均方差(Sum-Squared Error)做為損失計算，λcoor 和 λnoobj 此二參數，是用來抑制當 Grid Cell 中不含有目標物時，容易造成模型不穩定的狀況。前面兩個 xy_Loss 、 wh_Loss 是為位置誤差 (Localization Error) ，後面的 Confidence_Loss 分成有目標和無目標。由於大多數 Grid Cell 中，並不會含有目標物，即代表無目標物的 Confidence Loss 容易被計算多次影響模型優化，而位置誤差僅有在該 Grid Cell 負責預測物體時才會計算。為了讓模型優化合理化，於是對位置誤差進行加權，並對沒有目標的 Confidence_Loss 進行弱化，設定 λcoor = 5 、λnoobj 為 0.5。在第三版 YOLO[18]中，Loss Function 持續被修改過，除了 wh_Loss 的計算仍使用了均方差函數，其餘的 xy_Loss、Confidence_Loss(物體置信度損失)、Class_Loss(類別損失)，都改用了 Binary Cross Entropy。並且增加了新的抑制參數。整理完後 Loss Function 如式 3.6。𝐵𝑖 表示 Box Loss Scale，其 𝑜𝑏𝑗. 計算方法如式 3.7 所示。𝕀𝑖𝑗 表示第 i 個 Grid Cell 中的第 j 個 Anchor 𝑛𝑜𝑜𝑏𝑗. Box 是否含有物體中心，若有則為一、無則為零；𝕀𝑖𝑗. 𝑜𝑏𝑗. 則與𝕀𝑖𝑗 定義. 剛好顛倒。x,y 表示物體中心座標；w,h 表物體框寬高；C 表示是否含有物體； 𝑝𝑖𝑗 (𝐶)表示是否為 c 類別。有上標代表為預測，無上標為 Ground Truth。. 20.

(31) 𝑆2. 𝐵 𝑜𝑏𝑗. 𝐿𝑜𝑠𝑠 = − ∑ ∑ 𝕀𝑖𝑗 𝐵𝑖 [𝑥𝑖 log 𝑥̂𝑖 + (1 − 𝑥𝑖 ) log(1 − 𝑥̂𝑖 ) + 𝑦𝑖 log 𝑦̂𝑖 + (1 𝑖=0 𝑗=0 𝑆2. 𝐵. 1 𝑜𝑏𝑗 − 𝑦𝑖 ) log(1 − 𝑦̂𝑖 )] + ∑ ∑ 𝕀𝑖𝑗 𝐵𝑖 [(𝑤𝑖 − 𝑤 ̂ 𝑖 )2 + (ℎ𝑖 − ℎ̂𝑖 )2 ] 2 𝑖=0 𝑗=0. 𝑆2. 𝐵. 𝑜𝑏𝑗 − ∑ ∑ 𝕀𝑖𝑗 [𝐶𝑖 log 𝐶̂𝑖 + (1 − 𝐶𝑖 ) log(1 − 𝐶̂𝑖 )] 𝑖=0 𝑗=0 𝑆2. 𝐵 𝑛𝑜𝑜𝑏𝑗. [𝐶𝑖 log 𝐶̂𝑖 + (1 − 𝐶𝑖 ) log(1 − 𝐶̂𝑖 )]. − ∑ ∑ 𝕀𝑖𝑗. 𝑜𝑏𝑗. ∑. 𝑖=0 𝑗=0. 𝐶∈𝑐𝑙𝑎𝑠𝑠𝑒𝑠. − ∑ ∑ 𝕀𝑖𝑗 𝑖=0 𝑗=0 𝑆2. 𝐵. [𝑝𝑖𝑗 (𝑐) log 𝑝̂𝑖𝑗 (𝑐) + (1 − 𝑝𝑖𝑗 (c)) log(1 − 𝑝̂ 𝑖𝑗 (𝑐))]. (3.6) 𝐵𝑖 = 2 − 𝑤𝑖 ℎ𝑖. (3.7). 3.5 Feature Pyramid Network Feature Pyramid Network (FPN)是於 2017 年所提出[24]，一般的物體偵測特徵抽取都是取神經網路最後最頂層的特徵，而 FPN 旨在低層的 Feature Maps 雖然特徵訊息較少，但是其位置相較高層 Feature Maps 準確。而跟 SSD 演算法不同在於 SSD 是使用多尺度特徵融合，使用不同層的網路抽取不同尺度的特徵來進行預測，如圖 3-4(c)，而 FPN 的預測是將最頂層的特徵，透過上採樣(Upsampling)後，和底層特徵進行串接(Concatenate)，如圖 3-4(d)。. 21.

(32) 圖 3-4 Feature Pyramid Network 與其他架構差異. 3.6 Residual Network 深度學習起初被認為是越多層效果會越好，但在 Kaiming He 於 2016 年發表的論文中[25]，證實了當神經網路到越深層後，反而效果會變差。深度學習網路之所以在加深層數後表現反而不好，是因為越深層的層數，在經過反向傳播幾層後梯度會消失，而梯度消失後，反向傳播就失去它優化的功能。也就是當梯度消失之後，這些權重基本上是沒有被訓練到的，越多層則網路訓練越加困難。因此他們提出了一個 Residual Network 的結構。 Residual Network 主要的概念在於既然經過隱藏層後梯度會消失，若將原本的輸入加回輸出，即可保留梯度。而隱藏層可以被擬合成任意函數形式，如圖 3-5 所示，假設 x 表示輸入，最終輸出為 H(x)，而隱藏層輸出為 F(x)，則原本神經網路將隱藏層定義成 H(x) = F(x)，而 Residual Network 則是將隱藏層定義成 H(x) = F(x)+x。. 22.

(33) 圖 3-5 Residual Network 基礎結構示意圖. 3.7 YOLOv3-tiny 與 YOLOv3 網路架構. 圖 3-6 YOLOv3-tiny 網路架構示意圖 23.

(34) 圖 3-6 所表示的是 YOLOv3-tiny 的網路架構，其中輸入不管是何種大小的圖像，都會先被重新縮放至 416x416 的圖像。架構圖中所表示之 3x3/1 卷積核，代表卷積核大小為 3x3，而每次操作將會移動 1 個像素點(Pixel)。而最大池化層則以此類推，使用 2x2 之遮罩，每次移動 2 個像素點，以此達到將原本數據長寬都縮為二分之一的效果。在之後還有一個 1x1/1 的卷積層，此一操作看起來是在做無用功，但此操作也是為了數據降維。與池化層對圖像長寬降維不同，此一卷積層是為了在保留特徵的同時進行數據降維，將不同的 Feature Maps 合併為數量較小的 Feature Maps，像在 YOLOv3-tiny 中，經過 1x1/1 卷積層後，原本的 13x13x1024 的 Feature Maps 會被縮減為 13x13x256 的 Feature Maps。在最後一層輸出，1x1 的卷積核就替換掉了原本類神經網路常用來做最後輸出的 Softmax 層，也因為使用了卷積核作為最後一層輸出，因此可以接受不同的大小作為輸入。. 圖 3-7 Darknet-53 網路架構 24.

(35) YOLOv3 使用的基底網路被稱之為 Darknet-53[18]。與 YOLOv3-tiny 相比網路架構大上許多，為了解決深層網路梯度消失的問題而使用了 Residual Network 的結構。 YOLOv3 和 YOLOv3-tiny 都使用了 Feature Pyramid 的概念，分別預測了 Grid Cell 為 13x13、26x26、52x52 三種情況，而三種使用的 Anchor Box 分別都是不同大小的 Anchor Box。YOLOv3-tiny 則僅預測了 13x13、26x26 兩種，一樣使用了不同的 Anchor Box。. 25.

(36) 第四章實驗流程與結果討論本研究的目的是希望建置可用於閥栓巡查和可用於路面破損檢測的系統。基於此目的，本論文將使用 2.3 節所提到的資料集，對閥栓巡檢以及道路破損檢測，分別限制照片條件以及資料集內容進行模型建置。本章將分為閥栓巡檢以及道路破損檢測兩部分，下面的篇幅將會詳細敘述這些實驗的內容及結果。. 4.1 閥栓巡檢在閥栓巡檢的部分，就如同 2.3 中所提，將會使用此五種照片進行模型建置。在實驗初期，由於地上式消防栓照片尚未收集到一定數量，因此先進行了制水閥與地下式消防栓辨識模型建置，同時進行門牌與街牌的辨識模型建置。 4.1.1 實驗流程在實驗初期，由於設備限制，因此模型建置的部分僅使用了 YOLOv3tiny 網路架構進行模型建置。在之後地上式消防栓照片數量補足，因此再進行了制水閥、地下式與地上式消防栓的辨識模型建置。使用的設備：GPU 為 NVDIA GTX750 2G、CPU 為 Intel Core i5-4460、RAM 配置為 8G。在訓練的時候，考量到現實作業中經常會出現照片方向不一的狀況，因此在照片輸入的時候會進行隨機旋轉。圖 4-1 是閥栓辨識模型的訓練流程圖。. 26.

(37) 圖 4-1 閥栓辨識模型訓練流程圖 4.1.2 實驗結果與討論本研究對近照以及混合近照及遠景照片分別進行建模，每個模型均隨機抽選 80%資料作為訓練集，剩餘資料作為測試集，以訓練集訓練模型直到模型誤差率(Average Loss)持續 3000 代變動小於 0.02 時，即得到本組模型。輸入之照片將被分類為制水閥或是消防栓。. 27.

(38) 表 4-1 混淆矩陣範例辨識為制水閥. 辨識為消防栓. 辨識為無目標. 實際為制水閥. TP. FP. FN. 實際為消防栓. FP. TP. FN. 實際上無目標. FP. FP. TN. 本研究將會將結果呈現如表 4-1 一般之混淆矩陣形式。TP 為 True Positive，表示預測結果正確；FP 表示 False Positive 表示預測結果錯誤；TN 表示 True Negative，表示沒有從沒有物體的地方辨識出結果；FN 表示 False Negative，表示應辨識出而未辨識出結果。由於近照和遠景照中，並沒有不含目標的照片，所以在近照和遠景照分類結果中，不會有 TN 的類別產生。最後在本實驗中，由於實際外業中常會出現閥栓與門牌照片錯置的狀況，因此還會測試將門牌照輸入閥栓辨識模型以及將閥栓輸入門牌辨識模型等兩個項目，確認是否符合實際上作業之需求。而一般目標檢測模型會以 Precision (精確率)以及 Recall (召回率)作為判斷模型效率的依據，本研究也將會以此兩指標作為模型效率判斷。. Precision =. Recall =. 𝑇𝑃. (4.1). 𝑇𝑃+𝐹𝑃. 𝑇𝑃. (4.2). 𝑇𝑃+𝐹𝑁. 28.

(39) 式 4.1 及式 4.2 分別為 Precision 和 Recall 的計算公式。Precision 表示模型對目標的判定精確度，也就是所辨認出來的目標中正確率有多少；Recall 表示模型對目標的召回率，也就是在全部的目標中，模型可以辨認出多少目標來。. 29.

(40) . 訓練集使用制水閥與地下式消防栓近照首先，本研究僅使用了制水閥與地下式消防栓近照來進行訓練。TP 為. 514，FN 為 6，FP 為 4，其中並沒有出現制水閥被錯認為消防栓或者式消防栓被錯認為制水閥的狀況。Precision 為 99.23%，Recall 為 98.84%。表 4-2 近照模型結果辨識為制水閥. 辨識為消防栓. 辨識為無目標. 實際為制水閥. 309. 0. 5. 實際為消防栓. 0. 205. 1. 實際上無目標. 4. 0. 0. 為了模擬第 1.2 節中所提到實際上作業可能會遇到之照片錯置狀況，將測試將門牌與街牌照片輸入閥栓辨識模型。結果如表 4-3 所示。本辨識模型僅在兩張照片上誤判出地下式消防栓。值得注意的是地下式消防栓的誤檢出也不是來自於門牌街牌，而是門牌與街牌旁的背景。如圖 4-2 所示。表 4-3 近照辨識模型模擬照片錯置測試結果辨識為制水閥. 辨識為消防栓. 辨識為無目標. 實際為門牌. 0. 0. 140. 實際為街牌. 0. 0. 99. 實際上無目標. 0. 2. 0. 30.

(41) 圖 4-2 辨識錯誤實際圖像由於近照辨識模型準確率以及召回率都有著相當高的數值，因此本實驗嘗試使用了近照辨識模型嘗試辨識遠景照，但是結果發現近照辨識模型無法辨識遠景照。經由本實驗結果，可認為近照辨識模型無法辨識遠景照，因此下一個模型訓練同時使用了近照以及遠景照進行訓練。表 4-4 使用近照辨識模型辨識遠景照結果辨識為制水閥. 辨識為消防栓. 辨識為無目標. 實際為制水閥. 0. 0. 250. 實際為消防栓. 0. 0. 107. 實際上無目標. 0. 0. 0. 31.

(42) . 訓練集同時使用地下式消防栓與制水閥之近照與遠景照 TP 為 584，FN 為 15，FP 為 27，Precision 為 95.58%，Recall 為. 97.5%。實際上結果相較於僅使用近照所建立的模型較差。究其原因主要是來自於遠照中目標物相較全圖而言小了許多，辨識不易。以及容易因為過小之光影變化產生誤判。表 4-5 同時使用近照及遠景照訓練模型結果辨識為制水閥. 辨識為消防栓. 辨識為無目標. 實際為制水閥. 326. 0. 13. 實際為消防栓. 0. 258. 2. 實際上無目標. 18. 7. 0. 同樣測試將門牌與街牌照片輸入本次實驗建立之閥栓辨識模型，結果顯示本辨識模型檢出了四個目標，其中三個為地下式消防栓，一個為制水閥。而有一張照片是同時誤檢出一個制水閥與地下式消防栓，因此實際上誤判之照片數量為三張。與前一模型測試結果相同，地下式消防栓的誤檢出也不是來自於門牌街牌，而是門牌與街牌旁的背景。表 4-6 近照及遠景照模型模擬照片錯置測試結果辨識為閥. 辨識為栓. 辨識為無目標. 實際為門牌. 0. 0. 140. 實際為街牌. 0. 0. 99. 實際上無目標. 1. 3. 0. 32.

(43) 由於實際上準確率相較近照模型略差，因此在參考先人作法後，決定在訓練集中加入負面訓練資料集。所謂負面訓練資料集是指不含有任何目標的照片，本次實驗所訓練的閥栓辨識中，所使用的負面訓練資料集為作業人員所拍攝到一般不含有閥栓或是門牌的街景照片。 . 訓練集同時使用地下式消防栓與制水閥近照和遠照再加上負面訓練資料集 TP 為 489，FN 為 110，FP 為 12。Precision 為 97.6%，Recall 為 81.63%。在同時使用近照以及遠照的狀況下，再加上負面訓練資料集進行訓練，原先預期加上負面訓練資料後可以提升抗異常輸入之能力。但在本次實驗結果中顯示，False Negative 的比例大幅上升。經過查看成果後，推測是由於加入了負面訓練資料，大幅提升了判定門檻，因此造成 Recall 降低。. 表 4-7 近遠照混和加上負面訓練資料集分類結果辨識為制水閥. 辨識為消防栓. 辨識為無目標. 實際為制水閥. 271. 0. 68. 實際為消防栓. 0. 218. 42. 實際上無目標. 10. 2. 0. 33.

(44) . 訓練集使用門牌與街牌照片 TP 為 214，FN 為 15，FP 為 9。Precision 為 95.96%，Recall 為 93.45%。. 門牌與街牌的標籤，依照先前實驗結果，若加入負面訓練資料集會提升判定門檻。而實際上作業時，門牌與街牌需要能清晰辨識其上文字才算做合格的照片，因此門牌與街牌標籤將會採取比較嚴格的標準，若門牌與街牌之照片不夠清晰，則此一門牌與閥栓並不會被標籤出來而是做為負面訓練資料集加入訓練，如圖 4-3 所示。結果的部分，有出現單一張將街牌辨識為門牌的情況，但此一個案是將街牌同時辨識為門牌與街牌。出現 False Positive 的情況來自某些照片中的廣告牌以及或是社區牌等此類的物體會造成辨認錯誤。表 4-8 門牌與街牌分類結果辨識為門牌. 辨識為街牌. 辨識為無目標. 實際為門牌. 135. 0. 5. 實際為街牌. 1. 84. 14. 實際上無目標. 10. 8. 10. 圖 4-3 不合格的門牌照片實例. 34.

(45) . 將閥栓照片輸入門牌與街牌辨識模型在此實驗將會測試將近照、遠照以及負面訓練資料三者輸入進門牌. 與街牌辨識模型，測試錯置之情況，以及照片本身即為不合理之狀況。表 4-9 為測試近照之狀況，其中並沒有被誤判定成門牌或街牌的照片。由此一測試結果，本研究推論此一門牌與街牌辨識模型可有效預防近照之錯誤輸入。表 4-9 門牌街牌辨識模型測試閥栓近照結果辨識為門牌. 辨識為街牌. 辨識為無目標. 實際為閥. 0. 0. 311. 實際為栓. 0. 0. 206. 實際上無目標. 0. 0. 41. 表 4-10 為測試遠照之狀況。遠照為隨機選取資料庫中 10%的遠照資料。其中僅有三個誤檢出，而其中一張誤檢出之照片，經確認後確實在照片中含有一字體無法明確辨認之街牌。但此一類街牌在判定上須被分類為不合格，因此在此認定其為誤檢出。由此一測試結果，本研究推論此一門牌與街牌辨識模型在針對遠照錯置時，也具有一定的抗噪能力，但此次結果也證明對於字體不夠清晰之街牌，此一模型仍會產生誤判。表 4-10 門牌街牌辨識模型測試閥栓遠照結果辨識為門牌. 辨識為街牌. 辨識為無目標. 實際為閥. 0. 0. 229. 實際為栓. 0. 0. 152. 實際上無目標. 1. 2. 0. 35.

(46) 表 4-11 為測試非相關照片之結果，非相關照片是採用了訓練中所使用之負面訓練資料集，照片內容為一般之街景照片，其中不包含門牌街牌以及閥栓之照片。用來測試之照片總數為 478 張，誤檢出為門牌兩張，街牌七張，其中並沒有不夠清晰之街牌或門牌。誤判的結果與將閥栓照片輸入門牌街牌辨識模型此一測試之結果相似，皆是來自一部份廣告牌等。在較大範圍之綠色背景等較為容易產生誤判。表 4-11 門牌街牌辨識模型測試非相關照片結果. 實際上無目標. 辨識為門牌. 辨識為街牌. 辨識為無目標. 2. 7. 469. 36.

(47) 在經過上面實驗與測試後，本研究認為此次系統先以單獨使用近照的辨識模型作為本次研究之目標，因此在此一模型的基礎之上，再追加了後續的地上式消防栓的照片。 . 訓練集使用制水閥、地下式與地上式消防栓近照在後續追加上了地上式消防栓的種類，並進行訓練。TP 為 682，FP. 為 11，FN 為 15。Precision 為 98.41%，Recall 為 97.85%。在追加上了地上式消防栓後，跟原本單以制水閥與地下式消防栓近照進行訓練相比， Percision 從 99.23%降至 98.41%，Recall 從 98.84%降至 97.85%。雖然降幅微小，但實際上在加入了地上式消防栓後，有略為影響到原本對制水閥與地下式消防栓的判定門檻。並且地上式消防栓的判定也比制水閥與地下式消防栓較不那麼精準。表 4-12 使用制水閥、地下式與地上式消防栓近照訓練之模型結果. 實際為制水閥. 辨識為制. 辨識為地下式. 辨識為地上式. 辨識為無. 水閥. 消防栓. 消防栓. 目標. 332. 0. 0. 6. 1. 260. 0. 0. 0. 0. 90. 8. 6. 2. 2. x. 實際為地下式消防栓實際為地上式消防栓實際上無目標. 37.

(48) . 訓練集使用制水閥、地下式與地上式消防栓近照以及門牌與街牌照片在閥栓巡檢系統實驗的最後，為了希望單以一個模型進行辨識用以. 節省系統辨識時間，將會嘗試將所有的種類皆加入訓練。TP 為 896，FP 為 64，FN 為 32；Precision 為 93.33%，Recall 為 96.55%。在本次實驗結果中，發現到地下式消防栓被判為制水閥的狀況增加。實際確認照片成果發現，此一情況發生時皆為多重判定，也就是同一個目標同時被判為地下式消防栓與制水閥。為了抑制這種情況，在最後一個模型中，本研究選擇再多增加一個類別置信度的門檻值。此一門檻值原先預設為 0.25，此一門檻也是為原論文作者中所使用之門檻值。在本研究中，True Positive 的類別置信度平均為 88.64%，考慮到類別置信度高低不一之問題，最終使用了 75%作為類別置信度門檻。修改過門檻值後，TP 變成了 880，FP 為 30，FN 為 48；Precision 為 96.70%，Recall 為 94.83%。在犧牲掉了 1.72%的 Recall 後，Precision 提升了 3.37%。以數量上而言，False Positive 的數量減少了一半以上。表 4-13 及表 4-14 為使用 25%以及 75% 作為門檻值之混淆矩陣。. 38.

(49) 表 4-13 使用所有種類照片訓練，門檻值為 25%結果辨識為地. 辨識為地. 辨識為. 辨識辨識為. 下式消防. 上式消防. 制水閥. 辨識為為街. 門牌. 無目標. 栓. 栓. 牌. 333. 0. 0. 0. 0. 3. 3. 260. 0. 0. 0. 0. 0. 0. 94. 0. 0. 6. 0. 0. 0. 185. 3. 6. 0. 0. 0. 3. 24. 8. 9. 5. 3. 10. 28. x. 實際為制水閥實際為地下式消防栓實際為地上式消防栓實際為門牌實際為街牌實際上無目標. 39.

(50) 表 4-14 使用所有種類照片訓練，門檻值為 75%結果辨識為地. 辨識為地. 辨識為. 辨識辨識為. 下式消防. 上式消防. 制水閥. 辨識為為街. 門牌. 無目標. 栓. 栓. 牌. 331. 0. 0. 0. 0. 8. 0. 259. 0. 0. 0. 1. 0. 0. 90. 0. 0. 10. 0. 0. 0. 179. 3. 15. 0. 0. 0. 0. 21. 11. 3. 1. 10. 4. 18. x. 實際為制水閥實際為地下式消防栓實際為地上式消防栓實際為門牌實際為街牌實際上無目標. 40.

(51) 4.2 道路破損檢測 4.2.1 實驗流程道路破損檢測的部分，由於一開始的資料不足，但希望能先評估以類神經網路進行模型建構可能的成效，因此先採用了新北市政府網站上所提供之照片作為訓練資料集。數量上總數為 3314 張照片。而根據文獻[23]上之實驗數據，可以預想到使用類神經網路對整張照片進行預測其結果並沒有辦法達到如同閥栓辨識之效果。分類以 2.2.2 節之中表 2-1 為基準，在將紅黃線與白線破損等以顏色為基準區分開來。由於種類過多，若將種類名稱直接置於表格中將會造成判讀困難，因此以下將種類以縮寫表示。表 4-15 道路破損種類縮寫對應表 WL. White line damaged. P. Potholes. RL. Red line damaged. CD. Crosswalk damaged. YD. Yellow line damaged. BC. Block crack. TC. Transverse crack. AC. Alligator crack. LC. Longitudinal liner crack. 41.

(52) 而在本實驗中，由於使用了 YOLOv3 的網路架構，原本的實驗設備不足以運行此一網路架構，因此使用了另外一套設備：GPU 為 NVDIA GTX1080Ti 11G、CPU 為 AMD Ryzen5 1600、RAM 配置為 16G。而道路破損部分有分為縱向裂紋和橫向裂紋，因此實驗將不採用隨機旋轉照片進行網路訓練。圖 4-4 是訓練流程圖。. 圖 4-4 道路破損模型訓練流程圖. 42.

(53) 4.2.2 實驗結果與討論 . 使用 YOLOv3-tiny 網路最早依循著先前閥栓巡檢系統的經驗，希望使用 YOLOv3-tiny 的網. 路即可完成模型訓練，並獲得較高之精準度，因此先以此一神經網路進行了神經網路的訓練。TP 為 285，FP 為 245，FN 為 1073。Precision 為 53.77%，Recall 為 20.99%。表 4-16 YOLOv3-tiny 模型訓練結果 WL. P. RL. CD. YL. BC. TC. AC. LC. None. WL. 43. 0. 0. 0. 0. 0. 0. 0. 0. 208. P. 0. 72. 0. 0. 0. 0. 0. 3. 0. 161. RL. 0. 0. 7. 0. 3. 0. 0. 0. 0. 104. CD. 0. 0. 0. 0. 0. 0. 0. 0. 0. 4. YL. 0. 0. 0. 0. 32. 0. 0. 0. 0. 243. BC. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. TC. 0. 0. 0. 0. 0. 0. 0. 0. 0. 3. AC. 0. 0. 0. 0. 1. 0. 0. 131. 1. 331. LC. 0. 0. 0. 0. 0. 0. 0. 0. 0. 19. None. 73. 10. 12. 0. 69. 0. 0. 73. 0. x. 43.

(54) . 使用 YOLOv3 網路根據上一個實驗結果，可以發現到 YOLOv3-tiny 在道路破損偵測這. 方面表現十分不好，因此再來使用了 YOLOv3 網路進行訓練，期望較大型的類神經網路架構可以獲得較好的成果。TP 為 377，FP 為 344，FN 為 960。Precision 為 52.29%，Recall 為 28.20%。就實驗結果而言，雖然在 Precision 從 53.77%微幅降至 52.29%，但 Recall 從 20.99%大幅提升至 28.20%。由此一結果本研究道路破損的部份決定採用 YOLOv3 作為網路架構。表 4-17 YOLOv3 模型訓練結果 WL. P. RL. CD. YL. BC. TC. AC. LC. None. WL. 73. 0. 0. 0. 0. 0. 0. 0. 0. 178. P. 0. 113. 0. 0. 0. 0. 0. 3. 0. 120. RL. 0. 1. 11. 0. 4. 0. 0. 0. 0. 98. CD. 1. 1. 0. 0. 0. 0. 0. 0. 0. 2. YL. 0. 0. 0. 0. 54. 0. 0. 0. 0. 221. BC. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. TC. 0. 0. 0. 0. 0. 0. 0. 0. 0. 3. AC. 0. 0. 0. 0. 1. 0. 0. 143. 1. 319. LC. 0. 0. 0. 0. 0. 0. 0. 0. 0. 19. None. 104. 12. 15. 0. 72. 0. 0. 111. 0. x. 44.

(55) . 使用 YOLOv3 網路，追加上街景車照片取得街景車照片後追加進訓練資料。相較於新北市政府網站上之照. 片，其照片大小固定為 4000*6000 pixel，照片解析度極高，由於照片解析度過高會造成進行訓練用之電腦負荷不了，因此需先將照片進行縮放至 2000*3000 pixel。TP 為 1486，FP 為 1341，FN 為 5507。Precision 為 52.56%，Recall 為 21.25%。表 4-18 使用新北市政府網站照片加上街景車照片訓練結果 WL. P. RL. CD. YL. BC. TC. AC. LC. None. WL. 110. 0. 0. 0. 0. 0. 0. 3. 0. 997. P. 1. 627. 0. 0. 0. 0. 0. 1. 0. 263. RL. 0. 0. 3. 0. 1. 0. 0. 0. 0. 87. CD. 1. 0. 0. 0. 0. 0. 0. 0. 0. 3. YL. 1. 0. 2. 0. 72. 0. 0. 0. 0. 715. BC. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. TC. 0. 0. 0. 0. 0. 0. 21. 0. 1. 434. AC. 0. 1. 0. 0. 0. 0. 5. 658. 8. 2165. LC. 0. 2. 0. 0. 0. 0. 0. 2. 44. 843. None. 247. 166. 12. 0. 183. 0. 44. 495. 119. x. 45.

(56) . 使用 YOLOv3 網路，使用分割辨識，資料集重設在使用街景車照片之前提下，檢查結果照片發現相較於整張街景車. 照片，較小目標(約 50x50 pixel 以下)幾乎無法辨識，因此本研究預計採用一簡單之分割方法，將畫面分為四等分以及九等分。如圖 4-5 所示。. 圖 4-5 分割示意圖包含原本圖像，共進行十四次辨識。之所以同時使用四等分與九等分，是為了避免在分割時發生目標物被切割開來之狀況。在分類結果部分，四等分與九等分所辨識出來的區域會先分別計算每個類別中目標框與目標框之間的 IOU。當 IOU 大於 80%時，則會捨棄兩目標框中 Objectness 較低之目標框，用以避免重複判定之情況。並且考量到資料集數量中，Block Crack 數量較少，決定在本次實驗中移除此項。Tranverse Crack 和 Longitudinal Liner Crack 此二項數量也較少，一為縱向一為橫向，將此併為一項 Liner Crack。最後是 Crosswalk Damage 併至 White Line Damage 中，並將 Red Line Damage 跟 Yellow Line Damage 一同併至 White Line Damage，重新定義為 Line Damage。最後標籤內容剩下四項 Potholes、Alligator Crack、Line Damage、Liner Crack。TP 為 644，FP 為 540，FN 為 1646。Precision 為 54.39%，Recall 為 28.12%。. 46.

(57) 表 4-19 使用分割辨識結果 P. AC. LD. LC. NONE. P. 294. 0. 0. 2. 568. AC. 0. 237. 0. 0. 387. LD. 1. 0. 36. 2. 93. LC. 7. 0. 3. 77. 598. NONE. 186. 291. 15. 33. x. . 使用 YOLOv3 網路，限縮照片區域本研究檢查上一實驗所產生之結果照片，發現較小目標物被檢測出. 來，但是來自於其他種類的誤判，如電線桿上之電線，或者是樹枝影子等等，數量也提升許多。為了抑制此一類誤判，因此使用了限縮街景車照片區域之作法，如圖 4-1 所示，將範圍限縮於照片 1/4 的區域，此一區域基本上僅含有道路區塊，且不含有街景車以及天空等不需要之資訊。 TP 為 694，FP 為 389，FN 為 1603。Precision 為 64.08%，Recall 為 30.21%。. 圖 4-6 照片區域變更示意圖 47.

(58) 表 4-20 限縮照片區域進行訓練結果 P. AC. LD. LC. NONE. P. 328. 0. 0. 2. 534. AC. 0. 233. 0. 0. 391. LD. 0. 0. 42. 1. 90. LC. 3. 0. 3. 91. 588. NONE. 144. 191. 14. 31. x. 實驗結果整體上而言表現較差，本研究推測出幾種可能會造成此一結果的原因： (1) 標籤條件不一：由於本次研究，道路破損辨識的部分是與日陞空間資訊合作，標籤的部分是由日陞空間資訊負責，同時請了好幾個人進行標籤，標籤的定義不一。類似的龜裂標籤狀況分成了兩種，一種是標了整塊，一種是分成了好幾塊。 (2) 計算方式與現實狀況不符：計算預測是否為實際標籤的時候，使用的計算是預測與實際標籤的 IOU 大於 80%，但由於第一項所提到的問題，造成預測可能只判斷了某一小塊，而標籤是一大塊，IOU 低於 80%，因此將此一預測判定為 FP 或 FN。. 48.

(59) 第五章結論與未來展望 5.1 結論本研究期望使用類神經網路來進行閥栓巡檢照片檢查系統以及道路破損檢測系統，為此本論文先以 YOLOv3-tiny 類神經網路進行閥栓巡檢系統之模型建置，並且在嘗試多種類的近遠照混和以及增加負面訓練資料集等不同的條件後，確認限縮在近照之內的閥栓辨識模型效果最佳。此模型之 Precision 可以到達 99.23%，Recall 也有 98.84%。而在多了地上式消防栓的種類之後 Precision 變為 98.41%，Recall 為 97.85%，都僅有微幅降低。且其辨識效果並不受照片光影變化以及照片方向性之問題影響。門牌與街牌辨識的部分，訓練完成後的模型也可以以符合作業標準之門檻進行門牌與街牌辨識。若是遇到文字無法辨認出之門牌或街牌，會將其判定為不合格之照片，如果是照片旋轉過後可辨認出門牌或街牌上之文字之照片，則判定其為合格。並且也嘗試過將閥栓照片輸入門牌辨識模型，以及將門牌照片輸入閥栓辨識模型，都僅有些微的機率會發生誤判。並且閥栓與門牌辨識也可以使用同一個模型來完成，並且通過設定適當的門檻值可以在僅降低些許 Precision 的前提下提升模型 Recall。依據此實驗結果證明，使用 YOLOv3-tiny 可以建構出準確的閥栓辨識模型與門牌辨識模型，且此閥栓辨識模型與門牌辨識模型符合實際上作業之需求。道路破損之部分，雖然其辨識成效無法到達 7 成之辨識準確率，但本研究配合街景車之高解析度照片，使用 YOLOv3 可以在一定程度保留高解析度下，進行道路破損檢測。並且本研究中提出一簡單但有效之操作，將欲辨識之照片分別切為四等分與九等分，並對每一等分分別進行預測。此一操作能有效提升 Recall，並且微幅提升 Precision。並從實驗結果來看，YOLO 網 49.

(60) 路在道路破損檢測上，對於坑洞(Pothole)以及龜裂(Alligator Crack)的偵測效果是比較好的。與之前使用 Single Shot Detection 之文獻[23]相比，此篇文獻中坑洞的 Recall 僅有 2%，而以本研究中所使用之 YOLOv3 網路以及本研究中所設定之參數，其 Recall 高上許多。但其餘標線破損等辨識是劣於此篇論文的，這一點仍須改進。. 5.2 未來展望閥栓巡檢系統建置所需之模型已經獲得 99.23%之準確率以及 98.84%之召回率，未來期望能將此一模型配套上資料庫，實現「實時閥栓照片檢測系統」，在作業人員上傳照片之同時，即可提醒所拍攝照片是否合格以及照片上傳順序是否有誤，用以減少照片出錯使得外業人員重複進行作業以及內業作業之成本。未來也希望能將門牌辨識配合上 Optical Character Recognition(OCR，光學文字辨識)，以期能在照片上傳之同時，即可完成地址之辨識。而使用類神經網路進行道路破損檢測此一研究尚未有研究團隊有突破性的進展，而使用整張照片進行辨識的團隊也不多。在目前目標檢測的演算法尚在持續發展中，未來希望能使用其餘神經網路架構如 CornerNet [26]進行辨識，以及使用 Octave Convolution [27]替換掉原本 YOLO 中的卷積層，以期能提升道路破損檢測之效果。. 50.

(61) 參考文獻 [1] 萬國法律事務所，交通部公路總局 - 「道路工程引發國家賠償案件之研究分析」研究報告， h t t p s : / / w w w. a a c . m o j . g o v. t w / c t . a s p ? x I t e m = 4 4 2 8 4 1 & c t Node=44532&mp=289 [2] C. Mertz, “Continuous road damage detection using regular service vehicles,” Proceedings of the ITS world congress, pp. 5-8, 2011. [3] A. Mednis, G. Strazdins, R. Zviedris, G. Kanonirs, and L. Selavo, “Real time pothole detection using android smartphones with accelerometers,” 2011 International conference on distributed computing in sensor systems and workshops (DCOSS), IEEE, pp. 1-6, Jun. 2011. [4] I. Abdel-Qader, O. Abudayyeh, and M. E. Kelly, “Analysis of edgedetection techniques for crack identification in bridges,” Journal of Computing in Civil Engineering, vol. 17, no. 4, pp. 255-263, Oct. 2003. [5] Y. Shi, L. Cui, Z. Qi, F. Meng, and Z. Chen, ‘‘Automatic road crack detection using random structured forests,’’ IEEE Transactions on Intelligent Transportation Systems, vol. 17, no. 12, pp. 3434–3445, Dec. 2016. [6] H. Oliveira and P. L. Correia, ‘‘Automatic road crack detection and characterization,’’ IEEE Transactions on Intelligent Transportation Systems, vol. 14, no. 1, pp. 155–168, Mar. 2013. [7] L. Zhang, F. Yang, Y. D. Zhang, and Y. J. Zhu, ‘‘Road crack detection using deep convolutional neural network,’’ 2016 IEEE international conference on image processing (ICIP), IEEE, pp. 3708-3712, Sep. 2016. [8] Y.-J. Cha, W. Choi, and O. Buy¨ uk¨ ozt ¨ urk, “Deep learning-based crack ¨ damage detection using convolutional neural networks,” Computer‐Aided Civil and Infrastructure Engineering, vol. 32, no. 5, pp. 361–378, Mar. 2017. [9] 新北市路平報馬仔，https://rdm.ntpc.gov.tw/Road/NewCase.aspx [10] labelImg https://github.com/tzutalin/labelImg [11] J. Redmon, "Darknet: Open Source Neural Networks in C," http://pjreddie.com/darknet/, 2013~2016. [12] R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Rich feature hierarchies for accurate object detection and semantic segmentation,”. 51.