基於邊緣計算和深度學習之病媒蚊分類系統
全文
(2) 摘要 登革熱與日本腦炎是由病毒所引起的一種傳染病,經由蚊子傳播給人類,在 最近一次 2015 年的台南市爆發登革熱的疫情,最初只出現在台南市北部地區, 接著以驚人的速度擴散到全台南市,最終蔓延至台灣全島。當年,確診病例超 過 4 萬人,死亡病例也高達 218 人,而且未發病的感染者約為發病者的九倍至十 倍。若患者再次被病媒蚊叮咬造成交叉感染,則重症死亡率會大幅度提升至 20%以上,而且目前沒有預防疫苗,也沒有特效藥物可治療,而引發登革熱的病 媒蚊為埃及斑蚊(Aedes aegypti)與白線斑蚊 (Aedes albopictus)。而日本腦炎的 致死率大約為 20%以上,存活病例約有 40%有神經相關的後遺症,而且亦目前 沒有特效藥可治療,引發日本腦炎的病媒蚊為三斑家蚊(Culex tritaeniorhynchus) 與環蚊家蚊(Culex annulus),避免病媒蚊叮咬是目前唯一的預防方法。 為解決登革熱與日本腦炎問題,本篇論文提出病媒蚊分類系統,這是一套影 像分類準確率高達 98%以及計數功能的智慧捕蚊系統,其中包含邊緣計算、深 度學習的影像處理和 電腦視覺,主要功能在邊緣計算為物體偵測,深度學習為 斑蚊分類與計數,透過這些步驟,改善了現今捕蚊燈、滅蚊燈不能分類 (Classification)蚊子種類。並以智慧捕蚊裝置收集影像資料,主要資料收集與處 理正是引發登革熱的兩種台灣常見的病媒蚊種類──白線斑蚊與埃及斑蚊以及引 發日本腦炎的兩種台灣常見的病媒蚊種類──三斑家蚊與環蚊家蚊,並在分類時 以斑蚊 (Aedes) 和家蚊 (Culex) 進行二元分類,由於此系統與裝置獲得更多台灣 蚊子資訊,其資訊包含進入捕蚊燈的蚊子數量、種類以及時間、地點,以便後 續作為對病媒蚊採取措施的重要參考依據。 關鍵字:登革熱、邊緣計算、深度學習、卷積神經網路、影像處理、電腦視覺 i.
(3) Abstract Dengue fever and Japanese encephalitis are mosquito-borne diseases which are infectious diseases caused by viruses, they. It is particularly dangerous for children and can lead to death, less than 1 percent of cases cause fatalities even with proper medical care, according to the World Health Organization (WHO). However, dengue fever symptoms which may include a high fever, headache joint pains and muscle, and a skin rash. typically begin three days to two weeks after infection. In the most recent outbreak of dengue fever in Tainan City, Taiwan in 2015. It first appeared only in the northern part of Tainan City, then it spread to all over Tainan City at an alarming rate ,and eventually it spread to all over whole Taiwan islands. In that year, the number of confirmed cases exceeded 40,000, and the number of death reached 218. Actually, there are no vaccines for prevention and there are no specific drugs for treatment. However, the mosquitoes that cause dengue fever are Aedes aegypti and Aedes albopictus, and the mosquito that causes Japanese encephalitis are Culex tritaeniorhynchus and Culex annulus. The most importantly, avoiding vector mosquitoes bites is the only way to prevent dengue fever and Japanese encephalitis. In order to alleviate the problem of dengue fever and Japanese encephalitis, this paper proposes the vector mosquitoes classification system. This system is a intelligent mosquito-catching system with image classification accuracy of up to 98%. This system includes Edge Computing, Deep Learning Image Processing, and Computer Vision to improve the problem of classification in mosquito traps and mosquito killer lamp. The main data collection and processing are the two species of mosquitoes common in Taiwan causing Dengue fever: Aedes albopictus and Aedes aegypti, and two types of Taiwanese common mosquitoes that cause Japanese encephalitis. Culex ii.
(4) tritaeniorhynchus and Culex annulus. In this paper, Aedes and Culex were used for binary classification.. This system and device will obtain more information on. mosquitoes in Taiwan, the information includes the number , type and time and place of vector mosquitoes. This can provide important information to take measures against vector mosquitoes.. Keywords : dengue fever, edge computing, deep learning, convolutional neural network, CNN, image processing, computer vision. iii.
(5) 目錄 附圖目錄 .......................................................... VI. 第一章 緒論 ....................................................... 1 第二章 文獻探討 ................................................... 3 第一節 第二節 2.2.1. 蚊子分類相關研究 ......................................... 3 物體偵測研究背景 ......................................... 3 背景相減法 (Background Subtraction) ......................... 4. 2.2.2 第三節 2.3.1 2.3.2 第四節 2.3.1 2.3.2 2.3.3 2.3.4. 高斯混合模型 (Gaussian Mixture Model, GMM) ................. 5 多物體追蹤研究背景 ....................................... 7 k-平均 (k-means) .......................................... 7 光流算法 (Median Flow) .................................... 8 卷積神經網路研究背景 ..................................... 9 卷積層 (Convolution Layer).................................. 9 激活函數 (Activation Function) .............................. 10 池化層 (Pooling Layer) .................................... 11 全連接層 (Fully Connected Layer) ........................... 12. 第三章 病媒蚊分類系統 ............................................ 13 第一節 第二節 3.2.1 3.2.2 第三節 3.3.1 3.3.2. 系統架構 ................................................ 13 硬體開發 ................................................ 14 硬體介紹 ................................................ 14 硬體最佳化 .............................................. 15 感興趣區域 .............................................. 17 彩色轉灰階 .............................................. 17 背景更新 ................................................ 18. 3.3.3 3.3.4 3.3.5 3.3.6 第四節. 前景面積計算 ............................................ 19 物體偵測門檻設立 ........................................ 20 多物體二維定位 .......................................... 21 感興趣區域 .............................................. 26 卷積神經網路 ............................................ 26. 第四章 實驗分析 .................................................. 28 第一節 4.1.1. 以混和資料集訓練卷積神經網路 ............................ 28 訓練資料設定 ............................................ 28. 4.1.2 4.1.3 4.1.4. 卷積神經網路架構混合資料模型參數設定 .................... 29 測試方法 1............................................... 31 測試方法 2............................................... 32 iv.
(6) 4.1.5 第二節 4.2.1 4.2.2 4.2.3 4.2.4 4.2.5 第三節 4.3.1 4.3.2 4.3.3 4.3.4. 測試方法 3............................................... 33 非混合資料集訓練卷積神經網路 ............................ 34 訓練資料設定 ............................................ 34 卷積神經網路非混合資料模型參數設定 ...................... 36 代入測試資料辨識病媒蚊影格 .............................. 37 代入測試資料辨識病媒蚊影片 .............................. 38 混合資料模型與非混合資料模型 ............................ 39 系統實作 ................................................ 40 實驗設定 ................................................ 41 實驗環境 ................................................ 41 資料收集結果 ............................................ 42 資料收集小結 ............................................ 43. 第五章 結論與未來展望 ............................................ 44 第六章 附錄 ...................................................... 45 第一節 第二節. 改變最佳化函數對訓練的影響 .............................. 45 改變激活函數對訓練的影響 ................................ 46. 第七章 參考文獻 .................................................. 47. v.
(7) 附圖目錄 圖 圖 圖 圖 圖 圖. 1 2 3 4 5 6. : : : : : :. 高斯混合模型近似 ---------------------------------------------- 6 影像卷積 ------------------------------------------------------ 9 影像池化 ----------------------------------------------------- 11 全連接層 ----------------------------------------------------- 12 系統架構 ----------------------------------------------------- 14 硬體元件 ----------------------------------------------------- 15. 圖 圖 圖 圖 圖 圖 圖 圖 圖. 7 : 智慧捕蚊裝置 ------------------------------------------------- 15 8 : 相機成像原理 ------------------------------------------------- 16 9 : 影像處理 ----------------------------------------------------- 18 10 : 錄影狀態 ---------------------------------------------------- 19 11 : 病媒蚊前景面積統計圖 ---------------------------------------- 19 12 : 物體偵測流程 ------------------------------------------------ 21 13 : 二值化 ------------------------------------------------------ 22 14 : 像素統計 ---------------------------------------------------- 23 15 : 像素統計特徵擷取 -------------------------------------------- 24. 圖 圖 圖 圖 圖 圖 圖 圖 圖 圖 圖 圖 圖 圖 圖 圖. 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31. : : : : : : : : : : : : : : : :. 物體定位 ---------------------------------------------------- 24 感興趣區域 -------------------------------------------------- 26 卷積神經網路架構 -------------------------------------------- 27 混合資料卷積神經網路訓練結果 -------------------------------- 30 利用所有測試資料 1 影格代入模型的辨識結果 -------------------- 31 利用剩餘測試資料 1 影格辨識病媒蚊影片 ------------------------ 32 利用測試資料 2 的所有影格辨識病媒蚊影片 ---------------------- 33 非混合資料卷積神經網路訓練結果 ------------------------------ 36 以非混合模型辨識病媒蚊影格 ---------------------------------- 37 以非混合模型辨識病媒蚊影片 ---------------------------------- 38 實驗地點 ---------------------------------------------------- 40 實驗環境 ---------------------------------------------------- 42 野外資料 ---------------------------------------------------- 43 實驗室資料 -------------------------------------------------- 43 改變最佳化函數訓練結果 -------------------------------------- 45 改變激活函數的訓練結果 -------------------------------------- 46. vi.
(8) 第一章. 緒論. 透過台灣衛生福利部疾病管制署顯示,登革熱,會由蚊子傳播病毒給人類, 所以傳播病毒的蚊子則稱為病媒蚊,然而這種病毒可以分為四種型別,如果重 複感染不同型登革病毒,會引起不同程度的反應,可能導致嚴重器官損傷、出 血的登革熱重症甚至高達 20% 以上的死亡率,而台灣正是滋養埃及斑蚊及白線 斑蚊等引發登革熱的高風險地區,更重要的是,目前沒有安全的疫苗接種、特 效藥可以預防、治療登革熱,最近的疫情爆發正是 2015 的台南市地區,最初只 出現在台南市北部地區,接著以驚人的速度擴散到全台南市,最終蔓延至台灣 全島。再者,根據世界衛生組織統計,每年約在 100 個國家流行,有五千萬位病 患,而且 50 年來登革熱的引發病例數是過去的 30 倍,很顯然地,登革熱已經為 世界級的蚊蟲媒介傳染病。日本腦炎也是由病媒蚊引起的急性腦膜腦炎,可能 受損部位包括了腦、腦膜以及脊髓,台灣以三斑家蚊與環蚊家蚊為主要傳播媒 介,感染者大約有 1% 出現急性腦炎,發病致死率大約為 20% 到 30 %,存活的 病例之中,也有 30% 到 50%有精神性或神經性的後遺症,然而自 1960 年就有日 本腦炎預防接種,但是目前還是沒有特效藥可治療,因此這四種病媒蚊便是本 篇論文的實驗對象。 由此可知,蚊子是許多疾病的媒介,這些疾病已經導致許多人的死亡,為了 預防這些病媒蚊問題,我們首先要找出疾病的元兇──病媒蚊,為了找出這些病 媒蚊,在現今有許多分類、辨識的方式出現,辨識的技術也日新月異,例如有 利用 DNA 序列以高準確率辨識各種蚊子種類 [1],也有利用感測器翅膀振動頻 率、飛行聲音的波形高準確率辨識蚊子之間的種類 [2][3][4],也有透過影像特徵 辨識分類蚊子與蜜蜂 [5]。然而這些現有的研究都是在實驗室下進行的結果,所 1.
(9) 以本篇論文提出一套利用影像處理與電腦視覺技術實現的分類系統,並完成結 合蚊蟲誘捕器而成的可以實現自動化收集的智慧捕蚊裝置,並將收集的資料進 行斑蚊 (Aedes) 與家蚊 (Culex)的分類系統,所以做出下列幾點貢獻: 1. 驗證資料準確率高達 98% 的病媒蚊分類系統。 2. 測試資料辨識準確率達到 90.5% 3. 實作為智慧捕蚊裝置,提供病媒蚊種類、數量、時間、地點等資訊。 病媒蚊分類系統包含了感興趣區域、卷積神經網路,皆是以電腦視覺與影 像處理為主要技術。感興趣區域,技術包含物體偵測及追蹤,其中本研究實現 物體偵測在微型處理器上實現了分散式概念的邊緣計算,接著在運算中心執行 更準確的物體追蹤步驟,得到感興趣區域作為卷積神經網路的輸入資料,將四 種病媒蚊依登革熱、日本腦炎發病的種類不同二元分類,分為斑蚊 (Aedes) 與家 蚊 (Culex)兩種,訓練結果高達交叉驗證 (Cross Validation) 98% 分類準確率,在 本研究實驗章節將逐步討論與呈現卷積神經網路訓練結果以及驗證資料集、測 試資料 皆達到辨識 90% 以上,並實作於野外環境,完成智慧捕蚊及病媒蚊分類 系統。. 2.
(10) 第二章. 文獻探討. 本章節首先探討蚊子分類的相關研究,探討各領域研究結果遇到的難題, 並利用本研究影像處理方法改善,在本章節也會提到運用影像處理的相關技術 背景,並逐步討論現今應用的研究主題。. 第一節. 蚊子分類相關研究. 透過基因辨識 [1],可以分類 24 種蚊子,最高達到到 100% 辨識準確率,由 於此方法分類流程繁雜,以及研究參數昂貴,難以大量實際應用,現今,又出 現利用光學及聲學,感測蚊蟲翅膀振動頻率來分類 [2][3][4],可以分類 9 種蚊子, 準確率達到 89.55% 以上,但是為了感測翅膀振動,條件限制了蚊蟲必須穩定飛 行,這或許也是難以大量實際應用的原因,而在影像分類現今也有蚊子與蜜蜂 的分類 [5],利用在機器學習透過蚊子與蜜蜂的影像差異來分類,透過專業影像 拍攝人員來取得資料,並沒有利用感測器自動收集資料。所以本研究將利用影 像感測器自動收集資料,病將資料依據登革熱與日本腦炎的病媒蚊二分類。. 第二節. 物體偵測研究背景. 為了將相機拍攝的影像資料進行分類,在分類蚊子時,首先需要完成物體 追蹤,並切割為感興趣區域,以便加快神經網路訓練收斂速度及提高準確率, 然而物體追蹤最重要的是將背景與前景分 ──背景去除,而分割出前景的方法主 要有背景相減法與高斯混合模型兩種方法,其中背景相減法是計算像素差異程 度,高斯混合模型為學習背景亮度變化的方法。 為了得到感興趣區域,必須完成物體追蹤,而物體追蹤,首先必須先知道 影像中物體位置──物體定位,而在物體定位之前必須先判斷有無物體──物體偵 3.
(11) 測,在大多數的影像處理研究,物體偵測先轉換成灰階 [6] 來加快計算速度,並 將前景物體與背景分開 [7][8][9][14][15][16][17],由此可以得前景物體區域,然 而一個背景去除評定的優良程度取決於雜訊的多寡。. 2.2.1. 背景相減法 (Background Subtraction). 顧名思義,只需要一個背景影像參數便可以直接將前景減去背景,而雜訊 的多寡主要取決於拍攝環境的光線變因,然而為了得到第𝑡影格F𝑡 的像素矩陣 𝑃[𝐹𝑡 ],在影像序列中的第 𝑡 影格 I𝑡 的像素矩陣 𝑃[𝐼𝑡 ] 和背景𝐵的像素矩陣 𝑃[𝐵] 相減即可,其函式如: 𝑃[𝐹𝑡 ] = |𝑃[𝐼𝑡 ] − 𝑃[𝐵]|. (1). 然而 𝑃[𝐹𝑡 ] 為移動中的動態物體,𝑃[𝐵]為靜態物體,難免會有因光源而產生的雜 訊所以 [15] 透過設立門檻值 T 來檢測連續前景的移動中物體像素差異度,當差 異度大於門檻值時,則判斷為前景像素,否則為背景像素,其函式如: |𝑃[F𝑡 ] − 𝑃[F𝑡+1 ]| > 𝑇. (2). 這個計算方式的準確率往往取決於物體的移動速度 [16],如果移動速太快則產生 模糊的物體影像,所以通常移動速度較快的物體會需要更高的門檻值𝑇才能較準 確分出動態物體與靜態物體,而這種算法的優點為簡單、快速,此種方法特別 適用於光源穩定的環境,由於在本篇研究設計的攝影通道為穩定光源,所以這 種正是適合在有限效能微型處理器的方法,在不影響錄影每秒影格(Frame per Second,FPS) 的情況下完成擷取前景,然而對於背景更新,本篇研究對於微型 感測器亦提出另一種方式,在第三章病媒蚊分類將會再逐步介紹。. 4.
(12) 2.2.2. 高斯混合模型 (Gaussian Mixture Model, GMM). 由於影像的像素值通常是不會固定的,其不固定的原因主要分成兩大類, 其一為移動所造成的像素改變,包含物體移動以及相機搖晃所造成的變化。其 二為亮度的變化,在靜態的影像中,即便沒有移動中物體,也會有因外界光源 或相機引起的陰影來影響像素,因此利用常態分布來趨近於色階分布並模型化、 更新背景是較適合的方式 [9][17][18]。對於第 𝑡 影格 𝑥𝑡 的數據集 𝑥1 , 𝑥2 , … , 𝑥𝑡 並 取得像素的平均數 𝜇𝑖,𝑡 、標準差 𝜎𝑖,𝑡 後,進行常態分布機率密度函數 𝑝(𝑥𝑡 ),其函 式如下: 𝑛 2 𝑝(𝑥𝑡 |𝑤𝑖,𝑡 , 𝜇𝑖,𝑡 , 𝜎𝑖,𝑡 ) = ∑(𝑤𝑖,𝑡 × 𝑁( μ𝑖,𝑡 , 𝜎𝑖,𝑡 )). (3). 𝑖=1. 2 𝑁( μ𝑖,𝑡 , 𝜎𝑖,𝑡 )=𝜎. 1. 𝑖,𝑡 √2𝜋. 𝑒. −. (𝑥𝑡 − μ𝑖,𝑡)2 2𝜎2 𝑖,𝑡. (4). 𝑛 為常態分布個數,是以分群法將色階圖形分為 n 個群聚,如圖 1 需要 3 個常態 分布來趨近於圖形,所以 𝑛 = 3 。𝑤𝑖 為第 i 影格的常態分布權重。在得到背景的 機率密度函數之後,將現在的像素和歷史像素的平均比較,判斷是否在 𝑘 個標 準差內,依據 [9][17][18] 得知,𝑘 通常會假設為 2.5 1 , |𝑥𝑡 − μ𝑖−1 | ≤ 𝑘 × 𝜎𝑖,𝑡 𝑀𝑖,𝑡 = { 0 , |𝑥𝑡 − μ𝑖−1 | > 𝑘 × 𝜎𝑖,𝑡. 5. (5).
(13) (a)原始色階分布. (b)高斯混合模型近似. 圖 1 : 高斯混合模型近似 𝑀𝑖,𝑡 為第 t 影格第 i 個近似常態分布的判斷結果,如果符合上述公式的背景 需求,則該像素屬於背景且結果為 1,否則屬於前景結果為 0,並透過下列公式 進行更新背景權重。 𝑤𝑖,𝑡 = (1 − 𝛼)𝑤𝑖,𝑡−1 + 𝛼𝑀𝑖,𝑡. (6). α 為更新背景的幅度,通常假設為 0.5,在得到權重之後,變可改善移動所造成 的像素變化以及亮度變化兩大影響背景的主因,適性更新背景資訊,因此能夠 適應光源變化的環境,在模型初始化則是利用 k-平均 (k-means) 分群法來初始化 得到參數 𝑤0,𝑡 , 𝜇0,𝑡 , 𝜎0,𝑡 ,k-平均分群法會在 2.2.1 介紹。 這兩種方法主要差異是背景相減沒有更新背景的方式,而高斯混合模型可以透 過常態分布機率密度函數來更新參數,並使用適性學習背景資訊,在光源變化 的環境會有比較好的表現效果。. 6.
(14) 第三節. 多物體追蹤研究背景. 現今有許多種類的物體追蹤技術 [10][11][20][21][22][23], 然而這些物體追蹤 方法都有將多物體分群或分類的共通點,將影像視為二維資料,利用分群方式 將多物體分群。. 2.3.1. k-平均 (k-means). 將 n 筆資料劃分成為 k 個類別,目的是為了找到第 i 群 𝑆𝑖 的中心 𝜇𝑖 ,使得 屬於第 i 群 𝑆𝑖 中的每筆資料 𝑥𝑗 到 𝜇𝑖 為最小 [23],因此須符合下列算式: 𝑘 2. 𝑚𝑖𝑛(∑ ∑ (𝑥𝑗 − 𝜇𝑖 ) ). (7). 𝑖=1 ∀𝑥𝑗 ∈𝑆𝑖. 而初始便是以隨機 k 筆資料作為群中心 μ1, μ2 , … , μ𝑘 ,並計算每筆資料 𝑥𝑖 到 μ𝑖 必 須為最短距離,由此可以將所有資料分為 k 群。接著固定 𝑆𝑖 在 𝑥𝑗 內找出新的 μ𝑖 , 由此重複步驟直到收斂為最小值。但是因為初始群中心是以隨機取得,因此每 次執行的結果可能會不同,在初始群中心設定不好的情況下,會發生不好的結 果。但是在影像方面,在物體不重疊的情況下,可以先透過物體定位來得知物 體個數,由此可以解決此方法最大缺點,並保留比起神經網路計算較快速的優 點而當 𝑥𝑗 只有一筆資料時 𝑗 = 1,將會和歐幾里得距離的平方相同,函式如下, 而詳細步驟說明包含五步驟: 𝑛. d(𝑥, 𝑦) = √∑(𝑥𝑖 − 𝑦𝑖 )2. (8). 𝑖=1. 1. 設定 k : 根據設定的群數量 k,隨機選擇所有資料集中 k 筆資料當作群中心。. 7.
(15) 2. 初始化 : 計算各個樣本到群中心的距離,並將資料歸類為最近的群中心, 產生 k 個群。 3. 更新群中心 : 計算每個群之中的樣本平均數位置貨中心位置,並將群中心 改變為該位置 4. 判斷分群是否收斂 : 將新群中心與舊群中心,如果為同一位置,代表已經 收斂,收斂則前往步驟 5,否則重複 2、3。 5. 判斷是否需要群合併 : 若任一兩群體距離太近,或是某一群只有群中心為 資料點,表示必須減少群數量,並且合併這些群、回到步驟 1,反之,則前 往步驟 6。 6. 得到分群結果 : 可以得到群個數、群中心以及每一群的資料。. 2.3.2. 光流算法 (Median Flow). 利用圖像亮度描述物體的移動訊息[24],假設在第 t 時間為影像 𝐼 的像素, 表示為 𝐼𝑡 ,對於圖像 𝐼𝑡 上一點 𝑢 像素為 u = (𝑢𝑥 , 𝑢𝑦 ),並表示為 𝐼𝑡 (𝑢),在 𝐼𝑡+1 可 以找到一點 v 像素為 𝑣 = (𝑢𝑥 + 𝑑𝑥, 𝑢𝑦 + 𝑑𝑦),並表示為 𝐼𝑡+1 (𝑣),v 和 𝑢 的像素 質最接近,而向量 𝑑 = [𝑑𝑥, 𝑑𝑦] 為 𝑢 的移動速度,即為 𝑢 的光流,而變換矩陣 𝐴 使得 𝐴𝑢 = 𝑣,則 𝐴 可表示為 : 1 + 𝑑𝑥𝑥 𝐴=[ 𝑑𝑦𝑥. 𝑑𝑥𝑦 ] 1 + 𝑑𝑦𝑦. (9). 所以必須在 𝐼𝑡+1 找到一區域大小寬為 2𝑤𝑥 + 1,高為 2𝑤𝑦 + 1 和 𝐼𝑡 的某區域相 同大小的像素差異度為最小,因此將此最小化公式可以表示為: 𝑢𝑥 +𝑤𝑥. 𝑚𝑖𝑛( ∑. 𝑢𝑦 +𝑤𝑦. ∑. 2. (𝐼𝑡+1 (𝑢𝑥 + 𝑑𝑥, 𝑢𝑦 + 𝑑𝑦) − 𝐼𝑡 (𝑢𝑥 , 𝑢𝑦 )) ). 𝑥=𝑢𝑥 −𝑤𝑥 𝑦=𝑢𝑦 −𝑤𝑦. 8. (10).
(16) 此種方法相較於 k-平均考慮了物體的方向性,在對於方向不固定的物體有較好 的效果但是也無法真正解決物體重疊問題,因此在方法的選擇下本研究還是使 用 k-平均來實作物體追蹤。. 第四節. 卷積神經網路研究背景. 在影像辨識,深度學習中的卷積神經網路有非常強大的學習能力,有非常 好的分類結果 [12][13][26][27][28][29][30][31][32],許多分類模型也是由此作為 基礎去延伸,主要包含三層,卷積層 (Convolution Layer)、池化層 (Pooling Layer)、全連接層 (Fully Connected Layer),並加入激活函數解決一些非線性問題 將. 複. 2.3.1. 雜. 問. 題. 簡. 單. 化. 。. 卷積層 (Convolution Layer). 卷積是一種運算方式,將原始圖片與特定的濾波即為卷積,運算符號為 , 而影像可視為一個二維像素矩陣,並和核心矩陣卷積,而可以得到一個新的特 徵影像,影像卷積運算如圖 2。. (a)卷積運算. (b) 原始影像 圖 2 : 影像卷積. 9. (c) 卷積後影像.
(17) 這種特徵汲取方式會透過核心矩陣的不同有好幾種結果,而卷積層就是透 過這種方式,利用大量不同的核心矩陣來獲得原始影像中不同的特徵,圖 3 採用 邊界補 0 來維持卷積後的影像大小,若不使用邊界補 0 則長寬皆會減少 2。. 2.3.2. 激活函數 (Activation Function). 常見的激活函數有四種,加入非線因素,使神經網路可以逼近任意函數, 其中有 S 曲線函數(Sigmoid),取值範圍為 (0,1),可以將一個實數 z 映射到 (0,1) 的區間,在二分類有較好的效果,其函式為: 𝑓(𝑧) =. 1 1 + 𝑒 −𝑧. (11). 第二種正切函數 (Tanh),取值範圍為[-1,1],通常在特徵差異明顯的資料會有較 好的效果,其函式為: 𝑒 𝑧 − 𝑒 −𝑧 𝑓(𝑧) = 𝑧 −𝑧 𝑒 +𝑒. (12). 第三種為歸一化指數函數 (Softmax),可將一個 K 維度的實數向量中的每個元素 j 都映射成另一個 K 維度的實數向量元素,取值範圍為 (0,1),常用於多分類問 題,其函式為: 𝑒 𝑧𝑗 σ(z)𝑗 = 𝐾 ∑𝑘=1 𝑒 𝑧𝑘. (13). 第四種為線性整流函數(Rectified Linear Unit, ReLU),最常被使用於圖像辨識, 將一部分神經元輸出為 0 來減少參數相依性,取值範圍為[0, ∞)其函式為: 𝑓(𝑧) = 𝑚𝑎𝑥 (0, 𝑧). (14). 在本篇研究以線性整流函數為主要激活函數,並在分類時使用 S 曲線函數幫助 二分類,由此達到快速收斂的效果。 10.
(18) 2.3.3. 池化層 (Pooling Layer). 利用最大池化 (Max Pooling) 挑出矩陣當中的最大值,有濾波抗雜訊、保留 主要特徵功能,可以適應平移、旋轉與放大縮小,會接在卷積層與激活函數進 行運算,其影像池化運算結果如圖 3。. (a)池化運算. (b)卷積後影像. (c)池化後影像. 圖 3 : 影像池化. 池化層後的影像大小會因池化取值矩陣的大小而改變,一般池化取值矩陣 會設定為二階方陣。以圖 3 為例,池化取值矩陣為二階方陣,因此輸出的影像結 果比起原始影像大小會減半。然而在深度學習中,在接入全連接層之前,卷積 層與池化層通常會不只一層,會透過多層次適當地疊加卷積層、激活函數與池 化層來擷取大量資料特徵,由此而得到非常好的學習效果,故稱為深度學習, 而在影像方面,通常會先擷取感興趣區域再接入卷積神經網路,以便加快收斂 速度與省去大量權重調整的時間 [12][13],調整權重的時間往往遠大於擷取感興 趣區域的時間。 11.
(19) 2.3.4. 全連接層 (Fully Connected Layer). 在接入全連接層之前,必須先將影像矩陣平坦化成為一維矩陣才可以接到 最基本人工神經網路 (Artificial Neural Network, ANN),亦可稱為多層感知器 (Multilayer Perceptron, MLP),全連接層會將所有的特徵給予權重並分類,如圖 4, 而前面因為有卷積層的層層疊加緣故,所以整個網路稱為卷積神經網路。. 圖 4 : 全連接層 在輸入層會接收影像平坦化的一維資料,並將接收到的所有資料發送給隱藏 層中所有的神經元,而隱藏層即是多層感知器的核心,可以結合激活函數來近 似任意複雜的函數,並將結果發送給給題目訂定的輸出單元數目。此全連接層 作為卷積神經網路的尾端,在此層有許多的參數需要調整,選擇適合訓練模型 的最佳化演算法,必然是最重要的事情。. 12.
(20) 第三章. 病媒蚊分類系統. 是一套影像處理為主要技術的病媒蚊分類法,並將分類法實作於以成本零件實 作的蚊蟲誘捕系統,並達到準確率 98%以上可以有效率傳輸、儲存病媒蚊影像 資料,其資料包含種類、數量的病媒蚊分類系統。. 第一節. 系統架構. 系統架構可依處理技術分為邊緣計算與深度學習,邊緣計算是一種分散式 計算,主要技術為物體偵測,而實現物體偵測的方法為電腦視覺與影像處理, 而使用邊緣計算主要有下列兩個原因: 1. 節省容量 : 因為微處理器的儲存空間有限,因此透過物體偵測只儲存有物體 的影像分割檔,也能讓循環錄影儲存更長時間的資料集。 2. 降低傳輸量 : 先將沒有物體的影像過濾掉,透過物體偵測而只需傳輸有物體 進入錄影通道的影片分割檔。 而目前在微型處理器無法執行感興趣區域以及卷積神經網路,所以必須將 資料回傳至網路中心節點再作運算,當物體影像資料傳輸到網路中心點時,會 開始進行感興趣區域擷取與深度學習分類,而在監督式學習中,深度學習在影 像處理有非常好的表現,其系統架構如圖 5,邊緣計算會執行在邊緣節點─影像 感測器與微型處理器,在邊感測器收集到的資料會透過無線網路傳輸至雲端資 料庫,接著把資料下載到網路中心點─伺服器與運算中心,最後將收集到的資 料進一步切割感興趣區域以及訓練卷積神經網路來分類與辨識。. 13.
(21) 圖 5 : 系統架構. 第二節. 硬體開發. 因為目前還沒有真正會分類蚊子的產品,所以本篇研究將運用微型處理器、 感測器、蚊蟲誘捕裝置相結合,完成第一個結合蚊蟲誘捕器的病媒蚊分類系統 ──智慧捕蚊裝置,而本節將講述如何將這些零件完成智慧捕蚊裝置。. 3.2.1. 硬體介紹. 實驗使用 Raspberry Pi 3 Model B 作為微型處理器,這是一款基於 Linux 的單晶片電腦,因為提供了四核心的 ARMv8 CPU,有利於邊緣計算,能三項同步 進行物體偵測、傳輸以及錄影,而且內建無線網卡以及支援 Pi camera V2.1 相 機模組,此相機模組是 Sony IMX219 影像感測器,它提供了 1080p、每秒 30 幀 的錄影功能。. (a) Raspberry Pi. (b)Pi Camera. (c)攝影通道 (d) 風力集中元件 14.
(22) 圖 6 : 硬體元件 由圖 6 硬體元件組成結合市售捕蚊燈成為一套低成本、自動化的智慧補蚊 裝置,如圖 7,而此蚊蟲誘捕器為光觸媒捕蚊燈,利用光觸媒的紫外光吸引、捕 捉蚊子進入風力集中元件與通道,當蚊子進入由 3D 列印印製出的攝影通道時會 透過影像感測器錄影來收集資料,並且首先開始再微型處理器進行物體偵測, 再傳輸資料給網路中心進行病媒蚊分類。. 圖 7 : 智慧捕蚊裝置. 3.2.2. 硬體最佳化. 為了將 Pi Camera V 2.1 的功能最大利用,雖然在靜態拍攝的情形可以到 800 萬像素,但是由於蚊子飛進智慧捕蚊裝置靜止的機率太低,以及蚊子飛行速 度太快,故使用 1080p、30FPS 錄影的方式代替靜態拍攝,並測量鏡頭廣角角度 與焦距並等比例設計攝影管子如圖 6(b),並在後方設計四個放置 LED 燈泡的小 洞以便提供穩定光源。. 15.
(23) 圖 8 : 相機成像原理 首先固定相機焦距,利用相機成像原理測量錄影角度以及錄影範圍,如圖 8,在白紙上繪製水平與垂直刻度,並將白紙平行相機並置於焦距點,接著透過 錄影影像來得到攝影角度以及範圍,最後以此為基礎來等比例設計攝影通道。 然而為了有更好的前景與背景對比度,攝影通道利用 3D 列印機印製白色實體, 而白色在彩圖 RGB 的色階為 (255,255,255),正好和斑蚊的黑色(0,0,0)成最大 對比,然而也需要有足夠的光源提供給拍攝鏡頭將背景照亮,以利於病媒蚊分 類系統,因此設計四個 LED 燈泡的放置孔洞以提供光源。. 16.
(24) 第三節. 感興趣區域. 是影像中使用者想要的區域,這個區域就是影像處理所關注的焦點。框出 或標記這個區域,這個區域內的所有像素就是感興趣區域,那麽要處理的原始 影像就從一個大影像變為一個小影像區域了,像素個數會縮減許多,但是卻可 去除不必要的像素──大量背景雜訊,以便進行進一步處理,一個好的切割感 興趣區域的好法,可以減少後續處理的執行時間、增加後續處理經度。. 3.3.1. 彩色轉灰階. 三通道轉換一通道,因為只需要判斷有無物體,所以加快影像處理速度,以 便後續步驟只設立一個門檻值的物體偵測,在轉換成灰階,因人眼對紅色、綠 色及藍色的感光程度不同而有不同的係數,詳細彩色轉灰階的轉換係數來源為 [6],此種轉換式比起直接像素平均可以讓人眼有較好的感受,結果如圖 9(a) 轉換為 (c),錄影原始影像為寬 1080 像素,高 1920 像素故假設 0 ≤ w < 1920 與 0 ≤ h < 1080。 y. 𝑔. 𝑃𝑤,ℎ [𝑆t ] = 0.299𝑃𝑤,ℎ [Itr ] + 0.587𝑃𝑤,ℎ [𝐼𝑡 ] + 0.114𝑃𝑤,ℎ [𝐼𝑡𝑏 ]. (15) y. 𝑦. 對第 t 原始影格的 𝑆𝑡 進行灰階化,得到灰階影像 𝑆𝑡 的矩陣中每個像素𝑃𝑤,ℎ [𝑆t ],. 上標y、r、𝑔、𝑏分別為灰階、紅、綠、藍。. (a)原始影格. (b)背景影格. 17.
(25) (c)彩色轉灰階. (d)背景相減 圖 9 : 影像處理. 3.3.2. 背景更新. 為了判斷是否有拍攝到物體,故此步驟取得物體前景,初始化背景為第一張 影像,如圖 9(b) 為背景影像。 𝑦. 𝑦. (16). 𝑃𝑤,ℎ [𝐵0 ] = 𝑃𝑤,ℎ [𝑆0 ] 𝑦. 𝐵0 為第一張灰階背景影像矩陣。在循環錄影之下,隨著物體進出攝影通道,背 景的狀態也會隨之改變,如圖 10,狀態 0 為沒有偵測到物體,狀態 1 為偵測到 物體,在由 0 轉換成 1 時,會開始記錄影格,當由 1 轉換成 0 時,會將紀錄的 影格傳輸至網路中心,並且重置計數器,而在 3.3.4 分割檔結束時,會進行背 𝑦. 𝑦. 景更新 𝑃𝑤,ℎ [𝐵𝑡 ] = 𝑃𝑤,ℎ [𝑆𝑡 ] ,在其餘狀態則不會,由此較能適應背景的變化。. 18.
(26) 圖 10 : 錄影狀態 經過初始化背景與背景更新之後,接著計算第 𝑡影格灰階像素位置的差異度來得 𝑦. 到前景 [15],所以利用灰階影像代入函式 (1),得到𝐹𝑡 為前景灰階影像矩陣, 結果如圖 9(d),其函式如下: 𝑦. 𝑦. 𝑦. 𝑃𝑤,ℎ [𝐹𝑡 ] = |𝑃𝑤,ℎ [𝑆𝑡 ] − 𝑃𝑤,ℎ [𝐵𝑡 ]|. 3.3.3. (17). 前景面積計算. 在以計算像素差異度得到前景之後,相加相差度 50 以上每個像素來計算第 𝑡 影格的前景面積 A𝑡 ,其函式如下 1919 1079. 𝑦. 𝑃𝑤,ℎ [𝐹𝑡 ] − 50 A𝑡 = ∑ ∑ ⌈ ⌉ 𝑦 𝑃𝑤,ℎ [𝐹𝑡 ]. (18). 𝑤=0 ℎ=0. 透過這種計算前景面積的方式,可以將大量病媒蚊資料運算來統計結果,如圖 11。圖 9(d)計算出來的前景面積為 2722,而這個數值為圖 11 的其中一筆資料。. 圖 11 : 病媒蚊前景面積統計圖 此圖是由 100 隻不同的家蚊 (Culex) 與斑蚊 (Aedes) 的前景最小與最大的前景面 積資料繪製而成,其中藍線為斑蚊前景面積的分布情形,紅色為家蚊前景面積. 19.
(27) 的分布情形,由此圖顯示,可以知道家蚊的成體會比斑蚊的成體體型還要大, 然而這個統計圖也符合視覺上的大小以及台灣環境有害生物管理協會統計的現 實情況,然而這個統計圖可以用來作為病媒蚊物體偵測的門檻值。而圖中的藍 線與紅線的重疊區域也告訴我們,不能利用簡單的前景面積大小來分類病媒蚊 種類,所以需要本研究另外的影像處理技術─卷積神經網路。. 3.3.4. 物體偵測門檻設立. 此步驟為如果前景面積 A𝑡 超過最小物體門檻值。由圖 11 得知,進入本智慧 捕蚊裝置的最小物體前景面積為 482,即為圖中最左方的點,但是有可能會發生 比 482 更小的蚊蟲進入裝置,所以首先預設門檻值 T=400,當 A𝑡 ≥ 𝑇 則傳輸該 影像分割檔,若 A𝑡 < 𝑇 則不傳輸該分割檔,然而這個步驟正是邊緣計算的錄影 狀態最後一步。如圖 12 為邊緣上的物體偵測計算詳細步驟流程圖,採用循環錄 影並物體偵測來有效率傳輸與分割檔案,在網路中心點接收到的影像必然為有 物體的影像檔案。. 20.
(28) 圖 12 : 物體偵測流程 在完成物體偵測之後,因為目前還無法在微型處理器同步執行錄影以及分類, 所以先將分割檔傳輸至網路中心再進行深度學習的訓練以及分類,在接收到有 物體的影像檔案後,必須先知道物體位置並追蹤才能切割出該檔案內的物體區 域,所以在網路中心點的第一步驟便是多物體二維定位。. 3.3.5. 多物體二維定位. 由於只有一個拍攝鏡頭,當多個物體重疊進入裝置時,會發生難以計算數量、 辨識,所以使用物體二維定位來改善此情形,但是還是無法對重疊的物體進行 準確地追蹤。作為網路中心點第一步驟,首先將接收到的影像檔案進行二值化, 產生黑白圖,將 50 像素差異度以上記為白色 255,小於 50 則記為黑色 0,透過 這個公式可以得到第𝑡影格最高對比度的白色前景與黑色背景H𝑡 ,其函式如:. 21.
(29) 𝑦. 𝑃𝑤,ℎ [𝐻𝑡 ] = {. 0 , 𝑖𝑓 𝑃𝑤,ℎ [𝐹𝑡 ] < 50 𝑦. 255, 𝑖𝑓 𝑃𝑤,ℎ [𝐹𝑡 ] ≥ 50. (a)單一物體原始圖. (19). (b)單一物體二值化. (c)兩物體原始圖. (d)兩物體二值化 圖 13 : 二值化. 由圖 13(a)、(c) 分別二值化可以得到 (b)、(d),然而物體入境時,可以視為狀態 波的產生,因此透過像素統計水平波與垂直波,計算每單位寬的白色像素個數 𝑁(𝑤) 與每單位高的白色像素個數 𝑁(ℎ),其函式如下: 1079. 𝑁(𝑤) = ∑ 𝑖=0 1919. 𝑁(ℎ) = ∑ 𝑗=0. 𝑃𝑤,𝑖 [𝐻𝑡 ] 255 𝑃𝑗,ℎ [𝐻𝑡 ] 255. (20). (21). 22.
(30) (a). (b). (c). (d) 圖 14 : 像素統計. 圖 14(a)、(b) 分別為圖 13(b) 的高與寬白色像素統計結果,圖 14(c)、(d) 分別為 圖 13(d)的高與寬白色像素統計結果,而只要取出波的特徵就可以完成多物體追 蹤,因為傳到網路中心的最小斑蚊的前景面積至少為 400,故由此訂定白色像素 門檻值為 10,影像寬與長的像素總和白色像素在 10 以上設為 1、小於 10 設為 0, 並由圖 14 分別得到圖 15。. (a). (b). 23.
(31) (c). (d) 圖 15 : 像素統計特徵擷取. 接下來可以將寬與高的刻度視為時間序列,將圖 15 以時序大於 10 且為 1 取出區 間,然後以區間中點繪製直線至影像,完成物體定位結果如圖 16。. (a)單一物體. (b)兩物體 圖 16 : 物體定位. 由圖 16 可以得知,單一物體即為直線交點位置,但是在多物體則焦點不一定是 物體位置,若有 n 個物體,則最多有𝑛2 個交點,這是多物體才有的問題,為了 解決交點問題,將所有直線交點當作中心點,併畫出邊長 350 像素的正方形框, 若正方形框內的白色面積大於 100,則才可以判斷此交點為物體位置。然而在單 一鏡頭的限制之下,使用此方法目前沒有辦法解決多物體重疊定位。但是本篇 論文在為期 3 個月設置智慧捕蚊裝置收集蚊子的實驗之中,並未有多物體進入 的狀況,而圖 16(b) 為人工放入斑蚊拍攝結果,但是在現實生活中,多物體重 疊的情形終有一日會發生,所以在未來還是會首先解決這個問題。在此利用歐 24.
(32) 幾里得距離將前一影格的物體交點集 𝑋 = {𝑥0 , 𝑥1 , … , 𝑥𝑖 } 與現在影格的物體交點 集 𝑌 = {𝑦0 , 𝑦1 , … , 𝑦𝑖 } 進行物體分群,其函式如下: 𝑛. d(X, Y) = √∑(𝑥𝑖 − 𝑦𝑖 )2. (22). 𝑖=1. 透過這個函式,將距離最近的連續影格交點判斷為同一物體,由此步驟成完物 體追蹤,所有邊長 350 方框內的像素,正是感興趣區域,這是將一個寬 1920、 高 1080 的原始圖去除背景雜訊,結果成為寬 350、高 350 的方法,不但可以 加速卷積神經網路訓練速度,訓練精度也提升非常多,在實驗章節也將討論使 用感興趣區域與不使用感興趣區域對訓練卷積神經網路的差異。. 25.
(33) 3.3.6. 感興趣區域. 透過多物體二維定位,得到了物體的感興趣區域,得到圖 12。而在作為神經 網路訓練模型,總共有 100 隻不同的斑蚊與 100 隻不同的家蚊,斑蚊包含白線 斑蚊與埃及斑蚊,家蚊包含環紋家蚊與三斑家蚊,是依據引發疾病的不同而二 元分類。其中同一隻蚊子的影片分割檔會取 4 張不同的影格,故為 400 張斑蚊 影格與 400 張家蚊,總共 800 張不同的影格,而每一張感興趣區域寬與高為 350。 然而因為斑蚊與家蚊影像判斷不外乎為大小、顏色與形狀,故此使用彩色原始 影像當作訓練的輸入資料,如圖 17。. (a) 班蚊感興趣區域. (b) 家蚊感興趣區域. 圖 17 : 感興趣區域 在得到感興趣區域,獲得大量可以作為卷積神經網路的輸入資料,可以開始訓 練分類模型。然而感興趣區域在影像辨識佔了非常重要的地位,如果不使用此 技術而直接將原始資料輸入卷積神經網路,對於參數調整則會花費更巨大的時 間,也因為原始資料圖像較大,訓練時花費時間也比較久。. 第四節. 卷積神經網路. 雖然深度學習中的利用監督式學習,訓練卷積神經網路必須花費大量時間, 但是也能得到可觀的準確率,架構為圖 18,例如本研究的初始設定批次處理數 26.
(34) 量為 16,在卷積層接使用線性整流函數 (ReLU) 作為激活函數,並且在雙全連 接層中間以取樣 80% 來防止過度擬合 (Overfitting)以及以 S 曲線,最後利用 [25] 提出之適性梯度算法 adam,透過卷積層層疊加,選擇適合的激活函數、 最佳化函數來訓練。然而訓練一個好的卷積神經網路模型,需要收集大量資料 集來支援。. 圖 18 : 卷積神經網路架構. 27.
(35) 第四章 實驗分析 本章節將會討論如何透過訓練卷積神經網路來實現、評估病媒蚊分類, 並 以多個分類模型與多個驗證資料與測試資料衡量辨識準確率,並分析分類結果。 並在系統實作章節介紹野外資料收集實驗相關設定。. 第一節. 以混和資料集訓練卷積神經網路. 訓練一個能較好適應各種情形的卷積神經網路模型,選擇適合激活函數與 最佳化函數必然是最重要的事情,而在訓練之前,我們必須先設定初始化參數, 以及需要標籤訓練資料、驗證資料的實際結果,才能以監督式學習開始訓練, 並有兩個由不同資料訓練而成的模型實驗,本章是混合野外真實資料與實驗室 資料的探討。. 4.1.1 訓練資料設定 實驗對象為白線斑蚊、埃及斑蚊、三斑家蚊、環紋家蚊,這四種蚊子可 以依據引發疾病的不同,可以分類為登革熱病媒斑蚊──白線斑蚊、埃及斑蚊, 以及日本腦炎病媒家蚊──三斑家蚊、環紋家蚊,而訓練會因為驗證資料與測 試資料不同,而有不同的訓練模型,來二分類,斑蚊 (Aedes)、家蚊 (Culex), 而設定如下: 1.. CPU : Intel i7-8700K. 2.. GPU : Nvidia GTX 1080. 3.. 混合資料集 : (1) 全部野外斑蚊資料集 29 隻、部分隨機實驗室斑蚊資料集 71 隻, 一共 100 隻斑蚊 28.
(36) (2) 全部野外家蚊資料集 47 隻、部分隨機實驗室家蚊資料集 53 隻, 一共 100 隻家蚊 4.. 訓練與驗證資料集 : 一隻蚊子隨機取 4 幀,一共 400 幀斑蚊,400 幀家蚊. 5.. 驗證資料 : 四分之一交叉驗證 (Cross Validation),可以得到四個模 型. 6.. 測試資料 1 : 取剩餘影格,1832 幀斑蚊、1673 幀家蚊. 7.. 測試資料 2 : 利用其他未使用 43 隻斑蚊影片與 76 隻家蚊影片. 卷積神經網路架構混合資料模型參數設定. 4.1.2. 經過多次的嘗試,本研究卷積神經網路架構如圖 18,並設定以下參數, 這些參數是經過多次的選擇、調整,對本研究資料有最好的訓練結果,也是在 此章節衡量所有測試資料結果的標準模型: 1.. 最佳化函數 : adam [25]. 2.. 激活函數 : ReLU. 3.. 學習率 (learning Rate) : 0.001. 4.. 損失函數: cross entropy. 5.. 批次大小 (batch size) : 16. 6.. 損失函數 : 二元交叉熵 (binary cross entropy). 7.. 驗證與測試準確率計算方式 :準確率 (accuracy) =. (TP+TN) TP + TN + FP + FN. 訓練結果是由四分之一交叉驗證得到的四個模型,再取平均訓練的驗證資料準 確率。透過交叉驗證方式,可以衡量一個模型是否穩定學習、是否穩定收斂, 然而一個好的模型必然會是低誤差、高準確率,如圖 19,然而若不使用本研究 29.
(37) 取得感興趣區域的方法,將原始影像資料,原始資料的影像寬 1920、高 1080 當作訓練模型輸入,其結果如圖 19 (a),使用感興趣區域,前處理後的影像資 料 長 350 、高 350 當作訓練模型輸入,其結果如圖 19 (b),利用相同模型參 數設定來衡量感興趣區域對分類模型的影響。. (a). (b) 圖 19 : 混合資料卷積神經網路訓練結果 由圖 19 可以顯示,(a) 不使感興趣區域會導致無法收斂,其原因為原始圖片太 多背景雜訊,前景特徵比例太少,無法凸顯物體重要資訊,並且在每個訓練週 期 (Epoch)平均需要花費 652 秒,(b) 使用感興趣區域後,結果能夠快速收斂 至 98% 以上,每個訓練週期 (Epoch)平均需要花費 38.2 秒,由此得知,使用 本研究切割感興趣區域的,結果如圖 17,此方法是有助於讓收集病媒蚊資料訓 30.
(38) 練使用度大幅提升,在相同模型訓練參數之下,比起直接使用原始影像資料, 能夠得到更快速、更穩定收斂、訓練好的分類模型,設定模型參數的時間也會 因感興趣區域的好壞變得更加簡單調整,這已經是卷積神經網路領域中不可或 缺的一環。一個好的分類模型之後必先經過層層考驗,接下來就是再進一步辨 識測試資料。. 4.1.3 測試方法 1 利用測試資料 1,將剩餘資料所有影格全部代入分類模型。全部野外斑蚊資 料集 29 隻、部分隨機實驗室斑蚊資料集 71 隻,以及全部野外家蚊資料集 47 隻、 部分隨機實驗室家蚊資料集 53 隻,一共各 100 隻斑蚊與家蚊,去除掉的訓練資 料與驗證資料,剩餘資料中,斑蚊有 1832 幀、家蚊有 1673 幀,將所有不同的影 格輸入分類模型,此種混合輸入方法是為了找出野外資料對訓練結果的影響, 而結果以混淆矩陣 (confusion matrix)呈現準確率 (accuracy) 達到 96.3%,如圖 20。. 圖 20 : 利用所有測試資料 1 影格代入模型的辨識結果 以相同蚊子影片不同影格可以達到辨識單一影格準確率 96.3% ,或許是 因為相同蚊子,在不同影格的影像表現相似,但是可以另用這一種方式套用在 測試資料 1 的影片之中。. 31.
(39) 4.1.4. 測試方法 2 利用測試資料 1,以剩餘影格辨識與計算病媒蚊影片。全部野外斑蚊資料. 集 29 隻、部分隨機實驗室斑蚊資料集 71 隻,以及全部野外家蚊資料集 47 隻、部分隨機實驗室家蚊資料集 53 隻,一共各 100 隻斑蚊與家蚊。將病媒蚊 影片中剩餘影格代入分類模型,取多數影格被辨識的類別作為辨識結果,例如 , 某一斑蚊影片剩餘 12 幀,大於 7 幀辨識為斑蚊,則會正確判斷為此影片為斑 蚊,某一斑蚊影片剩餘 14 幀,大於 8 幀辨識為家蚊,則會錯誤判斷此影片家 蚊,因為影片是由許多連續影格所組合而成,因此同一隻蚊子不只有一次的辨 識機會,當以大於一半的影格辨識的類別當作結果,其結果混淆矩陣如圖 21。. 圖 21 : 利用剩餘測試資料 1 影格辨識病媒蚊影片 由此可知,影片有辨識容錯率,雖然在單張影格表現不佳,但是以投票 的方式來辨識病媒蚊影片卻有非常好的結果,可以達到 0 誤差辨識、計算病媒 蚊,但這或許也是因為在不同影格的影像表現相似而產生的結果,因此我們接 續討論不同蚊子不同影格代入模型的結果。. 32.
(40) 測試方法 3. 4.1.5. 測試資料 2,利用額外測試資料辨識病媒蚊影片,其中有 43 隻斑蚊與 76 隻家 蚊影片,是以不同於訓練卷積神經網路時的蚊子與影格,將病媒蚊影片中的全 部影格代入分類模型,並取多數影格被辨識的類別作為辨識結果,例如,某一 斑蚊影片全部 16 幀,大於 9 幀辨識為家蚊,則會錯誤判斷為此影片為家蚊, 某一家蚊影片剩餘 14 幀,大於 8 幀辨識為家蚊,則會正確判斷此影片家蚊。 結果如圖 22。. 圖 22 : 利用測試資料 2 的所有影格辨識病媒蚊影片 由此可知,用於不同蚊子、不同影格的資料集中,也能有辨識率 92.4%, 透過這些資料結果可以顯示,這個模型是非常適合辨識斑蚊與家蚊,並得到這 四點結果: 1.. 驗證資料影格集,斑蚊與家蚊分類準確率達到 98% 以上. 2.. 測試資料影格集,斑蚊與家蚊辨識準確率達到 96.3%. 3.. 相同蚊子不同影格測試資料影片集,斑蚊與家蚊辨識準確率達 100%. 4.. 不同蚊子不同影格測試資料影片集,斑蚊與家蚊辨識準確率達 92.4%. 33.
(41) 混合資料集對不同的驗證與測試資料都會有辨識準確率大於 92% 的結果,因此 這個分類模型是能適合用於辨識斑蚊與家蚊。. 第二節. 非混合資料集訓練卷積神經網路. 同理,訓練一個能較好適應各種情形的卷積神經網路模型,選擇適合激 活函數與最佳化函數必然是最重要的事情,而在訓練之前,我們必須先設定初 始化參數,以及需要標籤訓練資料、驗證資料的實際結果,才能以監督式學習 開始訓練,並有兩個由不同資料訓練而成的模型實驗,本章是非混合野外真實 資料與實驗室資料的探討,並可以得到與前一章節不同的結果。經過多次的嘗 試,與上一章節的模型架構相同,本研究卷積神經網路架構如圖 18,並設定下 列 7 個參數,這些參數是經過多次的選擇、調整,對本研究資料是最好的訓練 結果,也是在此章節衡量測試資料結果的標準模型。. 4.2.1 訓練資料設定 實驗對象為白線斑蚊、埃及斑蚊、三斑家蚊、環紋家蚊,這四種蚊子可以依據 引發疾病的不同,可以分類為登革熱病媒斑蚊──白線斑蚊、埃及斑蚊,以及 日本腦炎病媒家蚊──三斑家蚊、環紋家蚊,而訓練會因為驗證資料與測試資 料不同,而有不同的訓練模型,來二分類,斑蚊 (Aedes)、家蚊 (Culex),而 設定如下: 1.. CPU : Intel i7-8700K. 2.. GPU : Nvidia GTX 1080. 3.. 訓練影片集 : (1) 部分隨機實驗室斑蚊資料集 80 隻,一共 1786 幀,隨機取 1700 幀 (2) 部分隨機實驗室家蚊資料集 80 隻,一共 1709 幀,隨機取 1700 幀 34.
(42) 4.. 驗證影片集 : (1) 剩餘實驗室斑蚊資料集 34 隻,一共 527 幀,隨機取 500 幀 (2) 剩餘實驗室家蚊資料集 49 隻,一共 775 幀,隨機取 500 幀. 5.. 測試資料 : (1) 全部野外斑蚊資料集 29 隻,一共 481 幀 (2) 全部野外家蚊資料集 47 隻,一共 779 幀. 區分出野外資料與實驗室資料,以實驗室資料訓練、驗證模型,最後在將野外 資料輸入訓練好的分類模型,由於訓練時必須以相同數量的標籤類別,因此訓 練影片集各取 1700 幀,驗證影片集各取 500 幀,以此可以得知實驗室資料是 否也能辨識野外資料,在這個章節會逐步分析、探討這些辨識結果,而在訓練 之前,同樣必須預先設定模型參數,並在下一小節會逐步說明。. 35.
(43) 4.2.2 卷積神經網路非混合資料模型參數設定 與上一章節提到的模型卷積神經網路架構相同,如圖 18,並設定以下參數,這 些參數是經過多次的選擇、調整,對本研究資料有最好的訓練結果,也是在此 章節衡量驗證資料與測試資料的標準模型,參數如下: 1.. 最佳化函數 : adam [25]. 2.. 激活函數 : ReLU. 3.. 學習率 (learning Rate) : 0.001. 4.. 損失函數: cross entropy. 5.. 批次大小 (batch size) : 16. 6.. 損失函數 : 二元交叉熵 (binary cross entropy). 7.. 驗證與測試準確率計算方式 :準確率 (accuracy) =. (TP+TN) TP + TN + FP + FN. 一個好的模型必然會是低誤差、高準確率,直接使用感興趣區域,因此前處理 後的影像資料 長 350 、高 350 當作訓練模型輸入,結果如圖 23。. 圖 23 : 非混合資料卷積神經網路訓練結果. 36.
(44) 與前一章節的混合訓練資料訓練結果不同,由於輸入更大量的非混合訓練 資料,在第一訓練週期結束就達到驗證資料 70% 以上,並且在第 10 週期開始 穩定收斂至 98% 以上,但大量的輸入資料,並不代表測試資料的準確率也會隨 之上升,而我們會在下一小節討論。. 4.2.3 代入測試資料辨識病媒蚊影格 利用測試資料代入非混合資料模型,全部野外斑蚊資料集 29 隻以及全部 野外家蚊資料集 47 隻,斑蚊一共 481 幀、家蚊一共 779 幀,並以混淆矩陣 (confusion matrix) 顯示其結果,如圖 24。. 圖 24 : 以非混合模型辨識病媒蚊影格 相較於混合資料模型辨識病媒蚊影格結果 96.3% 的圖 20,非混合資料模型 結果 90.5%的圖 24,更大量的訓練資料模型並沒有得到更好的結果,其原因可 能是因為野外資料存在不一樣的變因,包含亮度影響比實驗室大,病媒蚊特徵 不盡相同等原因,但是還是達到影格辨識率 90.5%,而本篇重點研究是辨識影 片中的病媒蚊種類,因此我們下一小節將直接應用,然而因為影片由多影格組 成,會有不只一次的辨識機會,所以辨識影片可以提高容錯率。. 37.
(45) 4.2.4 代入測試資料辨識病媒蚊影片 利用測試資料代入非混合資料模型,包含全部野外斑蚊資料集 29 隻以及 全部野外家蚊資料集 47 隻,斑蚊一共 481 幀、家蚊一共 779 幀,辨識方法 為辨識病媒蚊影片中全部影格,並取得多數影格被辨識的類別作為辨識結果。 例如 ,某一斑蚊影片全部 16 幀,大於 9 幀辨識為斑蚊,則會正確判斷為此 影片為斑蚊,以混淆矩陣 (confusion matrix) 顯示,如圖 25。. 圖 25 : 以非混合模型辨識病媒蚊影片 相較於混合資料模型辨識病媒蚊影片結果 100% 的圖 21,非混合資料模型 辨識病媒蚊影片結果 96.0% 的圖 24,更大量的訓練資料模型也沒有得到更好的 結果,其原因也可能是因為野外資料存在不一樣的變因,包含亮度影響比實驗 室影像資料大上一點,病媒蚊特徵不盡相同等原因,不過比起單張影格的辨識 率 90.5%,辨識影片可以提高容錯率,提升到影片辨識率 96.0%。有了由混合 資料模型與非混合資料模型,我們可以進一步探討其產生結果的背後原因。. 38.
(46) 4.2.5 混合資料模型與非混合資料模型 本章節將探討不同的模型與測試資料之間的關係,透過以上章節測試資料,本 研究得到以下幾點結果: 1.. 混合資料模型,實驗室測試資料結果: (1) 驗證資料影格集,斑蚊與家蚊分類準確率達到 98% 以上 (2) 測試資料影格集,斑蚊與家蚊辨識準確率達到 96.3% (3) 相同蚊子不同影格測試資料影片集,斑蚊與家蚊辨識準確率達 100% (4) 不同蚊子不同影格測試資料影片集,斑蚊與家蚊辨識準確率達 92.4%. 2.. 非混合資料模型,野外測試資料結果: (1) 驗證資料影格集,斑蚊與家蚊分類準確率達到 98% 以上 (2) 測試資料影片集,斑蚊與家蚊辨識準確率達 90.5% (3) 不同蚊子不同影格測試資料影片集,斑蚊與家蚊辨識準確率達 96%. 而透過觀察以上這些結果,可以得知野外資料與實驗室資料辨識結果皆達到 90% ,其中驗證模型分類斑蚊與家蚊可以達到 98% 以上,測試資料辨識單張病 媒蚊影格可以達到 90.5% ,測試資料辨識病媒蚊影片可以達到 92.4% ,有了 這些實驗數據,我們可以將病媒蚊分類系統實作,並設置智慧捕蚊燈。. 39.
(47) 第三節. 系統實作. 在完成病媒蚊分類系統後,我們將系統實作,設置智慧捕蚊裝置於野外環境 與實驗室,然而依據台灣有害生物管理協會,其中的病媒及環境有害生物研究 顯示,農田是大多滋養病媒蚊的地區,然而新北市三芝區的農田地帶正是適合 的地區,在這一地區有眾多筊白筍的灌溉田以及飼養家禽的地區,是野外實驗 易架設的地點。如圖 26 為此地區的衛星空拍環境,在本章節將會詳細介紹實驗 對象與環境。. 圖 26 : 實驗地點. 40.
(48) 4.3.1 實驗設定 在設置本研究系統裝置之前,必須先設定實驗參數,其中影像感測器是使用樹 梅派相機,微型處理器是使用樹梅派,雲端資料庫是使用 Google Drive,其詳 細參數如下: 1.. 影像感測器 ─ Pi Camera V2.1 (1) 型號 : Sony IMX219 (2) 固定錄影解析度 : 寬 : 1920,高 : 1080 (3) 固定錄影幀數 : 30 幀 (frame per second ,fps) (4) 固定焦距 : 9 公分. 2.. 微型處理器 ─ Raspberry Pi 3 Model B (1) CPU : 1.2 GHz 64-bit quad-core ARM Cortex-A53 (2) GPU : Dual Core VideoCore IV® Multimedia Co-Processor (3) Memory : 1GB LPDDR2 (4) Wireless : 802.11 n. 3.. 雲端資料庫 : Google Drive. 4.3.2 實驗環境 因為架設於室外農田地區,所以必須在實驗環境提供延長線提供電源,以 及防水措施以免雨水侵入電器元件,所以將微型處理器、影像感測器、攝影通 道結合塑膠防水盒子,並置於不影響當地人生活起居的位置,如圖 27(a),將智 慧捕蚊裝置放置於樹蔭下的環境,而此環境的樹蔭下有灌溉農田的渠道,以及 家禽、農作物,所以這裡正是滋養班蚊幼蟲與家蚊幼蟲的位置,以及成體蚊蟲 的活動區域,為了加速實驗進展,透過在蚊帳內放入蚊蟲、設置智慧捕蚊裝置, 41.
(49) 其實驗變因是將實驗空間縮小至蚊帳大小,由此可以提升蚊蟲進入系統裝置的 機率,可以更快速收集實驗所需要的資料集,而在訓練卷積神經網路章節,本 研究指出野外收集的資料與實驗室收集的資料其實相差不大,這也是因為實驗 變因少造成的結果。. (a) 野外實驗環境. (b)實驗室實驗環境. 圖 27 : 實驗環境. 4.3.3 資料收集結果 此病媒蚊野外實驗大約持續三個月,其目前進入智慧捕蚊裝置的有白線斑 蚊、埃及斑蚊、環紋家蚊、三斑家蚊、熱帶家蚊、白蛾與螞蟻,前四種為主要 資料收集對象。因為熱帶家蚊與白蛾的資料集極少數,在信心計數卷積神經網 路分類時會被分類為其他類別,但在未來資料足夠時,可以將此兩種加入分類 類別,成為多元分類。而螞蟻因為相機解析度不足、放大倍率不夠無法分類, 並且因為前景面積過小,會在邊緣計算時的物體偵測被過濾掉,並不會將影像 資料傳送至網路中心點,由此方式也可以過濾掉其他小型種類的昆蟲。野外資 料如圖 28,實驗室資料如圖 29,並無太大差異。. 42.
(50) (a) 斑蚊. (b)家蚊 圖 28 : 野外資料. ] (a) 斑蚊. (b)家蚊 圖 29 : 實驗室資料. 4.3.4 資料收集小結 依據實驗結果,蚊子由飛行由左至右介於 11 到 40 幀,在訓練卷積神經網 路模型章節,我們可以得知,錄影結果受外界環境因素影響不大,真實野外與 模擬實驗結果差異在百分之 10 之內。. 43.
(51) 第五章 結論與未來展望 本篇論提出一套達到 98% 的病媒蚊分類系統,可以提供班蚊與家蚊的種類、 數量,以作為針對病媒蚊採取措施的重要參考資料,並且透過硬體開發實作智 慧捕蚊裝置,以簡化物體偵測方法套用至微型處理器,可以傳輸與儲存病媒蚊 影像資料。在驗證資料辨識病媒蚊影格準確率高達 98%,測試資料辨識病媒蚊 影片準確率達 92.4%。 在持續收集資料的實驗之下,下一步首先改善單鏡頭多物體重疊追蹤失敗 問題,事先適應多物體進入智慧捕蚊裝置的情形,而未來將會把更多樣本的蚊 蟲種類資料集輸入至卷積神經網路完成多元分類結果,可以得到更加可信的分 類準確率以及更多種類類別,達成所有病媒蚊分類,並簡化病媒蚊分類系統以 移植至微型處理器,降低病媒蚊分類系統時間複雜度、最小化計算延遲以達到 即時分類為目標,最後再以更省電的方式代入系統設計。. 44.
(52) 第六章 附錄 本實驗章節之混合資料利用其他參數測試出來的結果, 包含改變最佳化函 數、激活函數,這些參數是眾多參數調整之中尚可的,其中目前最好的參數正 是第四章的兩個模型,其他參數可能會造成梯度消失或是梯度爆炸等問題,本 章節將給讀者了解,參數調整是非常重要的一件事情。. 第一節. 改變最佳化函數對訓練的影響. 卷積神經網路架構如圖 18,但是參數改變,最佳化函數 RMSProp,激活函 數 ReLU,學習率 (Learning Rate) 0.001,其結果如圖 30,由兩個不同的批 次大小 (batch size)產生的不同結果,圖中兩個參數並未穩定收斂至 98%以上, 兩圖之中批次大小較小的訓練較好,但是這卻是不一定會發生的結果,如圖 31, 批次大小較小並沒有比較穩定收斂,調整適合的參數必定是訓練卷積神經網路 之中重要的事情之一。. (a) 批次大小 50. (b)批次大小 16. 圖 30 : 改變最佳化函數訓練結果. 45.
(53) 第二節. 改變激活函數對訓練的影響. 卷積神經網路架構如圖 18,但是參數改變,最佳化函數 adam ,激活函 數 tanh,並且增加批次正規化 (Batch Normalization) 層於全連接層與激活 函數之間,學習率 (Learning Rate) : 0.001,其結果如圖 31,由兩個不同的 批次大小 (batch size)產生的不同結果,圖中兩個參數並未穩定收斂至 98%以 上。. (a) 批次大小 50. (b)批次大小 16. 圖 31 : 改變激活函數的訓練結果. 46.
(54) 第七章 參考文獻 [1] Versteirt, V., Nagy, Z. T., Roelants, P., Denis, L., Breman, F. C., Damiens, D., ... & Van Bortel, W. (2015). Identification of Belgian mosquito species (Diptera: Culicidae) by DNA barcoding. Molecular Ecology Resources, 15(2), 449-457. [2] Chen, Y., Why, A., Batista, G., Mafra-Neto, A., & Keogh, E. (2014). Flying insect detection and classification with inexpensive sensors. Journal of visualized experiments: JoVE, (92). [3] Ouyang, T. H., Yang, E. C., Jiang, J. A., & Lin, T. T. (2015). Mosquito vector monitoring system based on optical wingbeat classification. Computers and Electronics in Agriculture, 118, 47-55. [4] Silva, D. F., Souza, V. M., Ellis, D. P., Keogh, E. J., & Batista, G. E. (2015). Exploring low cost laser sensors to identify flying insect species. Journal of Intelligent & Robotic Systems, 80(1), 313-330. [5] Fuchida, M., Pathmakumar, T., Mohan, R. E., Tan, N., & Nakamura, A. (2017). Vision-based perception and classification of mosquitoes using support vector machine. Applied Sciences, 7(1), 51. [6] Podpora, M., Korbas, G. P., & Kawala-Janik, A. (2014, October). YUV vs RGBChoosing a Color Space for Human-Machine Interaction. In FedCSIS Position Papers (pp. 29-34). [7] Elgammal, A., Harwood, D., & Davis, L. (2000, June). Non-parametric model for background subtraction. In European conference on computer vision (pp. 751-767). Springer, Berlin, Heidelberg.. 47.
(55) [8] Guo, J. M., & Liu, Y. F. (2008). License plate localization and character segmentation. with. feedback. self-learning. and. hybrid. binarization. techniques. IEEE Transactions on Vehicular Technology, 57(3), 1417-1424. [9] Zivkovic, Z., & Van Der Heijden, F. (2006). Efficient adaptive density estimation per image pixel for the task of background subtraction. Pattern recognition letters, 27(7), 773-780. [10] Bae, S. H., & Yoon, K. J. (2017). Confidence-based data association and discriminative deep appearance learning for robust online multi-object tracking. IEEE transactions on pattern analysis and machine intelligence. [11] Berclaz, J., Fleuret, F., Turetken, E., & Fua, P. (2011). Multiple object tracking using k-shortest paths optimization. IEEE transactions on pattern analysis and machine intelligence, 33(9), 1806-1819. [12] Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems(pp. 91-99). [13] He, K., Gkioxari, G., Dollár, P., & Girshick, R. (2017, October). Mask r-cnn. In Computer Vision (ICCV), 2017 IEEE International Conference on (pp. 29802988). IEEE. [14] Liao, S., Zhao, G., Kellokumpu, V., Pietikäinen, M., & Li, S. Z. (2010, June). Modeling pixel process with scale invariant local patterns for background subtraction in complex scenes. In Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on (pp. 1301-1306). IEEE. [15] Patel, B., & Patel, N. (2012). Motion detection based on multi frame video under surveillance system. International Journal of Computer Science and Network Security (IJCSNS), 12(3), 100. 48.
(56) [16] Lu, N., Wang, J., Wu, Q. H., & Yang, L. (2008). An Improved Motion Detection Method for Real-Time Surveillance. IAENG International Journal of Computer Science, 35(1). [17] Stauffer, C., & Grimson, W. E. L. (1999). Adaptive background mixture models for real-time tracking. In Computer Vision and Pattern Recognition, 1999. IEEE Computer Society Conference on. (Vol. 2, pp. 246-252). IEEE. [18] Power, P. W., & Schoonees, J. A. (2002, November). Understanding background mixture models for foreground segmentation. In Proceedings image and vision computing New Zealand (Vol. 2002). [19] Zhan, C., Duan, X., Xu, S., Song, Z., & Luo, M. (2007, August). An improved moving object detection algorithm based on frame difference and edge detection. In Image and Graphics, 2007. ICIG 2007. Fourth International Conference on (pp. 519-523). IEEE. [20] Henriques, J. F., Caseiro, R., Martins, P., & Batista, J. (2015). High-speed tracking with kernelized correlation filters. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37(3), 583-596. [21] Tao, M., Bai, J., Kohli, P., & Paris, S. (2012, May). SimpleFlow: A Non‐iterative, Sublinear Optical Flow Algorithm. In Computer Graphics Forum (Vol. 31, No. 2pt1, pp. 345-353). Blackwell Publishing Ltd. [22] Kalal,. Z.,. Mikolajczyk,. K.,. &. Matas,. J.. (2012).. Tracking-learning-. detection. IEEE transactions on pattern analysis and machine intelligence, 34(7), 1409-1422. [23] Hua, C., Wu, H., Chen, Q., & Wada, T. (2006). K-means Tracker: A General Algorithm for Tracking People. Journal of Multimedia, 1(4), 46-53.. 49.
(57) [24] Kalal, Z., Mikolajczyk, K., & Matas, J. (2010, August). Forward-backward error: Automatic detection of tracking failures. In Pattern recognition (ICPR), 2010 20th international conference on (pp. 2756-2759). IEEE. [25] Kingma, D. P., & Ba, J. (2014). Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980. [26] Sharif Razavian, A., Azizpour, H., Sullivan, J., & Carlsson, S. (2014). CNN features off-the-shelf: an astounding baseline for recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition workshops (pp. 806-813). [27] Liang, M., & Hu, X. (2015). Recurrent convolutional neural network for object recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 3367-3375). [28] Hong, S., You, T., Kwak, S., & Han, B. (2015, June). Online tracking by learning discriminative saliency map with convolutional neural network. In International Conference on Machine Learning (pp. 597-606).\ [29] Shi, W., Caballero, J., Huszár, F., Totz, J., Aitken, A. P., Bishop, R., ... & Wang, Z. (2016). Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 1874-1883). [30] Jiang, H., & Learned-Miller, E. (2017, May). Face detection with the faster RCNN. In Automatic Face & Gesture Recognition (FG 2017), 2017 12th IEEE International Conference on (pp. 650-657). IEEE. [31] Zhu, C., Zheng, Y., Luu, K., & Savvides, M. (2017). CMS-RCNN: contextual multi-scale region-based CNN for unconstrained face detection. In Deep Learning for Biometrics (pp. 57-79). Springer, Cham. 50.
(58) [32] Sun, X., Wu, P., & Hoi, S. C. (2017). Face detection using deep learning: An improved faster rcnn approach. arXiv preprint arXiv:1701.08289.. 51.
(59)
Outline
相關文件
SG is simple and effective, but sometimes not robust (e.g., selecting the learning rate may be difficult) Is it possible to consider other methods.. In this work, we investigate
• It is a plus if you have background knowledge on computer vision, image processing and computer graphics.. • It is a plus if you have access to digital cameras
Ongoing Projects in Image/Video Analytics with Deep Convolutional Neural Networks. § Goal – Devise effective and efficient learning methods for scalable visual analytic
Principle Component Analysis Denoising Auto Encoder Deep Neural Network... Deep Learning Optimization
Hsuan-Tien Lin (NTU CSIE) Machine Learning Techniques 3/24.:. Deep Learning Deep
A smaller aperture increases the range in which A smaller aperture increases the range in which the object is approximately in focus. Di
Deep learning usually refers to neural network based model.. Shallow – Speech Recognition. ◉
Random Forest: Theory and Practice Neural Network Motivation.. Neural Network Hypothesis Neural Network Training Deep