• 沒有找到結果。

U-Net 與相關改良

在文檔中 視覺式耳穴診斷輔助系統 (頁 39-46)

在本研究決定採用U-Net[Ron15]之語義分割神經網路為基礎開發視覺式耳穴 診斷輔助系統後,亦參考了一些以U-Net[Ron15]為基礎架構所改良的語義分割神 經網路架構,以期能獲得較佳的U-Net 改良方案。

(A) MRE-SD U-Net (Multi-Resolutional Ensemble of Stacked Dilated U-Net)

圖2.20 PSPNet[Zha16]的架構。

31

Rad[Rad18]等人於 2018 年對 U-Net 的網路結構做出改良,以便更好的對影像 作出區分,稱為Multi-Resolutional Ensemble of Stacked Dilated Net(MRE-SD U-Net)。其改良的方式結合膨脹卷積核的概念,把五個膨脹率分別為 1、2、4、8 及 16 的卷積核進行卷積後的結果串聯組成第五階段「橋梁」的特徵圖,此部分即為 Stacked Dilated U-Net,簡稱 SD U-Net,如圖 2.21 所示。多重解析度(multi-resolutional)代表 Rad 等人使用四個 SD U-Net 分別訓練四種解析度為448 × 448、

384 × 384、320 × 320及256 × 256的影像,將其的訓練結果通過加權平均做結合,

得到最終的語義分割結果。圖2.21 中藍色方塊為卷積層,在卷積層中使用的卷積 核大小為3 × 3,激活函數採用 ReLU 函數。淺藍色箭頭加上淺藍色方塊為最大池 化層。藍綠色箭頭加上藍綠色方塊為上取樣層。深藍色方塊為卷積層,此卷積層 使用的卷積核大小為1 × 1,激活函數採用 sigmoid 函數。綠色方塊的部分即為改 良過的部分,此部分稱為橋梁。橋梁上半部,由淺綠至深綠分別為卷積膨脹率為 1、2、4、8 及 16。橋梁下半部及為對橋梁上半部之五個卷積核膨脹率串聯後的結 果。紅色方框則表示將灰色箭頭左邊的特徵圖與灰色箭頭右邊的特徵圖串聯。Rad 等人使用修改後的 U-Net,使得卷積核的覆蓋面積變大並且不會損失空間資訊或 增加更多的參數。

(B) UNet++

Zhou[Zho18]等人於 2018 年提出 UNet++(如圖 2.23 所示)架構來減少編碼器 和解碼器之間的語義鴻溝。Zhou 等人認為有些資料集不一定要做到 4 次的最大池 化才做上取樣,它們在做到 3 次的最大池化後做上取樣就能有好的結果。因此

圖2.21 Stacked Dilated U-Net 的結構[Rad18]。

32

Zhou 等人利用 U-Net 的結構,設計出最大池化為 1、2 和 3 次的結構。再將最大 池化為1、2、3 和 4 次的結構整合。如此可以讓語義分割神經網路學習不同深度 的特徵的重要性。完整的UNet++結構如圖 2.22 所示,圖 2.22 中X𝑖,𝑗代表卷積層,

以圓形(黑色和綠色)表示,其中𝑖和𝑗為0至4。圖中箭頭方向指向右下方為下取樣 (down-sampling),箭頭方向指向右上方為上取樣。為了能讓中間部分(圖 2.22 中的 X0,1、X0,2、X0,3、X1,1、X1,2和X2,1)也能接受到梯度資訊,Zhou 等人提出將長連接 以短連接替代,如圖2.22 中的藍色虛線。然而,長連接對於保留輸入影像的資訊 是重要的,故Zhou 等人將長連接與短連接相結合,長連接為圖 2.22 中的黑色虛 線。又因損失函數(loss function)只有在X0,4才出現,故Zhou 等人提出將X0,1、X0,2、 X0,3和X0,4之後都加上1 × 1的卷積運算計算出四個特徵圖的損失函數(圖 2.22 中的 ℒ)並做結合。實驗結果表明 UNet++[Zho18]對於醫療影像語義分割的結果有提升。

(C) TernausNet

Iglovikov[Igl18]等人參加 Carvana Image Masking Challenge 獲得第一名後於 2018 年發表一篇論文顯示出其研發的語義分割神經網路模型。Carvana Image Masking Challenge 是從影像中分割車輛的比賽。Carvana Image Masking Challenge 所使用的影像大小皆為1280 × 1918像素。Iglovikov[Igl18]等人將原始架構中做 4 次最大池化、4 次轉置卷積的過程改成 5 次最大池化、5 次轉置卷積,並且調整卷 積層中卷積運算的次數和卷積核的數量,如圖2.23 所示。Iglovikov[Igl18]等人在 論文中表示做了預訓練(pre-train)會提升語義分割結果。預訓練是指前人為了解決

圖2.22 巢狀的 U-Net,稱為 UNet++[Zho18]。

33

問題已經先行訓練過的模型和參數,因此當新的研究者為了解決相似的問題時,

不用從零開始訓練一個新的模型和參數。因此 Iglovikov[Igl18]等人所使用的改良 後U-Net 結構在收縮路經的卷積層上皆帶有預訓練的權重,卷積核大小為3 × 3,

激活函數採用ReLU 函數,即為圖 2.23 的紅色三角形。圖中每個長方形之下的數 字表示為卷積核的數量。圖中綠色三角形為不帶有預訓練的權重的卷積層,卷積 核大小為3 × 3,激活函數採用 ReLU 函數。圖中紫色箭頭代表池化層,池化層使 用的是最大池化的算法,深藍色箭頭表示轉置卷積層,卷積核大小為3 × 3,步長 為2,激活函數採用 ReLU 函數。

(D) MS-UNet (Multi-Stage UNets)

Tang[Tan19]等人提出一個能自動結合前後關係(auto-context)的 multi-stage U-Net,簡稱 MS-UNet。MS-UNet[Tan19]是 Tang 等人為了提高電腦輔助診斷皮膚病 變的正確率所提出的語義分割神經網路。MS-UNet 首先使用 U-Net 來獲得初步的 語義分割影像。從階段2 開始每一階段都會結合前一階段所得到的語義分割影像,

經過S 個階段後得到最後的語義分割結果。MS-UNet 在每個階段都會計算一次損 失 函 數(loss function) 。 最 後 一 個 階 段 的 輸 出 ( 圖 中 的 output) 經 過 一 個 閾 值 (threshold)二值化後會得到最終語義分割結果。由圖 2.24 可知,前一個階段與當 前階段所結合的位置為最後一次最大池化之前,由圖中⊕sum 可得知。圖中淺藍

圖2.23 Iglovikov[Igl18]等人所使用的改良後 U-Net 結構。

34

色方形為特徵圖,淺藍色方形之上或之下的數字為卷積核的數量。圖中藍色箭頭 代表有卷積層,卷積層中會進行兩次卷積運算,每次卷積運算有一組3 × 3卷積核,

激活函數採用ReLU 函數。圖中紅色箭頭代表池化層,池化層使用的是最大池化 的算法,綠色箭頭代表上取樣層,灰色箭頭代表跳躍連接,藍綠色箭頭代表卷積 核大小為1 × 1的卷積層。MS-UNet[Tan19]經過實驗後,其皮膚病變語義分割結果 較之先前的方法有所提升。

(E) Weighted Res-UNet

Xiao[Xia18]等人於 2018 年將 ResNet[He16]的概念融入 U-Net 架構,並且加 上 加 權 注 意 機 制(weighted attention mechanism) 來 提 升 語 義 分 割 結 果 , 稱 為 Weighted Res-UNet。本架構主要用來解決在眼球影像中細小血管無法正確分割的 問題。圖 2.25 為 Weighted Res-UNet[Xia18]的架構。圖中淺藍色方體為特徵圖,

淺藍色方體之下的數字為卷積核的數量,淺藍色方體左邊的數字為影像大小。圖 中藍色箭頭代表卷積核大小為3×3 的卷積層,激活函數採用 ReLU 函數。圖中橘 色箭頭代表池化層,池化層使用的是最大池化的算法,綠色箭頭代表上取樣層,

激活函數採用ReLU 函數。圖中灰色虛線箭頭代表跳躍連接,灰色虛線箭頭上方 的白色方體為灰色虛線箭頭之前的特徵圖,因此圖中的淺藍色方體和白色方體合 體代表兩者的特徵圖串聯。圖中黃色箭頭,箭頭的框為藍色代表卷積核大小為1×

1 的卷積層。圖中灰色實線和⊕add 即為 ResNet[He16]中殘差塊(residual block)的 方式。

圖2.24 MS-UNet 的結構[Tan19]。

35

因做為訓練的眼球影像張數有限,Xiao 等人會先從每張原始影像中擷取 500 個可重疊的區塊及其對應之遮罩做為該架構的實際輸入,以增加訓練的資料量。

圖中黃色箭頭所示即為加權注意機制,該架構將輸入遮罩用在進行卷積核大小為 1×1 的卷積層,使得語義分割神經網路在訓練時能將注意力放在遮罩內的影像。

經過實驗表明 Weighted Res-UNet 分割眼球影像中細小血管有更好的語義分割結 果。

由於不同人的眼球之間的形狀差異並不會很大,故上述的作法採用固定式的 遮罩。然而不同人的耳朵其形狀相對來說差異比較大,無法直接採用固定式的遮 罩,需要進行某種程度的改良才行。

(F) CUNet

González[Gon18]等人於 2018 年用部分標記(label)達成多類別語義分割,並且 在跳躍連接上加一個卷積層,稱為CUNet,如圖 2.26 所示。CUNet 的輸入是胸斷 層掃描影像,其語義分割結果需分割出六個區塊。CUNet 在訓練時所輸入的影像 為一張胸斷層掃描影像和具有一個區塊的標記,如圖2.26 的藍色框中的輸入影像 所示。只具有一個區塊的標記即為部分標記。但輸出會是所有類別的語義分割。

要注意的是損失函數只計算對應的區塊,如圖2.26 的綠色框中的輸出影像所示。

圖2.26 中綠色實心方塊代表池化層,池化層使用的是最大池化的算法。圖中淺橘 色方塊為上取樣層,深橘色方塊代表將箭頭兩邊的特徵圖串聯。CUNet 為了達成 多類別語義分割,在最後一層使用了 one-hot 的表示法。經過實驗證明只使用部 分標記的CUNet 確實能達成多類別語義分割。

圖2.25 Weighted Res-UNet 的結構[Xia18]。

36

上述的作法在類別增加時就要增加輸出的單一區塊,且需花更多的訓練時 間。雖然本研究的耳穴視診陽性反應區域偵測也屬於多類別語義分割,然考慮其 未來能辨識更多疾病的擴充性以及時效性,該方法並不適合本研究的應用。

U-Net 在許多醫療影像語義分割的結果上都有好的表現,使得 U-Net 的架構 被廣泛地用在醫療影像語義分割上。許多醫療影像語義分割的研究者都會使用 U-Net 的架構作為基礎進行改良,因此本研究在分析眾多的語義分割神經網路後,

選擇了U-Net 的架構作為基礎進行視覺式耳穴診斷輔助系統的開發。

上述的改良建議中,Weighted Res-UNet 的加權注意機制因遮罩固定的前提,

CUNet 的部分標記則不易增加類別,無法直接應用於本研究。但 Stacked Dilated U-Net[Rad18]中橋梁的整合概念可使不同大小的耳穴視診陽性反應區域皆能在進 行卷積運算時被覆蓋到,本研究採用了相關的作法,且該方法經過實驗證實適用 於引入視覺式耳穴診斷輔助系統。

圖2.26 CUNet 的結構[Gon18]。

37

第3章 視覺式耳穴診斷輔助系統

本研究提出之視覺式耳穴診斷輔助系統主要由語義分割神經網路配合批量 正規化(batch normalization)和膨脹率不同的卷積核(kernel)所組成。其中語義分割 神經網路採用的是U-Net 模組。本章將會介紹視覺式耳穴診斷輔助系統流程和組 成該系統所使用的相關工具。

在文檔中 視覺式耳穴診斷輔助系統 (頁 39-46)

相關文件