所使用的生成對抗網路在影像轉換上的特性

第三章卷積神經網路在影像分割與轉換之應用

3.2 生成對抗網路應用於影像轉換

3.2.4 所使用的生成對抗網路在影像轉換上的特性

從Ian Goodfellow 第一次發表 GAN 的理論後，有非常多變形的 GAN 問世，

而其中針對非成對影像的影像轉換模型有 CycleGAN[31]、UNIT[32]、DRIT[33]

等，後兩者主要以輸入單一類別影像後能夠將其轉換為多種類別的影像，為一對多的概念，但是針對OCT 影像轉為 H&E 影像的目的而言，我們僅需一對一的類別轉換即可，因此於本論文中選擇使用CycleGAN 來達成一對一的精確轉換，以下將詳細介紹CycleGAN 架構的特性。

CycleGAN 與原始 GAN 有很多的不同處。第一，CycleGAN 使用了 FCN 取代傳統 GAN 的全連接式網路[34]，並且為了使其在上下採樣時也能學習訓練集影像的資訊，改用卷積層來取代下採樣的池化層功能。

第二，它以訓練圖像作為起始分布，原因在於原始GAN 僅能產生特定類別的影像，無法指定細節特徵，例如若是訓練在數字集影像，其僅能產生隨機的數字而不能指定要產生哪一個數字。因此為了保留輸入影像的紋理資訊，直接將輸入影像作為起始分布取代隨機噪聲，這樣便能使輸入影像成為整個GAN 的限制條件[35]，使 GAN 在更新中能盡量產生擁有相同紋理資訊但不同類別的影像。

並且因為輸入是影像且輸出也為同等大小的影像，因此使用在影像分割中最常用

的類似自編碼器(Auto encoder; AE)的 FCN 架構作為生成器架構，但並非使用 U-Net，而是使用 ResNet 作為生成器的網路架構，如圖 3.14 所示。此二者的差別在於U-Net 為長跳躍連接，能使初始的層數所提供的較低維度資訊直接傳遞到最後幾層做使用，如輪廓、邊界等，而ResNet 則利用殘差模塊(Residual block)來做短跳躍，如圖3.15 所示，其只幫助特定鄰近層數間做資訊的直接傳遞。針對影像轉換模型，此二者的效果何者較優，依作者而言兩者表現是相近的[36][37]，因此本論文中實作即使用 ResNet 作為生成器網路。並且其判別器網路則是採用 PatchGAN[38]的概念，一樣是 FCN，但是其在最後一層的感受野(receptive filed) 並非為整張影像大小或是僅有1×1，而是特定大小的感受野，使其在判斷上為判斷一個局部的輸入影像是否為所屬的影像分布，這是一個需要調整的超參數，根據CycleGAN 作者而言，在使用 128×128 pixel 或 256×256 pixel 的影像做訓練時，

其使用70×70 pixel 的感受野在最後一層，判別器表現最好。

圖3.14 ResNet 生成器架構[39]

圖3. 15 PatchGAN 判別器架構[38]

圖3.16 殘差模塊的架構(包含 2 個 3×3 的卷積層與批量標準化，以及使用 ReLU 激勵函數)[39]

第三，CycleGAN 在網路的層與層之間加入了批量標準化(batch normalization) 的運算[34]，原因在於神經網路中存在了一個幫助網路非線性化的激勵函數，通

第四，CycleGAN 使用了最小平方損失(Least square loss)來作為 D 的目標函數。在原始 GAN 中，D 做為一個二元分類器其目標函數其實就是交叉熵(Cross entropy)，即 Eq. 3.11 兩項相減的第一項。而為了使用交叉熵，就需要把神經網路最後一層輸出的值轉為機率形式，通常使用 Sigmoid、Softmax 等函數將其轉換為零到一之間的任意值，因而又稱為 Sigmoid cross entropy 或 Softmax cross 使用交叉熵、不經過 Sigmoid、Softmax 等函數，改為使用最小平方損失(Least square loss)作為目標函數[41]，如 Eq. 3.24 所示。

B domain)間做轉換，假設 A 類別影像經過生成器 GA (Generator A: A→B)會轉為失函數(Least absolute errors; L1 loss)。而 CycleGAN 總損失函數如 Eq. 3.27 所示：

     

^λ

 

70×70 pixel 的 PatchGAN，比較重要的超參數是判別器的最後一層感受野的數值 70×70 pixel，作為判斷生成器轉換好壞的標準，判別器的最後一層的感受野大小代表此判斷器會判斷一張輸入影像中的某個大小範圍內是否為對應的視覺分布，

也就是判斷基準是以這個大小內的資訊去判斷好壞的。照正常H&E 影像，在皮膚的表皮層內的角質層部分會呈現一種顏色，角質層以下到表皮真皮交界(DEJ) 會呈現另一種顏色，而真皮層則會有第三種顏色，如下圖所示，以希望判別器能判斷轉換後的影像在三層是否對應真實視覺分布的顏色去設計判別器的感受野，

並且也希望判別器能判斷轉換後的影像的細胞核其輪廓與顏色是否與真實 H&E 視覺分布的影像相同，因此從本研究所使用的OCT 前臂皮膚影像中可得知，角質層約7~9 μm 厚，角質層下邊界至 DEJ 約 30~40 μm 厚，而真皮層則是約 40~60 μm 厚，並且細胞核直徑約為 6~10 μm，因此設計上為了使判別器每次判斷上至少能一次看到兩種顏色分層(也就是在角質層、角質層下邊界至 DEJ 與真皮層中任選兩個)以及細胞核整體大小，並且不希望感受野太大，因為這將會導致網路層數變多，參數變多，使網路訓練起來更加困難，因此選定 35×35 μm 也就是 70×70 pixel 作為判別器最後一層的感受野。

圖3.19 H&E 影像皮膚結構

在文檔中從生成對抗網路轉換活體皮膚斷層影像為類H&E染色影像 (頁 68-74)

第三章 卷積神經網路在影像分割與轉換之應用

3.2 生成對抗網路應用於影像轉換

3.2.4 所使用的生成對抗網路在影像轉換上的特性

     

 

第三章卷積神經網路在影像分割與轉換之應用