一個有效的深度學習模型在影像融合上之應用

(1)

科技部補助專題研究計畫成果報告

期末報告

一個有效的深度學習模型在影像融合上之應用

計畫類別：個別型計畫計畫編號： MOST 107-2221-E-006-132-執行期間： 107年08月01日至108年07月31日執行單位：國立成功大學電機工程學系（所）計畫主持人：戴顯權計畫參與人員：碩士班研究生-兼任助理：鄭宇呈碩士班研究生-兼任助理：陳俊次碩士班研究生-兼任助理：陳奕婷博士班研究生-兼任助理：陳鵬宇

中　華　民　國　108　年　10　月　30　日

(2)

中文摘要：因為機器的限制，衛星提供的影像通常包含多張高頻譜解析度的多頻譜影像(MS)與高空間解析度的全色域影像(PAN)，透過影像融合的技術得到一張具備高空間解析度以及高頻譜解析度的影像以增加影像的視覺品質。組成取代和多解析度分析的方法經常被用來進行影像融合。隨著機器學習的發展，卷積神經網路被廣泛運用到影像處理領域。影像融合著重於保持空間解析度以及光譜解析度，希望將兩者的優勢合成所需影像。在此提出的架構中，將訓練的參數設定為高通濾波域，以維持空間結構；同時，將升頻取樣的多光譜影像加進神經網路架構的輸出，將光譜訊息直接傳送到重構的影像，以維持光譜結構。在此計畫中希望提出一個深度網路的架構，找出PAN與MS中的相關性，解決影像融合的問題。中文關鍵詞：深度學習、卷積神經網路、影像融合

英文摘要： Due to the instruction restriction, satellites generate a high spatial

resolution panchromatic (PAN) image, and several high spectral

resolution multispectral (MS) images. Image fusion technique is used to

get the image with high spatial resolution and high spectral resolution

to increase the visual quality. In the past, component substitution

method and multi-resolution analysis methods were used to fuse PAN and

MS image. With recent advances made by machine learning, convolution

neural networks are widely used in image processing problem. Image

fusion methods focus on preservation of spatial and spectral. We hope to

combine the advantage of PAN and MS to the desired image. In this

proposed architecture, network parameters are set as high-pass filtering

domain to preserve the spatial structure. Up-sampled multispectral

images are added to the network output, which directly propagate the

spectral information to the reconstructed image to preserve spectral

(3)

structure. In this work, a deep network structure is proposed to find

the relationship between PAN and MS and to solve image fusion problem.

(4)

1

一個有效的深度學習模型在影像融合上之應用

一、前言

因為機器的限制，衛星提供的影像通常包含多張高頻譜解析度的多頻譜影像(MS)與高空間解析度的全色域影像(PAN)，透過影像融合的技術得到一張具備高空間解析度以及高頻譜解析度的影像以增加影像的視覺品質。組成取代和多解析度分析的方法經常被用來進行影像融合。隨著機器學習的發展，卷積神經網路被廣泛運用到影像處理領域。影像融合著重於保持空間解析度以及光譜解析度，希望將兩者的優勢合成所需影像。在此提出的架構中，將訓練的參數設定為高通濾波域，以維持空間結構；同時，將升頻取樣的多光譜影像加進神經網路架構的輸出，將光譜訊息直接傳送到重構的影像，以維持光譜結構。在此計畫中希望提出一個深度網路的架構，找出 PAN 與 MS 中的相關性，解決影像融合的問題。我們利用這些深度學習的方式對多張高頻譜影像進行超解析處理，除了能夠得到更自然的高解析的多光譜影像，同時還能減少放大過程中所產生的模糊效應或鋸齒效應等不良效應，因此影像能有更良好的視覺品質。透過卷積神經網路，將衛星提供的高頻譜解析度多頻譜影像與高空間解析度的全色域影像進行融合，可透過小樣本的資料，經過訓練得到集合兩者優點的高空間解析度且高頻譜解析度的影像，以增加影像的視覺品質提供更多影像的細節。透過機器學習的方式進行影像融合，預期對太空遙測影像的發展有所貢獻。本計畫報告的主要架構如下：第二章首先討論目前基本的影像融合及機器學習的方法及其優缺點，接著介紹目前衛星影像之特性，在第三章時會重點介紹本計畫所提出的方法，第四章中則是探討實驗結果及數據，最後第五章為此計畫的結論。

二、相關文獻

2.1 影像融合

遙感探測[1]是指利用工具從空中探測地表上各區域的資訊。衛星或飛機通常拍攝所提供的影像資料通常有高解析灰階影像與低解析頻率域影像，其中高灰階影像的空間解析度較高，而頻率域影像的空間解析度較低。但頻率域影像涵蓋較多的頻帶，而灰階影像只有一個頻帶且其頻寬較大，能提供較高的空間

(5)

2 解析度。我們試圖將各種影像的不同訊息予以整合，藉以提升頻率域影像在空間上的細節資訊。圖2.1 影像融合示意圖影像融合包含多種方法，其中一種是彩色融合影像(pansharpening)[2]，像圖 2.1 所示。這種方法通常會先拿高解析灰階影像與低解析頻率域影像做直方圖比對，調整出四張適合與頻率域影像配對的影像，將其融合後，再以濾波器分解成高頻與低頻，將低頻部分以頻率域影像替代後再將其復原。合成時也能將較為不重要的部分去除後再合併以增加運算效率，而影像相似通常以距離來計算。與鄰近相似的部分通常較不重要，與鄰近相異的，也就是有變化的部分通常較能表達出訊息。也有一些是利用小波轉換[3]進行融合，這種融合一樣是將影像進行分解，通常會分到多個頻帶上，再將影像進行重建，因為小波技術是一種資料壓縮[4] 的技術，所以用在影像上具有優秀的壓縮效果。在選定好小波函式後就對影像進行小波轉換，低頻部份即為圖片的模糊版本，而高頻為圖片的邊緣等等細節部分。低頻通常使用加權平均，高頻則在各個維度進行融合，最後在對圖形做反轉換。 L = λ₁f₁(𝑋, 𝑃) + λ₂f₂(X, M) (2.1) f₁(X, P) = ‖∑ ω_bX_b B b=1 − P‖ 2 2 (2.2) f₂(X, M) = Σ_b=1B _‖kX b−↑ Bb‖22 (2.3) 式 2.1 中，𝑋為高解析度的全色域影像，X_b為第b個頻帶的高解析度多頻譜影像(HRMS)，P為高空間解析度的全色域影像(PAN)，M為低解析度的多頻譜影像，M_b為第b個頻帶的低解析度多頻譜影像(LRMS)。f₁(X, P)這一項是為了維持結構的一致性，f₂(X, M)是為了維持頻譜的一致性。

(6)

3

在 P+XS 方法中，如式 2.2 所示，ω_b是一個 B 維度的機率權重向量，某些方法中使用了空間差分算子(spatial difference operator)G 去強調高頻的內容，例如G‖Σ_bω_bX_b− P‖₂2或是 Σ_bω_b‖G(X_b− P)‖₂2。為了維持頻譜的一致性，很多方法會將f₂(X, M)定義為式 2.3，↑ B_b代表和 B_b同大小的B_b的升頻取樣，k是 smoothing kernel。 L = ‖f_w(P, M) − X‖_F2_(2.4) 式 2.4 是一個深度學習方法的模型，利用簡單的網路來學習輸入(P, M)和輸出X間的非線性映射關係。其中f_w代表神經網路，w代表其參數。

2.2 機器學習

影像中所使用的深度學習模型一般是使用卷積神經網路(Convolution neural network,CNN)[5]。整個學習過程一般分為幾個主要的步驟，卷積 (Convolution)、池化(pooling)、全連接(fully connected)。卷積步驟是對影像進行卷積運算，先選定適當大小的卷積核(kernel)，將核內數字翻轉並與對應位置的灰階值相乘後，取代中央位置的值，然後依序在影像上逐行運算直到整張影像都完成運算，進行卷積運算的目的主要是取出影像特徵，方便後面進行訓練。池化是將提取出的特徵進行適當的壓縮，去蕪存菁，其中最大池化 (Max pooling)又最為常見(如圖2.2)，是指取出區域內最大的值。最後進行全連接(如圖2.3)，這個概念來自生物的神經網路，整個網路由神經元組成(如圖 2.4)，並將每個輸入x，經過權重w加上偏移b後，進入選定的激發函數 (activation function)[6]後，輸出結果(如式2.5)。訓練完的模型，權重與偏移能讓輸出的結果變得理想，而使用何種的激發函數，和全連接的層數、卷積與池化的次數則因人而異，端看效果而定。 y ≡ f(xw + b) (2.5) 圖 2.2 Max pooling

(7)

4 圖 2.3 fully connected 圖 2.4 單一神經元

2.3 多光譜衛星影像

衛星影像通常包含數張在不同頻帶下所拍攝的影像，由於每個頻帶的用途不同，同一區域在不同頻帶下有不同的敏感度，所以對同一地貌的影像在不同頻帶下會呈現強度上的差異，例如可見紅光適合用於植物的鑑別，可見藍光有較大的水穿透力，可見綠光是用於量測植物的活力，近紅外線用於標示物種與海岸線，中紅外線量測土壤與草木的水氣含量，熱紅外線為熱感圖標示，圖 2.5 為不同光譜的衛星影像。在本計畫中，我們使用四個頻帶的多光譜影像，包含可見紅光、可見綠光、可見藍光、近紅外線以及全色態影像。

(8)

5

(a)

(b) (c)

(d) (e) 圖2.5 不同光譜的衛星影像 (a)全色態影像 (b)可見藍光影像 (c)可見綠光影像 (d)可見紅光影像 (e)近紅外線影像

(9)

6

三、研究方法

3.1 系統流程圖及方法概述

本計畫將建構一個卷積神經網路(Convolution neural network, CNN)以解決影像融合之問題，此架構是基於 ResNet[7]進行改良。基本的模型示意圖如圖 3.1 所示，此架構有兩大目標：(1)保留光譜資訊 (2)保留空間資訊。圖 3.1 為了融合光譜資訊，首先對低解析度的多頻譜影像進行升頻取樣，並在網路架構中增加一個 skip connection，數學上表示成： L = ‖𝑓_𝑊(𝑃, 𝑀)+↑ 𝑀 − 𝑋‖_𝐹2_(3.1) ↑ 𝑀表示 LRMS 的升頻取樣，𝑓_𝑊代表此卷積神經網路，式 3.1 的作用和式 2.4 相同，用來維持頻譜的一致性，確保𝑋和𝑀有相同的頻譜內容。跟過去變分法(variational method)不同的是，在這裡𝑋不和 smoothing kernel K 進行卷積，而是允許深度網路對高解析度差異進行校正，在這裡將這樣的模型稱作頻譜映射(spectral-mapping)，如圖 3.2 所示。

(10)

7 圖 3.2 為了保持空間結構的一致性，我們希望利用 PAN 影像中的高通資訊去維持空間結構，如此一來可以較原始的 P+XS 方法增加更多清晰的細節，機於這個動機，將 PAN 影像和升頻取樣的 LRMS 之高通資訊輸入到深層網路當中，數學式被表示成： L = ‖𝑓_𝑊(𝐺(𝑃), ↑ 𝐺(𝑀))+↑ 𝑀 − 𝑋‖_𝐹2_(3.2) 為了獲得由函數𝐺表示的高通資訊，我們將原始影像減去由平均濾波器 (averaging filter)得到的低頻資訊，對於 LRMS 影像，在獲得高通資訊後，將其升頻取樣至與 PAN 影像相同大小，流程型如圖 3.3 所示，由此可以觀察出由於↑ 𝑀是低解析度，↑ 𝑀 − 𝑋可以被當作是𝑋中的低通光譜內容。如此可以讓網路𝑓_𝑊自由地學習到將 PAN 影像中的高通空間資訊與𝑋融合的映射關係；而將↑ 𝐺(𝑀)輸入至網路則可以學習到 PAN 影像中的空間資訊是如何映射到不同光譜頻段的𝑋。

(11)

8 圖 3.3 在此計畫中，我們利用深度學習，直接學習輸入圖像 PAN、LRMS 與輸出圖像 HRMS 之間的關係函數。應用殘差網路(Residual Network)的架構，以確保在訓練非常深層的網路時，輸入的訊息可以通過所有的參數層充分且有效率的傳播。在此採用 ResNet 做為我們的網路模型𝑓_𝑊，透過卷積(convolutional)的運作，可以幫助建立多光譜影像的不同頻段之間的耦合。

3.2 建立 CNN 架構

卷積神經網絡（CNN）：CNN 是目前深度學習模型中在影像處理及電腦視覺領域上最廣為應用的模型之一。在端到端的影像修補任務中，使用多層堆疊卷積層建構的 CNN 用作f ≈ F = CNN(G)以估計從退化觀測G的高品質影像f。訓練一個隨機初始化的 CNN 用於 pansharpening，down-sampled 的 MS 和 PAN 影像輸入為G，然後生產出影像 F 與相同大小的原始 MS 影像𝑓_𝑀𝑆。通過使用隨機梯度下降（SGD）和反向傳播（BP），所有在模型中{W, b}的參數可以迭代地學習並且縮小預測損失‖𝑓_𝑀𝑆 − 𝐹‖₂。 𝑌1 = max(𝑊1 ∗ 𝑠𝑡𝑎𝑐𝑘(𝐺(𝑃), ↑ 𝐺(𝑀)) + 𝑏1, 0) (3.3) 𝑌2𝑙 _{= max(𝑊}2𝑙 _{∗ 𝑌}2𝑙−1_{+ 𝑏}2𝑙_{, 0) (3.4)} 𝑌2𝑙+1 _{= max(𝑊}2𝑙+1_{∗ 𝑌}2𝑙_{+ 𝑏}2𝑙+1_{, 0) + 𝑌}2𝑙−1_(3.5) X ≈ 𝑊𝐿_{∗ 𝑌}𝐿−1_{+ 𝑏}𝐿_{+↑ 𝑀 (3.6)}

(12)

9

其中W代表權重(weight)，b代表偏差(biases), L 1,...(L 2) / 2, 𝑌𝑙表示 第 l 層的輸出結果。

在第一層神經網路中，用 s1 × s1 的接收域(receptive field)和一個線 性整流函数（Rectified Linear Unit, ReLU）max(0, x)去計算𝑎₁個特徵映射。遮罩的大小為 c*𝑠₁*𝑠₁*𝑎₁，其中 c=B+1，表示 B 個 LRMS 影像和 1 個 PAN 影像的總合。

在第 2 到第L-1 層神經網路中，用𝑠₂*𝑠₂的接收域(receptive field)和一個 rectified linear unit max(0,x)去計算𝑎₂個特徵映射。遮罩的大小為 𝑎₁*𝑠₂*𝑠₂*𝑎₁ 。

在最後一層當中，使用𝑠₃*𝑠₃的接收域，並且因為將 LRMS 的升頻取樣↑ 𝑀去近似真實類別(ground truth)X，因此在此包含了主要的光譜資訊，在這裡近似值的 penalty 是式 3.7 中的弗羅貝尼烏斯範數（Frobenius norm）。

‖𝐴‖_𝐹 = √∑ ∑|𝑎𝑖𝑗| 2 𝑛 𝑗=1 𝑚 𝑖=1 = √𝑡𝑟𝑎𝑐𝑒(𝐴∗_{𝐴) = √ ∑} _𝜎 𝑖2 min {𝑚,𝑛} 𝑖=1 (3.7) 其中𝐴∗_{為𝐴的共軛轉置，𝜎} 𝑖為𝐴的奇異值。弗羅貝尼烏斯範數是服從乘法的，比誘導範數容易計算。

3.3 建立 Deep Residual network 架構

包含更多的過濾層的深層 CNN 是被預期用來提取更多的抽象和具有代表性的特徵以實現更高的預測準確性，但是學習如此大量的參數可能效率很低，因此很難找到{W, b}的最佳分配。深度殘差網路是解決此問題的高級方法：殘差學習的 CNN，f ≈ CNN(G)的變換通過設置跳過來用f − G ≈ RES(G)代替連接。如前所述，G可以認為是f的低頻分量的容器，因此大多數殘留影像f − G中的像素值預期為非常接近零，殘差特徵的空間分佈應該非常稀疏，因此搜索最優 {W, b}的分配變得更快更容易，允許我們向網路添加更多層並增強其性能。第一步驟：第 1 層至第（L-1）層在 skip connection 下來估計 G 和𝐹𝑆𝑡𝑎𝑔𝑒1 （大小：H*W*S）之間的殘差。卷積濾波每層的過程描述為式 3.8，則殘差從第（L-1）層輸出的輸出與 G 相加得到𝐹𝑆𝑡𝑎𝑔𝑒1_： 𝐹_𝑙 = max(0, 𝑊_𝑙。𝐹_𝑙−1+ 𝑏_𝑙) , 𝑙 = 1, … , 𝐿 − 1 (3.8) 𝐹𝑆𝑡𝑎𝑔𝑒1 _{= 𝐺 + 𝐹} 𝐿−1 (3.9)

(13)

10 第二步驟：深度殘差網路的第 L 層是設置來透過模型中的最後 3D 卷積濾波過程來減少從（S+1）頻帶到 S 頻帶的光譜維數，以及得出最終估計值 F= 𝐹𝑆𝑡𝑎𝑔𝑒2_{（H*W*S），網路的完整架構圖如圖 3.4 所示。} F = 𝐹𝑆𝑡𝑎𝑔𝑒2 _{= 𝑊} 𝐿。𝐹𝑆𝑡𝑎𝑔𝑒1+ 𝑏𝐿 (3.10) 圖 3.4

(14)

11

四、研究結果與比較

4.1 評測標準

為了評測使用本計畫所提出的深度學習網路的結果，我們使用 Universal quality index(Q)[8],Relative dimensionless global error in

synthesis(ERGAS)[9], Spectral angle mapper(SAM)[10]等三項客觀的評價指標來評斷我們的結果影像。

Universal quality index(Q)是用來評測最終影像的品質指數與原輸入的 MS 影像作對比。σ_xy是一個 channel 影像x和y的 covariance，σ_x是它的標準差

Q = σxy σ_xσ_y⋅ 2x̅y̅ (x̅)2_{+ (y̅)}2 ⋅ 2σ_xσ_y σx2_{+ σ} y 2 (4.1)

Root mean square error(RMSE) 它測量像素值對於輸入 MS 圖像𝑅和銳化圖像𝐹的每個波段裡的輻射度變化。所考慮的影像包含均勻區域。RMSE 計算如式 4.2，它應盡可能接近零。

Relative dimensionless global error in synthesis(ERGAS)是一種大範圍的指數對於平均值的移動跟大範圍的變化較為敏感。它的數值也就代表著影像中的光譜失真量。ℎ 𝑙 代表原始輸入的 PAN 和 MS 影像像素尺寸的比例，𝜇(𝑖) 是代表第𝑖個頻帶，而𝑁是頻帶的數量。 RMSE = √ 1 𝑚𝑛∑ ∑ |𝑅(𝑖, 𝑗) − 𝐹(𝑖, 𝑗)| 2 𝑛 𝑗=1 𝑚 𝑖=1 (4.2)

ERGAS = 100 ∗ℎ 𝑙

√

1 𝑁

∑

(

𝑅𝑀𝑆𝐸(𝑖) 𝜇(𝑖)

)

2 𝑛 𝑖=1 (4.3)

Spectral angle mapper(SAM)表示融合圖像和參考圖像之間的光譜相似度，其中涉及的所有像素的平均光譜角度。兩個光譜向量𝑉 = {𝑉₁, 𝑉₂, , , 𝑉_𝑛}以及 𝑉̂ = {𝑉̂₁, 𝑉̂₂, , , 𝑉̂_𝑛}分別代表參考的光譜像素跟融合的光譜像素。

SAM = arccos (<𝑉,𝑉̂>

(15)

12

4.2 結果影像與比較

在實驗部份，我們使用 QuickBird 這個資料集中的影像，多光譜影像為四個頻帶，實際運算於平台 Windows10、CPU 3.40GHz，撰寫語言為 Matlab 並且使用 Matconvnet[11]這個深度學習的框架。再訓練網路過程中花費 300 個 epochs 以及 batch size 為 64 在應用 SGD 上，每 60 個 epoch，learning rate 成以一個下降係數為 0.5。在結果影像部份，我們與目前常見的在結果影像部份，我們與傳統常見的 Component Substitution[12]的方法以及一般 CNN 的沒有使用 skip connection 的方法做比較，除了主觀的影像品質也使用於章節 4.1 所提到的三項客觀的數值評價，並且以粗體字強調最佳的結果數值。以下列出使用深度殘差網路的實驗結果圖，圖 4.1 為應用 resnet 的結果圖，圖 4.2 為 ground truth 原圖。圖 4.1 圖 4.2

(16)

13

可以看出圖 4.1 在視覺上非常接近圖 4.2 的 ground truth ，甚至對於某些容易扭曲的特定光譜曲線也能保持較不失真，透過深度學習迭代學習特徵能在合併空間細節和光譜保真度上保持高品質。

於圖 4.3 中，可發現 filter size 越高則 Q 值也越高，而於圖 4.4 中發現 filter size 越高則 SAM 值越低，透過實驗結果的比較我們將網路的 filter size 設為 7x7。

圖 4.3

(17)

14

我們也使用一些量化的評測標準來評斷我們的方法及其他方法的比較，我們使用 Q metric、the relative dimensionless global error in

synthesis(ERGAS),和 the spectral angle mapper (SAM)來評斷在空間及頻譜資訊的範圍的準確度。而我們跟傳統的 Component Substitution 的方法 Gram–Schmidt(GS) pansharpening，以及一般沒有殘差網路跟 skip

connection 的 CNN 方法來做比較，表 4.1 是數值評價的結果，可以看出我們的方法在評測標準上都比其他方法好。

Test image Method Q ERGAS SAM

Sensor: QuickBird Size: 250*250*4Total number:160 GS 0.8305 4.5014 4.0227 PNN 0.9206 2.7110 2.6405 DEEP RESNET 0.9437 1.7112 1.9813 表 4.1

(18)

15 於圖 4.5 中，可以發現傳統方法在物體及邊緣細節上保持的不錯但在頻譜解析度上較為失真，而 CNN 的方法物體較不清楚且邊緣細節上較為模糊，我們的方法在視覺上的效果較其他方法的物體和邊緣細節更為明顯，在頻譜解析度也能兼顧，跟 ground truth 也較為相似。 (a) (b) (c) (d) (e) 圖 4.5 模擬融合後的影像及各方法的結果圖 (a)低解析度的 MS 影像 (b)ground truth (c)GS (d)CNN (e)Proposed

(19)

16 於圖 4.6 中，可以發現傳統方法在空間解析度上保持的不錯但在頻譜解析度上較為失真，而 CNN 的方法在頻譜解析度上維持的不錯但空間解析度較為失真，而我們的方法在空間及頻譜解析度上能保持兩者兼顧，跟 ground truth 也較為相似。 (a) (b) (c) (d) (e) 圖 4.6 模擬融合後的影像及各方法的結果圖 (a)低解析度的 MS 影像 (b)ground truth (c)GS (d)CNN (e)Proposed

(20)

17 於圖 4.7 中，可以發現傳統方法取得很銳利的空間資訊特徵但在頻譜資訊有嚴重的扭曲，而深度學習的方法在頻譜解析度上和空間解析度較都能維持的不錯，但更仔細觀持小物體的邊緣，會發現我們的方法更為明顯及銳利。 (a) (b) (c) (d) (e) 圖 4.7 模擬融合後的影像及各方法的結果圖 (a)低解析度的 MS 影像 (b)PAN 影像 (c)GS (d)CNN (e)Proposed

(21)

18

五、結論

本計畫提出一個應用於多光譜的衛星影像融合的深度學習模型，將 P 衛星提供的影像通常包含多張高頻譜解析度的多頻譜影像(MS)與高空間解析度的全色域影像(PAN)，透過深度學習的技術得到一張具備高空間解析度以及高頻譜解析度的影像，並且同時提升影像的視覺品質，便可得到擁有更佳的影像品質及細節內容的多光譜影像。

我們使用 Deep Residual Network 將 MS 和 PAN 影像進行高品質地融合。 Deep Residual Network 利用 CNN 的高度非線性的特點來實現更好的性能。此外，深度殘差網路的學習架構也能使網路更深入並增強其性能。網路的優勢在於可以透過訓練來模擬涵蓋各種複雜地面場景的影像。在實驗結果部份我們使用多組影像做測試，並且與幾種常見的方法做比較，無論是在數值上的評估，亦或是視覺上的品質都有明顯提升。由於與深度學習訓練需花費較多時間，因此如何選擇訓練的影像的資料集，及如何改善網路的效能，將會是我們可以繼續研究的目標。

(22)

19

參考文獻

[1] Jacqueline Le Moigne, “Introduction to remote sensing image registration,” 2017 IEEE International Geoscience and Remote Sensing Symposium (IGARSS). [2] L. Alparone, B. Aiazzi, S. Baronti, A. Garzelli, F. Nencini, and M. Selva,

“Multispectral and panchromatic data fusion assessment without reference,” Photogrammetric Engineering & Remote Sensing, 74(2):193–200, 2008. [3] P.M. Bentley ; J.T.E. McDonnell, “Wavelet transforms: an introduction,”

Electronics & Communication Engineering Journal, vol. 6, issue. 4, pp. 175-186, Aug. 1994.

[4] Rahul Gupta, Ashutosh Gupta, Suneeta Agarwal, “A novel approach of data compression for dynamic data,” 2008 IEEE International Conference on System of Systems Engineering.

[5] G. Masi, D. Cozzolino, L. Verdoliva, and G. Scarpa, “Pansharpening by convolutional neural networks,” Remote Sens., vol. 8, no. 7, p. 594, Jul. 2016. [6] Forest Agostinelli, Matthew Hoffman, Peter Sadowski, Pierre Baldi, “Learning

Activation Functions to Improve Deep Neural Networks,” workshop paper contribution at the International Conference on Learning Representations (ICLR) 2015.

[7] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image

recognition,” IEEE Conference Computer Vision Pattern Recognition(CVPR), Las Vegas, NV, USA, Jun. 2016, pp. 770–778.

[8] L. Alparone, S. Baronti, A. Garzelli, and F. Nencini, “A global quality

measurement of pan-sharpened multispectral imagery,” IEEE Geoscience and Remote Sensing Letters,1(4):313–317, 2004.

[9] Veeraraghavan Vijayaraj, “Quantitative analysis of pansharpened images,” Optical Engineering 45(4), April 2006.

[10] Shailesh Panchal and Dr. Rajesh Thakker, “Implementation and comparative quantitative assessment of different multispectral image pansharpening approaches,” Signal & Image Processing : An International Journal (SIPIJ) Vol.6, No.5, October 2015.

(23)

20

[11] MatConvNet: CNNs for MATLAB. [Online]. Available: http://www.vlfeat.org/matconvnet.

[12] Wen Dou, Yunhao Chen, Xiaobing Li, Daniel Z. Sui, “A general framework for component substitution image fusion: An implementation using the fast image fusion method,” Computers & Geosciences Journal, vol. 33, issue. 2, pp. 2, Feb. 2007.

(24)

107年度專題研究計畫成果彙整表

計畫主持人：戴顯權計畫編號： 107-2221-E-006-132-計畫名稱：一個有效的深度學習模型在影像融合上之應用成果項目量化單位質化（說明：各成果項目請附佐證資料或細項說明，如期刊名稱、年份、卷期、起訖頁數、證號...等）　　　　　　　國內學術性論文期刊論文 0 篇研討會論文 0 專書 0 本專書論文 0 章技術報告 0 篇其他 0 篇智慧財產權及成果專利權發明專利申請中 0 件已獲得 0 新型/設計專利 0 商標權 0 營業秘密 0 積體電路電路布局權 0 著作權 0 品種權 0 其他 0 技術移轉件數 0 件收入 0 千元國外學術性論文期刊論文 0 篇研討會論文 0 專書 0 本專書論文 0 章技術報告 0 篇其他 0 篇智慧財產權及成果專利權發明專利申請中 0 件已獲得 0 新型/設計專利 0 商標權 0 營業秘密 0 積體電路電路布局權 0 著作權 0 品種權 0 其他 0

(25)

技術移轉件數 0 件收入 0 千元參與計畫人力本國籍大專生 0 人次碩士生 3 鄭宇呈、陳俊次、陳奕婷博士生 1 陳鵬宇博士級研究人員 0 專任人員 0 非本國籍大專生 0 碩士生 0 博士生 0 博士級研究人員 0 專任人員 0 其他成果（無法以量化表達之成果如辦理學術活動、獲得獎項、重要國際合作、研究成果國際影響力及其他協助產業技術發展之具體效益事項等，請以文字敘述填列。）　　

(26)

一個有效的深度學習模型在影像融合上之應用

科技部補助專題研究計畫成果報告

期末報告

一個有效的深度學習模型在影像融合上之應用

中 華 民 國 108 年 10 月 30 日

一個有效的深度學習模型在影像融合上之應用

一、 前言

二、 相關文獻

2.1 影像融合

2.2 機器學習

2.3 多光譜衛星影像

三、 研究方法

3.1 系統流程圖及方法概述

3.2 建立 CNN 架構

3.3 建立 Deep Residual network 架構

四、 研究結果與比較

4.1 評測標準

√

∑

(

)

4.2 結果影像與比較

五、 結論

參考文獻

107年度專題研究計畫成果彙整表

科技部補助專題研究計畫成果自評表

請就研究內容與原計畫相符程度、達成預期目標情況、研究成果之學術或應用價

值（簡要敘述成果所代表之意義、價值、影響或進一步發展之可能性）、是否適

合在學術期刊發表或申請專利、主要發現（簡要敘述成果是否具有政策應用參考

價值及具影響公共利益之重大發現）或其他有關價值等，作一綜合評估。

1. 請就研究內容與原計畫相符程度、達成預期目標情況作一綜合評估

■達成目標

□未達成目標（請說明，以100字為限）

□實驗失敗

□因故實驗中斷

□其他原因

說明：

2. 研究成果在學術期刊發表或申請專利等情形（請於其他欄註明專利及技轉之證

號、合約、申請及洽談等詳細資訊）

論文：□已發表 □未發表之文稿 ■撰寫中 □無

專利：□已獲得 □申請中 ■無

技轉：□已技轉 □洽談中 ■無

其他：（以200字為限）

3. 請依學術成就、技術創新、社會影響等方面，評估研究成果之學術或應用價值

（簡要敘述成果所代表之意義、價值、影響或進一步發展之可能性，以500字

為限）

透過卷積神經網路，將衛星提供的高頻譜解析度多頻譜影像與高空間解析度的

全色域影像進行融合，可透過小樣本的資料，經過訓練得到集合兩者優點的高

空間解析度且高頻譜解析度的影像，以增加影像的視覺品質提供更多影像的細

節。透過機器學習的方式進行影像融合，預期對太空遙測影像的發展有所貢獻

。

4. 主要發現

本研究具有政策應用參考價值：■否 □是，建議提供機關

（勾選「是」者，請列舉建議可提供施政參考之業務主管機關）

本研究具影響公共利益之重大發現：□否 □是

說明：（以150字為限）

中　華　民　國　108　年　10　月　30　日

一、前言

二、相關文獻

三、研究方法

四、研究結果與比較

五、結論

　　□實驗失敗

　　□因故實驗中斷

　　□其他原因

論文：□已發表　□未發表之文稿　■撰寫中　□無

專利：□已獲得　□申請中　■無

技轉：□已技轉　□洽談中　■無

本研究具有政策應用參考價值：■否　□是，建議提供機關

本研究具影響公共利益之重大發現：□否　□是