有關灰階影像自動上色技術之研究

(1)

行政院國家科學委員會專題研究計畫成果報告

有關灰階影像自動上色技術之研究研究成果報告(精簡版)

計畫類別：個別型

計畫編號： NSC 95-2221-E-011-123-

執行期間： 95 年 08 月 01 日至 96 年 07 月 31 日執行單位：國立臺灣科技大學資訊管理系

計畫主持人：楊傳凱

計畫參與人員：博士班研究生-兼任助理：張幸卿

碩士班研究生-兼任助理：龔興東、陳雅湘

報告附件：出席國際會議研究心得報告及發表論文

處理方式：本計畫涉及專利或其他智慧財產權，2 年後可公開查詢

中華民國 96 年 10 月 01 日

(2)

附件一

行政院國家科學委員會補助專題研究計畫 ■ 成果報告

□期中進度報告

（計畫名稱）

有關灰階影像自動上色技術之研究

計畫類別：■ 個別型計畫 □ 整合型計畫計畫編號：NSC 95－2221－E－011－123－

執行期間： 95 年 8 月 1 日至 96 年 7 月 31 日

計畫主持人：楊傳凱共同主持人：

計畫參與人員：張幸卿，龔興東，陳雅湘

成果報告類型(依經費核定清單規定繳交)：■精簡報告 □完整報告

本成果報告包括以下應繳交之附件：

□赴國外出差或研習心得報告一份

□赴大陸地區出差或研習心得報告一份

■出席國際學術會議心得報告(另外上傳)

□國際合作研究計畫國外研究報告書一份

處理方式：除產學合作研究計畫、提升產業技術及人才培育研究計畫、

列管計畫及下列情形者外，得立即公開查詢

□涉及專利或其他智慧財產權，□一年□二年後可公開查詢

執行單位：

中華民國 96 年 10 月 1 日

(3)

目錄：

報告內容

一、研究計畫中文摘要

二、研究計畫英文摘要

三、前言

四、研究目的

五、文獻探討

六、研究方法

七、結果與討論

參考文獻

計畫成果自評

(4)

結案報告：

一、研究計畫中文摘要：

關鍵詞：著色(colorization)，自動化(automation)，質紋合成(texture synthesis)，樹狀結構向量式量化(tree-structured vector quantization)

自Welsh 等人所發表的「將灰階影像著色」(transferring color to greyscale images)的論文發表後，灰階影像之著色於最近已成為一門重要的研究領域。即使針對其品質的改善近年來不斷有新的方法被提出，但仍有兩項重要的問題尚未完全解決。首先是自動化的問題。沒有自動化，為灰階影像著色將無可避免地成為十分繁瑣的過程，遑論能將此技術應用到為灰階視訊著色，因為可預見其過程所需的人為介入只可能更為繁複。事實上，就我們所知，

有一篇由 Vieira 等人所作之「為灰階影像自動選擇來源影像以進行著色」(automatically choosing the source image in the coloring process of greyscale images)，其目的雖與我們相似，

然而其做法卻如其標題所示，與我們的想法有所不同。至於我們的靈感主要係得自於最近突然暴增之有關「材質合成」 (texture synthesis)的論文，於其中我們觀察了上百種自然界中的材質，導致我們相信一張由自然界攝取的灰階影像，其中所包含的可能材質的種類數目應是十分有限的。根據如此的觀察出發，我們首先可以建造一個包含各類材質的集合，

而集合內所包含的是固定的大小的「微影像」，例如5×5 的影像。接著在程式執行時，根據所欲著色的灰階影像中的物件(區域)的材質，或是更具體地說，物件(區域)的統計性質，

我們由集合中找出最相近的具顏色的材質，接著即可將該有色材質之顏色移轉至原來灰階的影像上。其次是效能的問題，此乃因替灰階影像著色本質上即為一冗長之過程。對此，

我們可以借用在材質合成論文中所提的「樹狀結構向量式量化」(tree-structured vector quantization)的想法來加快整個灰階影像著色過程。

(5)

二、研究計畫英文摘要：

Keywords: colorization, automation, texture synthesis, tree-structured vector quantization

Colorizing greyscale images has become an important research area in recent years since Welsh et al.’s groundbreaking work on “transferring color to greyscale images”. Despite the following work on improving the quality of the resulting images, there are still two issues remaining unsolved. The first issue is the automation of colorization process. Without automation, such a process will definitely become tedious in the face of greyscale images with heterogeneous contents, let alone the generalization to colorizing greyscale video where far more human effort will be expected. In fact, to our knowledge, there is only one paper titled as “automatically choosing the source image in the coloring process of greyscale images” by Vieira et al., which bears a similar objective, but their approach, as evidently suggested by its title, is quite different from ours. Inspired by the recent burst of papers on texture synthesis, we have observed hundreds of nature textures and are convinced that there should be just a relatively small number of possible textures assuming a target greyscale image was taken from a natural scene. Based on this observation, we first form a repertoire with appropriately chosen color textures, represented as a

“micro-images” with fixed size, such as a 5×5 images. At the run time, given a greyscale image, each object (region), according to its texture, or more concretely its statistical property, it should be able to find the best match from the repertoire thus acquiring the desired color. The second issue is regarding the performance, as this colorization process often requires a lengthy execution time. We could borrow ideas from texture synthesis such as the “tree-structured vector quantization” to speedup the colorization process.

(6)

三、前言（引用文獻請參見之後的參考文獻部分）：

將灰階影像著色一直以來都是個十分重要的問題。由於此問題並無一個所謂「正確」的解答，故而過去的做法通常是藉由使用者自行定義。然則這樣的做法在面臨大量的資料時，

例如若想將一部黑白電影轉為彩色便顯得非常不切實際。這種情況自Welsh 等人令人眼睛一亮的「將灰階影像著色」(transferring color to greyscale images)的論文[9]發表後，便有了大大的不同。事實上Welsh 等人做法的靈感乃得自 Reinhard 等人的「彩色影像間色彩轉換」

(transferring color between images)論文[9]。該篇論文能以其中一張影像(target)的內容為主，

而將另一張影像(source)的特色傳遞過來，成為一張新的彩色圖(final)，見圖一。

Final 圖一(引自[9])

Target

+ =

Source

應用類似的觀念，Welsh 等人將一張灰階影像視為 target 影像，而後藉由一張適當選取的 source 彩色影像，將灰階影像著色，見圖二。

+ =

Source

Final Target

圖二(引自[9])

在某些情形下，此著色的過程可以自動進行，而在其他情形下則需要使用者的介入。Welsh 等人的做法將於之後相關文獻處詳細介紹，但其基本精神如下。首先先將依適當選取之彩色來源影像由RGB的表示方法轉換為Lαβ的表示方法，如此做的主要原因乃在RGB的表示其相關性太高，而在Lαβ的表示之下亮度L及彩度αβ間的相關性即可大幅降低。其次我們將來源影像依目的影像的亮度分配做適度的調整，即範圍的伸縮及位移，使得兩者之間有較好的對應。接著我們對目標影像上的每一點，依其「鄰域」(neighborhood)的「統計性質」

(statistics)到來源影像中去搜尋具有最相近鄰域性質的點，將其αβ的值傳遞至目的影像上，

再由其Lαβ的表示方式反轉換為RGB的表示，進而得到想要的顏色。在此過程中，若灰階影像中不同的物件過多，使得尋找單一且合適的來源影像變得困難，或者在來源影像中存在相同的亮度卻不同顏色的像素時，使用者則需於來源及目標影像中定義「條狀區塊」

(swatch)，以侷限顏色轉換時的搜尋範圍。由於此篇論文之提出，著色問題一時之間已成為一門重要的研究領域。即使針對其品質的改善近年來不斷有新的方法被提出，但仍有兩項重要的問題尚未完全解決。首先是自動化(automation)的問題。沒有自動化，為灰階影像著色無可避免地將成為十分繁瑣的過程，更遑論能將此技術應用到為灰階視訊(greyscale video)著色，因為可預見其過程所需的人為介入只可能更為繁複。事實上，就我們所知，

有一篇由Vieira等人所作之「為灰階影像自動選擇來源影像以進行著色」(automatically choosing the source image in the coloring process of greyscale images)論文，其研究目的雖與我

(7)

們相似，然而其做法卻如其標題所示，與我們的想法有所不同。至於我們的靈感主要係得自於最近蓬勃發展之有關「材質合成」 (texture synthesis)的論文，其沿革我們將於相關文獻處細談。這其中我們觀察了上百種自然界中的材質，導致我們相信由自然界攝取的灰階影像，其中所包含的可能材質的種類數目應不會太多，另一方面，一般自然界中常見的材質種類其數目應該也是十分有限。根據如此的觀察出發，我們首先可以建造一個包含各類材質的資料庫，而資料庫內所包含的是固定的大小的「微影像」(micro image)，例如 5×5 的影像。接著在程式執行時，針對所欲著色的灰階影像中的物件(區域)的材質，或是更具體地說，物件(區域)的統計性質，我們由資料庫中找出最相近的具顏色的材質，接著即可將該有色材質之顏色移轉至原來灰階的影像上。其次是效能(performance)的問題，根據 Welsh等人的數據，在 2002 年時以Pentium 800MHz的PC執行其演算法，一張 640×480 的灰階影像費時約15 秒至 1 分鐘，就單張影像而言此速度固然不慢，然而若考慮數量龐大的影像庫或影片時，此速度就顯得不足了。此主要因為替灰階影像著色需涉及冗長的搜尋過程。

對此，我們可以借用在材質合成論文中所提及的「樹狀結構向量式量化」(tree-structured vector quantization)的想法來加快整個灰階影像著色過程。在此對材質做一簡介，其詳述可參見之後的參考文獻。材質在我們四處都很常見到。它可以用一個表面特徵的變化來描述，

如地形、植物、礦物質、毛皮和皮膚。在實體的世界中對電腦圖學而言真實的重現是一個很重要的目標，當我們對材質呈像時，也是希望如此。這些材質可以由不同的來源獲得，

如手繪或掃描一個圖片。手繪圖片很具有美感，但是它很難像照片般真實。大部份的掃描圖片大小總是不合用或和在我們材質貼圖重複的部份會有縫線產生。材質合成時，其實我們可以是很自由的方試來合成材質。因為材質大小可以改變，所以我們必須避免讓材質重複。當我們對材質的邊界做處理時，我們可以將材質如拼圖般互相拼湊。材質的其它應用也是很廣，如去除雜訊、填充材質、和幫助資料壓縮。

四、研究目的（引用文獻請參見之後的參考文獻部分）：

本研究的目的在於設計出一套高速而精確的灰階影像自動著色系統。高速係指此系統應可用於大量灰階影像的著色，精確係指其著色結果經人為檢驗(抽驗)後符合人的視覺經驗，

還有最重要的即是自動化部分。一旦缺少自動化，其應用的價值即大幅降低，因為即使著色的結果做得再好，也僅能適用於少量灰階影像的著色工作，如此一來電腦介入的意義已相對降低。將灰階影像著色可以應用在許多層面。例如將衛星影像，醫學上X射線(X-Ray) 影像，電子顯微鏡影像等，由於影像的成像原理的限制，經常都以灰階的形式呈現。若予以著色，則增加色彩後不僅增加了可看度，也可能再某些意義上而言提供了更多的資訊，

見圖三。灰階影像著色更可以應用來將早期的黑白電影(事實上是灰階電影)著色後轉為彩色電影，例如電影「亂世佳人」就曾經歷過這樣的轉變，即使當時完全自動的灰階影像上色的技術尚未發展出來。

+ =

Target Final Source

圖三(引自[9])

(8)

五、文獻探討（引用文獻請參見之後的參考文獻部分）：

1. Welsh等人的「灰階影像著色」(Transferring Color to Greyscale Images)[9]：

如背景部分所述，本篇論文介紹一個可以由一張來源的彩色圖和一張灰階圖然後參考彩色圖且把灰階圖「上色」成彩色的技術。因為一般灰階彩度(chromatic)值沒有唯一的對映，

而此方法希望能減低人為處理。不使用一般常用的RGB顏色系統，本篇方法利用亮度 ( luminance)和材質資訊轉換來源影像的顏色到Lαβ。而且我們能只將彩度轉換而且保留目標的原始亮度值。更進一步的，也可以讓使用者在兩張影像中利用帶狀(swatch)的方形來配對區域。本篇從一張影像轉成另一張影像的概念是由實作Reinhard等人[10]中兩張彩色圖的轉換得到的靈感。他們將來源影像的顏色轉到第二張圖片且用一個很簡單但是很成功的方法。基本的方法是將來源和目的兩張影像的顏色值的三維分佈做調整。在Welsh等人的研究中，灰階影像係由一維資訊來表示，因此只需要將其視為亮度值即可。因為不同的亮度值可能代表圖片中不同的區域，像素鄰域的統計性質就變成我們要比對顏色的主要依據。一旦像素的顏色值決定了，只會將來源影像的顏色傳遞過來，而原來的亮度值還是保留。在一些比較困難的轉換中，可利用帶狀(swatch)來決定如何將來源及目標中的區域配對。這其中利用L2 Norm度量來衡量兩個區域是否相像。

2. Gonzales等人「數位影像處理」(digital image processing)[14]:

Gonzales等人在其書中談到，為了增加視覺的效果，顏色常常會被加在黑白相片、早期電影、科學的圖片中。而且，為了加深視覺的感覺，一些科學的圖片中也加入彩度。將一張灰階影片著色牽涉到RGB三個各自獨立的領域。但是不同的顏色卻有相同的亮度，這是能否將灰階影片正確地上色的大問題。基於這個問題，人為互動在顏色轉換中扮演一個很重大的角色。他們提出一個隨機上色的方法，亮度對到顏色是自動的，只是顏色的對應還是要人工決定。因大部份電影工業用的彩色化軟體是專屬的，而且詳細技術的描寫文件都不是一般可以取得的。然而，一些網路文章仍然嘗試要在一些區域中人為著色。由於將圖片彩色化有很多用處，本書中描述了一個簡單的方法來將灰階的X光片著色。而且在醫學上，

這樣的技術更可應用在「核磁共振影像」 (Magnetic Resonance Imaging, or MRI)和「電腦斷層掃描」(Computer Tomography, or CT)上。

3. Pratt 的Pseudocoloring:

把灰階影像上色中隨機彩色化(pseudocoloring) 是一個常見的技術，如 X 光、 MRI 、 SEM(scanning electron microscpy)。Pratt[15] 提出來一個將「影像增強」(image enhancement) 的方法，因為它可以增強影像細部的偵測程度。在這個基礎上，隨機彩色化就只是一個轉 換T, c(x,y)=T(f(x,y))，而f(x,y)是灰階影像上的值，c(x,y)是結果的RGB值。對於每個相同的 灰階值都會映射到同一個顏色。這個方法的好處就是不會改變資料的內容。舉例來說，在 MRI中的圖片會依密度值來對顏色做一對一的映射。然而，如果用顏色映射(colormap)，

可能會對圖片產生視覺上的扭曲。

4. Reinhard等人的「彩色影像的顏色傳遞」(Color Transfer Between Images):

主要用一個簡單的統計分析來將一張影像的顏色特徵傳遞到另一張影像。藉由適當的來源影像，能將來源影像的特徵轉換至另一張圖片。可以想像可能有很多方法可以應用在一張影像的顏色轉至另一張，但本篇目標是在尋找一個簡單的演算法。其策略是選擇一個合適的顏色空間，並且在這空間內進行操作。由於一般都知道，在顏色的RGB三維空間上，不同的維度中仍然有其關聯性。比如說，在大部份的像素中，如果藍色值大的時候，紅色和綠色也會偏大。這意味著如果若要改變某一個維度上的顏色，相對的，必須也要考慮其它兩個維度。如此一來一切都變複雜了。簡單說來，較理想空間的是一個正交的且彼此都不會有關係的空間。最近，Ruderman等人發現了一個顏色空間，稱Lαβ[16]，可以讓色彩

(9)

間彼此的關聯度降低。這個空間是基於資料導向的人類視覺研究，而在此空間中彼此的關聯性很低。

5. Levin等人的「以最佳法來著色」(Colorization using Optimization)[13]:

一般為灰階視訊的上色工作通常得先將某一張影像進行「區塊化」(segmentation)的動作，

對個別區塊著色後，再「追蹤」(track)各區塊在下一時間時的位置，因大部分的區塊形狀及位置變化不大，其著色應可以沿用，至於一些變化較大或新出現的區塊，則需手動進行修改。本篇論文嘗試提出一個簡單的方法既不需要精確的區塊化的動作，也不需要追蹤的動作。使用者僅需在各區塊中描畫出想要的顏色，如圖四(a)，則此演算法則自動將之著色，

如圖四(b)。

(a) (b)

圖四(引自[13])

如此做法主要係根據一個簡單的前提：在時空上相鄰的像素應該具有相近的顏色。以此前提，Levin 等人定義一個二次的(quadratic)「價值函數」(cost function)，在以此函數為基準，

將著色問題視為一個解決「最佳化」(optimization)的問題，再以一些現存的技術來解此一問題。相較之下，Welsh 等人所提出的一個半自動化的方法，在其中將要轉換的灰階圖片必須參考另一張彩色圖片，並轉換出具有參考圖片風格的彩色圖。Welsh 等人調查像素鄰域的亮度值並且從參考的圖片中轉換顏色給灰階影像。在明亮度的群組差異很大且有很大不同的材質時出來其方法效果很好，而在其它的例子中，使用者必需直接利用帶狀來指示相對應的區域在兩張影像中做搜尋，而其方法出來的結果也讓人印像深刻。注意到在Welsh 等人的做法中，藝術家對結果的支配上並非那麼直接：他必需先找到一個參考的彩色圖，

且在其內容中有要轉換的材質顏色，而在有問題的某些地方可能很難去找到一個會具有好結果的圖案。相對的，使用本篇方法時，畫家可以直接選擇顏色而且如果有需要的話能在草圖上再對顏色做精緻化。而且Welsh 等人的方法不直接強迫顏色的連續性，且在一些影像中它很有可能在相同的顏色亮度上卻給有不同的值，本篇的方法則較不具此缺點。

6. Markle 等人的彩色化過程[17]：

在其過程中，一個彩色遮罩至少要手工上色一張影像來當參考畫面。動作偵測和追蹤也會被應用到，只要沒有移動發生，顏色會自動傳遞到其它畫面的相對區域。移動的邊的附近區域的顏色則會用「光流」(optical flow)的方法給值，通常在操作的時候仍需要手工的校準。雖然大部份工業用的彩色化系統不是眾所皆知的，仍然有跡象[18]顯示這些系統還是要在畫面中依定義的區域和軌跡來上色。Blackmagic[19]等商用的軟體在彩色化靜態影像時提供了實用的刷子(brushes)和調色盤(color palettes)，但是分割(segmentation)的動作還是要由使用者來做。

7. Wei 等人的「以樹狀向量式量化進行之快速材質合成」(Fast Texture Synthesis using Tree-structured Vector Quantization)：

(10)

材質合成在電腦圖學、影像處理中是一個很重要的應用。然而，仍然很難去設計一個同時具有效率和好結果的演算法。此篇論文介紹一個有效率且可行的材質合成演算法。這個演算法很簡單，而且只需要在輸入端給一個樣本材質即可。它所產生的結果比之前的做法好，而且速度快兩倍以上。這讓我們可以挑戰之前材質合成在傳統上所遇到的問題。尤其此演算法也可應用在一些受限制的材質合成和隨時間變化的材質上。此演算法基本上是源於「馬可夫隨機場」(Markov Random Field)和經由一個搜尋過程中來生成我們想要的材質。

「樹狀結構的向量式量化」(tree-structured vector quantization)是本篇所採用的材質合成的加速方法。詳細之材質合成的步驟如下:給一張材質樣本然後合成一個新的材質，且在人們的觀察下可知是源自同一個，其實只是經過一個隨機過程。最主要的挑戰是 1)模型化 (modeling):當給定有限的材質樣本時，如何從其中測出隨機過程。2)取樣(sampling):當給定模型時，如何發展一個有效的取樣來做出我們的新材質。模型化和取樣是材質合成成功的必要因素:材質合成的精確度會依模型化的準確性，取樣過程的效率會直接響影到材質生成的計算成本。這篇論文提出一個簡單的演算法能有效率的合成各樣的材質。由輸入端的材質和隨機擾動可以合成出使用者要的大小材質，並使其和使用者的輸入樣本類似。因為所輸入的一次只有一個材質，所以其做法十分容易且很有彈性，合成出的新材質也僅需少許時間，且其「可拼貼性」(tileability)是可驗證的。此演算法很容易實作，而其中最重要的兩個核心部份是「多層次金字塔結構」(pyramid structure)和簡單的搜尋演算法。

8. Blasi 等人的「快速灰階影像彩色化」(Fast Colorization of Gray Images)[74]：

因Welsh 的彩色轉換方法需要大量的時間來將灰階影像上色，所以這篇論文針對時間上改進，希望能夠加速彩色化的時間。在減少搜尋時間的方法上，利用反極策略(antipole strategy) 來建立一結構樹，並利用此資料結構來節省比對相似度所需的時間。反極策略在建構上是以k-mean 分群為基礎而加以改良的。在實作上與我們的樹狀結構向量量化(TSVQ)的做法很類似，主要將所有的資料分群，而每一群裡的元素相似度很大，但群與群之間的相異度卻很大。在彩色轉換上，作者提出三個方法來上色:

a.利用 5x5 大小的鄰域為我們的微影像，把上面這 25 個像素值均列入考慮計算。

b.我們只考慮 5x5 微影像的平均(mean)和標準差(standard deviation)

c.結合 1&2 的方法綜合考慮。從影像彩色化的結果來看，以 a 和 c 的品質為佳，但是用 b 的方法是最快的。在加速和沒加速的處理時間上，加速可以明顯的減少彩色化的時間，大部份的影像均可減少 2 至 5 倍的處理時間。雖說是「快速」灰階影像彩色化，不過從此論文的實驗數據來看，一張影像在沒有加速時需要 2~40 分鐘左右，加速完後大部份的影像花費的時間仍要 2 至 3 分鐘，只有在採用方法 2 時可以把時間壓低在一分鐘內。雖說是快速彩色化，但若考慮品質和速度時此論文仍有很大的進步空間。

9. Hertzmann 等人的「影像類比」(Image analogies)[11]：

圖片類比在不同的領域中已有很多先前的成果了，包含「機械學習」(machine learning)、

材質合成、NPR (non-photorealistic rendering，即非真實呈像)、和以影像為基礎的呈像。影像類比可用來應用在一些全新的領域，例如由真實的藝術畫像中的數位呈像來學習藝術的能力，以及「超解析」(super-resolution)和「材質轉換」(texture transfer)等，前者指將一影像由模糊變清楚，而後者指將某種材質轉換至一指定影像。雖然這些問題有的以前曾被嘗試處理過，但此演算法比很多之前的成果更好。它具有一般性，且此架構提供了很大的方便性，因而十分有趣且實用。此架構似乎也可以做為替灰階影像著色的另一途徑，例如我們可以利用一組其灰階形式(稱A)，彩色(稱A′)皆存在的影像，及一張欲著色的灰階影像(稱 B)，而希望其輸出的結果(B′)是一張經過類比後將B著色後的影像。此篇論文提出一個新的統計方法來找尋影像間的類比之處，不只是位移、放大、縮小的類比轉換，更能將物件或其相關的部份做一一對映。此方法不同於先前的「馬可夫隨機場」(Markov Random Field，

or MRF)的方法，不需要用反覆的演算法來模擬。更重要的，此方法可在電腦圖學中引進許多新的應用。其中材質轉換的方法和Veryovka和Buchanan的方法相似，可將一張影像調

(11)

色成另一個材質的影像[54]，而且也可使用多樣材質組成來展示一個「3D的網格」(3D mesh)[53]。此方法一也可結合和Wei等人的方法來做影像類比。最近發表的成果中，

Ashikhmin [20]提出一個材質合成的方法，盡可能地利用貪婪法擴張存在的補丁(patch)而不是在樣本材質中搜尋。這個演算法很快，而且出來的結果也比之前的方法來的好。然而，

這個方法當補丁在快結束的部份時會面臨一些問題，使得在材質合成的結果中造成突然不連續的部份。此外Ashikhmin等人的方法也可以讓使用者依目標材質來繪想要的彩色影像，也和Hertzmann等人所提方法中的「由多張圖片來做材質合成」(texture-by-numbers) 的動作很相似。另一個與影像類比相關的重要應用是從不同的樣本藝術樣本中自動材質合成。在過去幾年，在計算機上已經有很多創造藝術風格的成果[26, 34, 37, 38, 42, 46, 49, 50, 56, 57]，其中一個著名的領域就是NPR。在之前成果中的一個缺陷就是只能符合特定的呈像的風格。相對的，使用影像類比對即使是一些沒有良好創作的風格，我們仍然能很有效率地轉換它。

10. 其餘有關影像類比的文獻：

有關影像類比的一個核心問題是機械學習。所謂「類比」的推論就是說要去解決、學習、

和創造[41, 42, 61]。在此原因下，早期的人工智慧目標就是建立一個系統能做類推的動作；

而早期的成果包含Evan等人的ANALOGY程式[30]和Winston等人所提出的，具有同步尋找與利用能力的簡單而又有開創性的理論[58]。最近，在電腦圖學上一些機械學習的應用的問題已經被發表了，包含視訊重寫[23]、聲音木偶(voice puppetry)[22]、視訊材質(video texture)[51]、機械風格(machine style)[62]。最近和類比最相關的研究有Freeman等人[31]，

他們利用「馬可夫隨機場」(Markov Random Field)來學習影像，想要學習一種從一些已獲得的影像推到另一影像的轉換，像是從低解析度資訊中來粹取高解析度的資訊，即「超解析」，或是從一對影像中推論其「光學流」 (optical flow)的資訊。另外，在最近幾年，在計算機圖學和電腦視覺上在材質合成領域中有很多成果已發表出來:能創造出一與給定的數位圖片外貌相符的材質圖片。在1995 年Heeger和Bergen[36]在電腦圖學社群中就提到這個問題了。還有，De Bonet[21]和Efros和Leung[27]提出用最近鄰域搜尋來一個做材質合成，分別用多尺度(mulitsacle)和單一尺度(singescale)的方式，在一個單獨過程中就可以得到很好的結果。(這個研究可以看做是一種近似於對一個MRF做取樣。(Zhu等人[60]和 Portilla和Simoncelli[48]有使用到這方法。) Wei 和Levoy[55]統合這些方法，使用粗略的尺度(coarser scale)和現在相同的尺度(current scale)的像素鄰域來決定像素值。「向量量化」

[33]或分群可以加速其中對「最近鄰居」(nearest neighbor)的計算[31, 44, 45, 47, 55]。在一份尚未發表的成果中，Eilhauer[29]等人提出了一個能和輸入影像相似的材質合成的方法，

稱其為「材質轉換」(texture transfer)。在這些相似的研究中，Efros和Freeman[28]提出一個材質合成的改進方法，而且也能在材質上做轉換。另外與影像類比相關的是「範例呈像」

(example-based rendering)，主要目的係設法利用NPR的方式來處理其他影像。最早的例子就像Adobe PhotoShop 的 clone brush 或是 Corel Painter 的 image hose 。最近有大量的 EBR(example-based rendering)式的NPR在不同的研究中被提出來[24, 39, 40, 59]。或許其中與類比精神最相似的方法就是由樣本來創造筆觸的方式 [35]。

11. 其餘有關材質合成的文獻：

在材質分析和合成的領域中方法已經有很多，以下簡單地說明在其他三個相關領域的發展情況。一、在「物理模擬」 (Physical Simulation)方面，我們可以直接利用一些物理產生的過成中合成一些表面。其中一些生物的圖樣，如:毛髮、鱗、和皮膚可以使用一些「回饋擾動」(Reaction-diffusion) [71]和「細胞材質基礎函數」(cellular texture basis function)[72]。一些風化和礦石的現象也可以在這方法中忠實詳細地模擬出來[64]。這些技術也可以直接由 3d網格來做材質合成，以避免材質映射時扭曲的情況。然而，不同的材質通常有不同的物理生成方式，所以這樣的方法只能限定在某些材質上。二、在「馬可夫隨機場和吉伯斯抽樣」 (Markov Random Filed and Gibbs Sampling)方面，有許多演算法用馬可夫隨機場來模

(12)

擬材質且用機率抽樣來產生材質[65, 52, 69, 68]。馬可夫隨機場對一個廣域的質材而言已証明是一個很好的逼近，其演算法很普通，而且結果不錯，而其缺點是計算成本太高：即使是一個小的圖案也需要花好幾小時甚至好幾天才能產生。三、在特徵配對(Feature Matching) 方面，其演算法利用材質的特徵來模擬，藉由與樣本材質的配對來產生出新的圖案[67, 63, 70] 。這些方法常常比使用馬可夫隨機場的方法有效率。例如 Heeger 和 Bergen[67]

[Pyramid-Based texture analysis/synthesis]用配對的「影像金字塔的邊際長條圖」(marginal histograms of image pyramids)來模擬材質。其方法在隨機性大的材質上很成功，但是對結構化的就失敗了。De Bonet等人所提出的「對材質影像的合成與解析的多重解析度取樣程序」(Multiresolution sampling procedure for analysis and synthesis of texture images) [63]，可將輸入的樣本影像隨機化並仍保留其「跨尺度的相依性」 (cross-scale dependency)。此方法在面對結構化材質時比Heeger等人所提之「金字塔式的材質分析/合成」(Pyramid-Based texture analysis/synthesis) [67]的方式好，但是如果輸入的圖片不是「可拼貼的」(tileable)，

則在邊緣上會有缺陷發生。至於Simoncelli等人所提的「透過小波轉換係數的聯合統計性質的材質特徵化」(Texture characterization via joint statistics of wavelet coefficient magnitudes) [70]方法，則由配對的統計影像金色塔來產生材質。其方法可以成功地擷取全域的材質結構但是無法保存局部的圖案樣式(patterns)。

六、研究方法（引用文獻請參見之後的參考文獻部分）：本次有關「灰階影像自動上色」的研究方法可分為四個部分：

1. 單張灰階影像自動上色

在此部份中，我們希望能將一張灰色的影像上色，且其過程是完全交由電腦來執行。首先我們可以參考Reinhard等人的「彩色影像間傳遞色彩」(color transfer between images)的方法 [10]，將我們的影像的表示方法由RGB轉換成Lαβ的參數空間。用Lαβ參數空間的最大好處是較不會有顏色的相關性；所謂的相關性係指在某些情況下，當藍色值偏大時，紅色和綠色常也會偏大。接著我們可以參考Welsh等人的「灰階影像著色」(transferring color to greyscale image)的方法[9]，嘗試為一個灰階值賦予色彩，進而能夠自動為單張灰階映像著色。

2. 彩色資料庫操作單元

本次研究和以往主要不同的是，在替一張灰階影像著色時，我們並不想僅參考特定的一張圖片，而是要參考一個後端的資料庫。這麼做主要的原因如下：在Welsh等人的論文中，

當所包含的材質過多，很難找到一張適當的來源影像，亦即至少包含一樣多材質種類的來源影像來替木標灰階影像著色。為此，當然我們可以設計出以多張來源影像著色的演算法，然而我們並不希望以此為滿足。我們所希望的是先建造出一個完整的資料庫，使得任何的灰階影像皆可依此資料庫來上色；說得更白話些，此資料庫所扮演的角色即是所有灰階影像的來源影像，故資料庫的建造十分明顯是本研究的重點之一。為了建造這樣的資料庫，我們可先從網路上搜尋足夠的影像，進而由這些影像造出資料庫。而針對資料庫的表示方式，目前有兩個腹案。第一種方式，也是較理想的方式，是以「微影像」(micro-image)，

即一3×3 或 5×5 的影像，作為資料庫的儲存基本單位，第二種方式則是以完整影像為儲存基本單位。第一種方式的優點為單位儲存空間較小，假設每一儲存單位可以對應到一種材質，則意味著針對每一種材質其儲存空間也較小。然而缺點是其微影像的大小無法確定，

也十分可能面臨到針對不同的材質，其儲存空間也不同的情形，增加問題的複雜度；由有甚著，可能表現某材質的微影像並不一定得以長方形方式儲存。最遭的情況是有可能以微影像的方式其資訊仍然不足，也就是自然界普遍存在以下情形：兩區域其亮度的統計性質十分相近，然而其顏色的性質卻完全不同，則此第一種微影像的方式恐怕就無法成功。至於第二種儲存完整影像的方式，其優點是對資訊的保存較為完整，同時也可能表現不同的材質會同時出現的情況。然而其缺點是其中可能有許多冗贅的資訊並不會對任何灰階著色有幫助，而總的來說其儲存空間將大大增加。

(13)

3. 資料庫內容選取

除了資料庫的表示是一個問題外，另一個更重要的問題是資料庫內容的選取。不論是微影像或完整影像，當我們可以從網路上下載成千上萬張影像時，究竟要如何選取適當的內容放進資料庫，成為另一項重要的決定。將所有找得到的影像皆選入並不是一個睿智的決定，這可以由考慮以下的例子來說明。假設目標灰階影像之內容為樹，而所有彩色來源影像中必定有包含樹的各式各樣的影像或微影像，其中有白天的樹，夜晚的樹，冬天的枯樹，

春夏的綠樹以及秋天泛黃的樹，更別提世上還有可能存在一些亮度分布類似，而根本不是樹的東西。簡而言之，若我們的資料庫將之照單全收，則因為其樣本空間變大，則其亮度分布之重複的機率也變大，導致錯誤率也提高。較合理的做法可能事先侷限我們可處理問題的空間，在該空間先尋求較合理或完滿的解答，再設法將空間的侷限去除或是所有的問題空間可細分為數個不同的空間分別處理，其屬性雖不同，但解決的方式卻大同小異。例如我們可先從白天的，戶外的，春夏之交的自然場景著手，如此一來問題所考慮的空間即大大縮小。但如前所述，即便在如此侷限的場景可能仍無法避免出現亮度相近但顏色相距甚大的情形。對此我們可能會考慮以人為介入的方式消除其模糊性或者加入註解以方便於適當時處理。注意此處的人工處理係於建資料庫執行，為前置處理時間。整體言之，在場景的侷限下，不論是以微影像或是全影像的表示，我們將會計算一個輸入的單元其與目前資料庫內已存在的單元相比是否更具有代表性，若如此，則資料庫中的單元則被替換；否則，此新輸入者將被捨棄。如此的做法具有「貪婪法」(greedy method)的精神，雖不見得可以從所有的輸入影像中就資料庫的給定大小找出最佳的代表集，然而應也相去不遠。其實問題的核心在於「測量標準」(metric)的問題，因為我們可能無法自動，定量地來決定哪一張(微)影像具有更高的代表性，因而可能僅能使用「近似的」(approximated)的測量標準。

例如兩張影像的「距離」(distance)或「不相似度」(dissimilarity)可以定義為其「差向量」

(difference vector)的L2 Norm，意即其各個對應點的值之差的平方和。如此的近似可能導致結果的誤判，但也方能使得人為的介入大幅降低，提高解決問題的可行性。一旦在一侷限場景成功，而欲將之推廣到其他場景時，我們事實上還得面臨兩個問題：一是如何將龐大的彩色來源影像分類？二是如何自動地知道一張給定的灰階影像是屬於哪一類？頭一個問題的解決由於是在前置處理時間，在時效上較無壓力；況且可能於每一類我們所選入資料庫內的(微)影像的數目並不大，手動尚可應付。至於第二個問題十分明顯地我們將不想訴諸手動，否則與其他研究相較本研究即失去意義，故一個「自動灰階影像分類系統」可能就變得十分重要。目前的想法是利用「數值分布圖」(histogram)來作為判斷依據，但實際的成效必須做過實驗方知。

4. 加快上色速度

最後是有關效能的問題，此可分為兩個層面來談。第一，Welsh等人的原始做法速度上如前所述已顯得有些緩慢，尤其是若要針對影片的處理，其速度的提昇更是必須。第二，相對於Welsh等人的做法，我們所需進行比對的資料庫大小很可能較原始做法中的來源影像還大，因此在速度上若無加速，將更顯得其效能的減緩。關於此，我們可以借用Wei等人的做法[55]，以「樹狀結構的向量式量化」(tree-structured vector quantization), 將資料庫中的操作單元，微影像或全影像，依其向量式量化的方式分群。注意到此處若無分群的處理，

面對灰階影像上的任一點，所有資料庫內的樣本皆須被一一比較後才能找出最近者，而在分群後，相當於我們對所有資料庫內的資料建立一「樹狀的資料結構」(tree structure)，故而其搜尋時間可由「線性的」(linear time complexity)縮短為「對數的」(logarithmic time complexity)，或者換句話說，採用資料庫的想法才可能行得通。當然這其中尚有許多細節有待釐清，例如如何分群？一張彩色來源影像該分幾群？或者分幾群應非絕對，而是與「資料相關」(data-dependent)，那麼其「門檻值」(threshold)應如何隨資料而相關地設定？另外在每一群內要如何訂定「代表向量」(representative vector)？這些都需要詳細地加以測量與界定。

進行步驟：

(14)

1. 文獻、工具的蒐集及研究：

首先是文獻及工具的蒐集。即使在這方面我們已做了許多，但由於針對灰階影像著色目前仍有許多「發展中」(ongoing)的研究，隨時都有可能由新的、更精確的、或更快速的方法被提出，因此在這方面仍不可有任何鬆懈。

2. 在此階段我們會嘗試開發Reinhard等人所提出的方法[10]，意即將影像由RGB的表示方式轉為Lαβ的表示方式。至於調整影像範圍的部分，由於做法不同，留待稍後討論。

3. 在此階段我們會嘗試開發Welsh等人所提出的方法[9]。首先我們會嘗試由單張彩色來源影像來替灰階著色。我們主要嘗試的部分為自動上色的部分。為了驗證，我們也會以該論文所附的影像來進行測試。

4. 接著我們將進行影像的蒐集，有關此部份從網路上可以取得十分豐富的影像庫。而我們所把握的原則是影像應有足夠的多元性，以應付未來各式各樣灰階影像的需求。

5.「侷限版」資料庫的建立。如前所述，為簡化問題，我們首先會侷限我們可處理的灰階影像形式。例如我們會先嘗試僅接受白天的、春夏季的、戶外的自然場景的灰階影像。當然，其彩色的來源影像資料庫也依此原則建立。注意到在此過程中可能需要人為的介入。

另外如何由所有符合條件的彩色影像中選出具代表性者，還有待實驗來尋求解決。至於資料庫的操作單元應為「微影像」或是完整影像也必須做一抉擇。注意到若使用微影像，其大小不見得都要一致。

6. 一旦侷限版的資料庫建構完畢，我們即可進行侷限版資料庫的測試：將具有同樣侷限條件的灰階影像來進行著色。很明顯的人為的選擇仍需介入來選擇合乎條件的灰階影像。

7. 進行向量式量化來加速資料庫比對的過程。主要的問題在於要從一張影像取出多少個向量代表，以及如何決定一張微影像或是完整影像在資料庫中的取捨。這牽涉到門檻值的設定級系統可使用資源的大小。

8. 在此階段我們主要的重點係要確定，所有的程式發展，包括以向量式量化來加速的部分皆正確無誤。

9. 檢討資料庫的操作單位(微影像或是完整影像)是否恰當還是需要更換？若否，如何更換？再者資料庫如何擴充到可以應付任意灰階影像？還有，如何將所有影像自動分類，不論是針對彩色影像(資料庫)，或是灰階影像(輸入影像)，都需藉此自動化方可達到我們所預期的效率。

10. 在此階段我們將進行完整版資料庫的建立，而其重點在如何將彩色影像分類？即使對此我們可以使用人工的方式來進行，但若自動化將可大幅提昇效率及完整性。

11. 進行系統完整版的的嘗試，也就是對任意的灰階影像著色。

12. 接著我們將進行系統整體效能的評估，並針對更多的灰階影像作有系統的測試，並與已知系統的效能作比較，以作為改善的依據。

13. 最後進行系統文件、報告及心得的撰寫。

七、結果與討論：

在灰階影像的實作上，我們最後採用的是高斯金字塔的架構。若在原始灰階影像(Level 0) 彩色轉換後就能有很好的效果，則沒有做影像金字塔的必要;一旦彩色化影像(Level 0)結果不好時，再利用影像金字塔可以幫助我們確定彩色化的正確度。不過在Welsh[9]的方法上有一個很大的缺失，就是彩色化後的影像其像素的顏色變化可能會有不連續的情況，這是因為該方法是就個別像素考慮，在此像素著色完畢後，下一個欲著色的像素並沒有考慮到之前像素著色後的結果，而仍然是以自己的鄰域資料來進行著色，所以造成顏色不連續。

這時我們可以用「一致性」(coherence)來使我們的彩色化後影像其像素的變化能連續。

(15)

原始影像 A1 灰階影像 A²

Welsh結果 A³ 我們結果A⁴

原始影像 B1 灰階影像 B²

Welsh結果 B³ 我們結果B4 Blasi結果B⁵

(16)

原始影像 C1 灰階影像 C²

Welsh結果 C³ 我們結果 C4 Blasi結果C⁵ 圖五灰階影像彩色化圖與我們結果之比較

由 Welsh 的論文中我們可以看出其方法所做出來的效果和我們差不多，不過在我們實作的過程中，因Welsh 並沒有說明 A、B、C 這三張圖(見圖五)的鄰域選取是多少，而僅是建議大部份的影像以5×5 為鄰域大小時即可得到不錯的效果，所以我們以 5×5 的鄰域來實作，

但效果和論文上仍有些微差距。我們很驚訝在Welsh 發表的論文中，A3 的彩色化效果可以如此的完美。從B 圖中的結果來看，我們的方法所轉換出來的圖 B4 顏色較 Welsh 鮮豔，

而Blasi 的方法所轉的圖 B5 顏色較暗，且有很多部份仍然是灰階而並沒有完全彩色化，

故色彩上較不連續。在C 圖中，大致上三者的表現都是差不多，在山和平地的交界處若仔細看可發現 Blasi 的 C5 顏色偏藍。但若我們以 Welsh 的方法，且影像鄰域採用 5x5 時所生成的圖像如圖六。從實作圖1 來看，在樹和天空交界處有顏色轉換誤差，對這錯誤的顏色轉換我們認為是很難避免的，因為在此鄰域中會包含樹和天空的資訊，但是在天和樹交界的像素中，從其鄰域中是無法分清楚分辨出該像素所應給予的顏色。在實作圖2 中顏色的轉換並沒有很柔和，顏色變化也很不連續。而圖 3 中在山和平地的交界處的顏色轉換結較差，顏色變化較不細緻。

(17)

我們實作圖1 我們實作圖 2

我們實作圖3

圖六以 Welsh 方法下無人為介入之實作圖 參考文獻：

[1] C. Yang and T. Chiueh, “I/O Conscious Volume Rendering”, VisSym ’01, Joint Eurographics - IEEE TCVG Symposium on Visualization, May 2001.

[2] T. Mitra, C. Yang and T. Chiueh, “Application-Specific File Prefetching for Multimedia Programs”, IEEE Multimedia 2000, pp. 459-462, July 2000.

[3] C. Yang, T. Mitra and T. Chiueh, “A Decoupled Architecture for Application-Specific File -Prefetching”, Usenix Annual Conference, FREENIX track 2002, pp. 157-170, June 2002.

[4] T. Chiueh, C. Yang, T. He, H. Pfister and A. Kaufman, “Integrated Volume Compression and Visualization”, IEEE Visualization ’97, pp. 329-336, October 1997.

[5] C. Yang, T. Mitra and T. Chiueh, “On-the-Fly Rendering Of Losslessly Compressed Irregular Volume Data”, IEEE Visualization ’2000, pp. 101-108, October 2000.

[6] T. Chiueh, T. Mitra, A. Neogi and C. Yang, “Zodiac: A History-Based Interactive Video Authoring System”, ACM Multimedia 1998, pp. 435-444, September 1998.

[7] T. Chiueh, T. Mitra, A. Neogi and C. Yang, “Zodiac: A history-based interactive video authoring system”, Multimedia Systems, vol. 8, no. 3, pp. 201-211, 2000.

[8] Chiang-Han Hung and C. Yang, “A New Approach of Seed-set Finding for Iso-Surface Extraction”, International Computer Symposium, December 2004.

[9] T. Welsh, M. Ashikhmin, and K. Mueller, “Transferring Color to Greyscale Images”, Proceedings of SIGGRAPH 2002, July 2002.

(18)

[10] E. Reinhard, M. Ashikhmin, B. Gooch, and P. Shirley, “Color Transfer between Images”, IEEE Computer Graphics and Applications, pp. 34-40, September/October 2001.

[11] A. Hertzmann, C. E. Jacobs, N. Oliver, B. Curless and D. H. Salesin, “Image analogies”, Proceedings of SIGGRAPH 2001, July 2001.

[12] Li-Yi Wei and Marc Levoy. “Fast Texture Synthesis Using Tree-Structured Vector Quantization”, Proceedings of SIGGRAPH 2000, pages 479–488, July 2000.

[13] A. Levin, D. Lischinski and Y. Weiss, “Colorization using Optimization”, Proceedings of SIGGRAPH 2004, July 2004.

[14] C. R. Gonzalez and P. Wintz, “Digital Image Processing”, Addison-Wesley Publishing, 1987.

[15] W. K. Pratt, “Digital Image Processing”, John Wiley & Sons, page 311, 1991.

[16] D. L. Ruderman, T. W. Cronin and C. C. Chiao, “Statistics of Cone Responses to Natural Images” Implications for Visual Coding”, Journal of Optical Society of America, Vol. 15, No. 8, pp. 2036-2045, 1998.

[17] W. Markle and B. Hunt, “Coloring a black and white signal using motion detection”, Canadian patent No. 1291260, Dec 1987.

[18] J. Silberg, “The Pleasantville post production team that focussed on the absence of color”, Cinesite Press Article, http://www.cinesite.com/core/press/articles/1998/10 00 98- team.html, 1998.

[19] NEURALTEK, “BlackMagic, Photo Colorization Software, version 2.8, http://www.timebrush.com/blackmagic, 2003.

[20] Michael Ashikhmin, “Synthesizing Natural Textures”, 2001 ACM Symposium on Interactive 3D Graphics, pages 217–226, March 2001.

[21] Jeremy S. De Bonet, “Multiresolution Sampling Procedure for Analysis and Synthesis of Texture Images”, Proceedings of SIGGRAPH 97, pages 361–368, August1997.

[22] Matthew Brand, “Voice Puppetry”, Proceedings of SIGGRAPH 99, pages 21–28, August 1999.

[23] Christoph Bregler, Michele Covell, and Malcolm Slaney, “Video Rewrite: Driving Visual Speech with Audio”, Proceedings of SIGGRAPH 97, pages 353–360, August 1997.

[24] Ian Buck, Adam Finkelstein, Charles Jacobs, Allison Klein, David H. Salesin, Joshua Seims, Richard Szeliski, and Kentaro Toyama, “Performance-driven handdrawn animation”, NPAR 2000: First International Symposium on Non Photorealistic Animation and Rendering, pages 101–108, June 2000.

[25] Kenneth Castleman, “Digital Image Processing”, Prentice-Hall, 1996.

[26] Cassidy J. Curtis, Sean E. Anderson, Joshua E. Seims, Kurt W. Fleischer, and David H.

Salesin, “Computer-Generated Watercolor”, Proceedings of SIGGRAPH 97, pages 421–430, August 1997.

[27] Alexei Efros and Thomas Leung, “Texture Synthesis by Non-parametric Sampling”, 7th IEEE International Conference on Computer Vision, 1999.

[28] Alexei A. Efros and William T. Freeman, “Quilting for Texture Synthesis and Transfer”, Proceedings of SIGGRAPH 2001, August 2001.

[29] Alex Eilhauer, Alice Pritikin, Dylan Weed, and Steven J. Gortler, “Combining Textures and

Pictures with Specialized Texture Synthesis”, 2000.

http://www.people.fas.harvard.edu/pritikin/cs/graphics/.

[30] T.G. Evans, “A Program for the Solution of Geometric Analogy Intelligence Test Questions”, In M. Minsky, editor, Semantic Information Processing. MIT Press, 1968.

[31] W. T. Freeman, E. C. Pasztor, and O. T. Carmichael, “Learning Low-Level Vision”, International Journal on Computer Vision, 40(1):25–47, 2000. See also http://www.merl.com/reports/TR2000-05/.

(19)

[32] William T. Freeman, Joshua B. Tenenbaum, and Egon Pasztor”, An Example-Based Approach to Style Translation for Line Drawings”, Technical Report TR99-11, MERL, February 1999.

[33] Allen Gersho and Robert M. Gray, “Vector Quantization and Signal Compression”, Kluwer Academic Publishers, 1992.

[34] Paul E. Haeberli, “Paint By Numbers: Abstract Image Representations”, In Computer Graphics (SIGGRAPH ’90 Proceedings), volume 24, pages 207–214, August 1990.

[35] J. Hamel and T. Strothotte, “Capturing and Re-Using Rendition Styles for Non-Photorealistic Rendering”, Computer Graphics Forum, 18(3):173–182, September 1999.

[36] David J. Heeger and James R. Bergen, “Pyramid-Based Texture Analysis/ Synthesis”, Proceedings of SIGGRAPH 95, pages 229–238, August 1995.

[37] Aaron Hertzmann, “Painterly Rendering with Curved Brush Strokes of Multiple Sizes”, In SIGGRAPH 98 Conference Proceedings, pages 453–460, July 1998.

[38] Aaron Hertzmann and Denis Zorin, “Illustrating smooth surfaces”, Proceedings of SIGGRAPH 2000, pages 517–526, July 2000.

[39] Youichi Horry, Ken ichi Anjyo, and Kiyoshi Arai, “Tour Into the Picture: Using a Spidery Mesh Interface to Make Animation from a Single Image”, Proceedings of SIGGRAPH 97, pages 225–232, August 1997.

[40] AllisonW. Klein,WilmotW. Li, Michael M. Kazhdan,Wagner T. Corrˆea, Adam Finkelstein, and Thomas A. Funkhouser, “Non-photorealistic Virtual Environments”, Proceedings of SIGGRAPH 2000, pages 527–534, July 2000.

[41] Arthur Koestler, “The Act of Creation. Picador”, London, 1964.

[42] Michael A. Kowalski, Lee Markosian, J. D. Northrup, Lubomir Bourdev, Ronen Barzel, Loring S. Holden, and John Hughes, “Art-Based Rendering of Fur, Grass, and Trees”, Proceedings of SIGGRAPH 99, pages 433–438, August 1999.

[43] G. Lakoff and M. Johnson, “Metaphors We Live by”, University of Chicago Press, Chicago, IL, 1980.

[44] Thomas Leung and Jitendra Malik, “Recognizing Surfaces using Threedimensional Textons”, 7th IEEE International Conference on Computer Vision, September 1999.

[45] Jitendra Malik, Serge Belongie, Jianbo Shi, and Thomas Leung, “Textons, Contours, and Regions: Cue Integration in Image Segmentation”, 7th IEEE International Conference on Computer Vision, September 1999.

[46] Barbara J. Meier, “Painterly Rendering for Animation”, In SIGGRAPH 96 Conference Proceedings, pages 477–484, August 1996.

[47] Kris Popat and Rosalind W. Picard, “Cluster-Based Probability Model and Its Application to Image and Texture Processing”, IEEE Transactions on Image Processing, 6(2):268–284, February 1997.

[48] J. Portilla and E. P. Simoncelli, “A Parametric Texture Model based on Joint Statistics of Complex Wavelet Coefficients”, International Journal of Computer Vision, 40(1):49–71, December 2000.

[49] Michael P. Salisbury, Sean E. Anderson, Ronen Barzel, and David H. Salesin, “Interactive Pen–And–Ink Illustration”, In Proceedings of SIGGRAPH ’94 (Orlando, Florida, July 24–29, 1994), pages 101–108, July 1994.

[50] Michael P. Salisbury, Michael T. Wong, John F. Hughes, and David H. Salesin, “Orientable Textures for Image-Based Pen-and-Ink Illustration”, In SIGGRAPH 97 Conference Proceedings, pages 401–406, August 1997.

[51] Arno Sch¨odl, Richard Szeliski, David H. Salesin, and Irfan Essa, “Video Textures”, Proceedings of SIGGRAPH 2000, pages 489–498, July 2000.

(20)

[52] S. Zhu, Y. Wu and D. Mumford, “Filters, Random Fields And Maximum Entropy (FRAME)-towards a Unified Theory for Texture Modeling”, International Journal of Computer Vision”, Vol. 27, No. 2, pp. 107-126, 1998.

[53] Oleg Veryovka and JohnW. Buchanan, “Comprehensive Halftoning of 3D Scenes”, Computer Graphics Forum, 18(3):13–22, September 1999.

[54] Oleg Veryovka and John W. Buchanan, “Halftoning With Image-Based Dither Screens”, Graphics Interface ’99, pages 167–174, June 1999.

[55] Li-Yi Wei and Marc Levoy, “Fast Texture Synthesis Using Tree-Structured Vector Quantization”, Proceedings of SIGGRAPH 2000, pages 479–488, July 2000.

[56] GeorgesWinkenbach and David H. Salesin, “Computer–Generated Pen–And–Ink Illustration”, In Proceedings of SIGGRAPH ’94 (Orlando, Florida, July 24–29, 1994), pages 91–100, July 1994.

[57] Georges Winkenbach and David H. Salesin, “Rendering Parametric Surfaces in Pen and Ink”, In SIGGRAPH 96 Conference Proceedings, pages 469–476, August 1996.

[58] P.H. Winston, “Learning and Reasoning by Analogy”, Communications of the ACM, (23) 12, December 1980.

[59] Daniel N. Wood, Adam Finkelstein, John F. Hughes, Craig E. Thayer, and David H. Salesin,

“Multiperspective Panoramas for Cel Animation”, Proceedings of SIGGRAPH 97, pages 243–250, August 1997.

[60] Song Chun Zhu, Ying Nian Wu, and David Mumford, “Filters, Random fields, And Maximum Entropy: Towards a Unified Theory for Texture Modeling”, International Journal of Computer Vision, 12(2):1–20, March/April 1998.

[61] D. Gentner, “Structure Mapping: A Theoretical Framework for Analogy”, Cognitive Science, Vol. 7, No. 2, pp. 155-170, 1983.

[62] M. Brand and A. Hertzmann, “Style Machines”, Proceedings of SIGGRAPH 2000, pp.

183-192, July 2000.

[63] J. S. De Bonet, “Multiresolution Sampling Procedure for Analysis and Synthesis of Texture images”, In T. Whitted, editor, SIGGRAPH 97 Conference Proceedings, Annual Conference Series, pages 361–368. ACM SIGGRAPH, AddisonWesley, Aug. 1997.

64] J. Dorsey, A. Edelman, J. Legakis, H. W. Jensen, and H. K. Pedersen, “Modeling and Rendering of Weathered Stone”, Proceedings of SIGGRAPH 99, pages 225– 234, August 1999.

[65] A. Efros and T. Leung. “Texture Synthesis by Non-parametric Sampling”, In International Conference on Computer Vision, volume 2, pages 1033–8, Sep 1999.

[67] D. J. Heeger and J. R. Bergen, “Pyramid-Based Texture Analysis/Synthesis”, In R. Cook, editor, SIGGRAPH 95 Conference Proceedings, Annual Conference Series, pages 229–238.

ACM SIGGRAPH, AddisonWesley, Aug. 1995.

[68] R. Paget and I. Longstaff, “Texture Synthesis via a Noncausal Nonparametric Multiscale Markov Random Field”, IEEE Transactions on Image Processing, Vol. 7, No. 6, pp. 925– 931, June 1998.

[69] K. Popat and R. Picard, “Novel Cluster-Based Probability Model for Texture Synthesis, Classification, and Compression”, In Visual Communications and Image Processing, pages 756–68, 1993.

[70] E. Simoncelli and J. Portilla, “Texture characterization via joint statistics of wavelet coefficient magnitudes”, In Fifth International Conference on Image Processing, volume 1, pages 62–66, Oct. 1998.

[71] A. Witkin and M. Kass, “Reaction-Diffusion Textures”, In T. W. Sederberg, editor, Computer Graphics (SIGGRAPH ’91 Proceedings), volume 25, pages 299–308, July 1991.

[72] S. P. Worley. “A Cellular Texture Basis Function”, In H. Rushmeier, editor, SIGGRAPH 96

(21)

Conference Proceedings, Annual Conference Series, pages 291–294. ACM SIGGRAPH, Addison Wesley, Aug. 1996.

[73] S. Zhu, Y. Wu, and D. Mumford, “Filters, Random Fields and Maximun Entropy (FRAME) - towards a Unified Theory for Texture Modeling”, International Journal of Computer Vision, Vol. 27, No, 2, pp.107–126, 1998.

[74] G. Di Blasi, D. Reforgiato, “Fast Colorization of Gray Images”, In Proceedings of Eurographics Italian Chapter 2003.

計畫成果自評：

在轉換的成果上來看，本方法所轉換出的影像效果不錯，尤其是在複雜的材質變換上能夠正確的選擇材質進行顏色轉換。其品質並不遜於 Welsh 的結果，且在大部份的影像上能得到比 Welsh 更佳的影像上色品質。而且在我們的方法中，更利用兩種不同的鄰域選擇，使得在鄰域的選定上可以較固定，不須隨影像的變換而更改鄰域的大小。這在使用Welsh 的方法時會是一個很大的變因，因不同的鄰域選取將造成不同的品質，而如何才能選擇一個最適合此影像的鄰域大小是一個很重要的且很難解決的問題。因此利用我們的方法可以減少人為的介入，朝全自動化邁向一大步。另外在轉換顏色時所花費的時間上，我們利用分群樹來有效的減少時間，尤其在對大量影像彩色化時，更可以大大的加快彩色化速度。

不過我們的方法仍然會有失敗的時候，例如當我們的兩材質特性十分相似時，在其判定上就可能出錯，如下圖:

原始圖K1 灰階圖 K2

Welsh 法 K3 我們結果 K4 圖七失敗結果比較圖

在K1 圖中包含有沙灘、海和天空，但是這些影像在轉成灰階影像後以人眼方式來判別可能會認為其存在且能辨認，但是兩者無論是以L2 norm 或是以統計方式求平均值、變異數或是梯度都難以發現這三者(沙灘、海和天空)有任何顯著的不同，當然在轉換上必然會出現誤差，也使得海、天和沙灘出現顏色傳遞上的錯誤。在灰階圖形轉換上，這仍然有很大的進步空間。未來也許可以結合人工智慧和影像分割的技術來更確定各物件，讓上色能以物件方式來決定，這也將使顏色轉換的準確性提高。

至於在未來的發展上，為了能夠完全自動化，我們希望能夠建立影像資料庫，找出具有代

(22)

表性的影像存入影像資料庫，再利用此資料庫來代替我們選取彩色來源影像(source)的步驟。亦即彩色影像不需由使用者提供，而是能直接從影像資料庫中找出最適合此灰階影像的參考彩色影像，進而使得灰階影像的上色能夠完全自動化。

本計畫已結案，其內容將在整理後進行期刊之投稿。

有關灰階影像自動上色技術之研究

行政院國家科學委員會專題研究計畫 成果報告

行政院國家科學委員會補助專題研究計畫 ■ 成 果 報 告

□期中進度報告

（計畫名稱）

有關灰階影像自動上色技術之研究

目錄：

+ =

+ =

+ =

行政院國家科學委員會專題研究計畫成果報告

行政院國家科學委員會補助專題研究計畫 ■ 成果報告