• 沒有找到結果。

數位圖書館中影像內容擷取的相關回饋

N/A
N/A
Protected

Academic year: 2021

Share "數位圖書館中影像內容擷取的相關回饋"

Copied!
4
0
0

加載中.... (立即查看全文)

全文

(1)

1

行政院國家科學委員會專題研究計畫成果報告

數位圖書館中影像內容擷取的相關回饋

Relevance Feedback of Content-Based Image Retr ieval

in Digital Libr ar y

計畫編號:NSC 89-2213-E-004-005

執行期限:88 年 8 月 1 日至 89 年 7 月 31 日

主持人:沈錳坤 政治大學資訊科學系

一、中文摘要 數位圖書館中儲存大量的文字、 影 像、視訊與音訊資訊,並提供使用者方便 且有效的方法擷取資訊。影像擷取是數位 圖書館系統設計的主要關鍵性技術之一。 影像資訊擷取的主要特性在於相似擷取與 內容擷取。 相關回饋是傳統以文字為主的資訊擷 取領域所發展的技術。相關回饋利用使用 者對先前查詢結果的回饋,自動作查詢修 正產生新的查詢。因此,修正過的查詢將 會更接近使用者所要資訊。 在本計劃中,我們研究影像內容擷取 中相關回饋技術。在處理影像的相關回饋 時,最直接的方法就是以向量的方式來表 示影像的特徵。因此,影像相關回饋的處 理類似於以向量空間表示文件的資訊擷取 中的處理。但是,並非所有的影像皆以向 量的形式表示。因此,我們將分別針對向 量形式與非向量形式的影像特徵,發展相 關回饋中修正查詢的方法。為了評估所發 展的相關回饋技術的效果,我們也發展一 全球資訊網上的影像搜尋引擎。 關鍵詞:數位圖書館、影像內容擷取、相 關回饋 Abstr act

The digital library stores and manages much of text, image video and audio information. It provides easy and efficient way for users to access multimedia information. Image retrieval is one of the main design issues of digital library. The distinguished features of image retrieval lie in the similarity measure and content-based retrieval.

Relevance feedback is a process of automatically adjusting an existing query using the information fed back by the user about the relevance of previously query result. The adjusted query is expected to be a better approximation to the user's information needed.

In this project, feedback techniques of content-based image retrieval are investigated. The straightforward approach to support relevance feedback of image retrieval is to model the image as the vector of image features. Query refinement is therefore performed similar to the traditional text-based relevance feedback technique text-based on the vector space model. However, not all image features are represented as vectors. Therefore, we develop the relevance feedback algorithms for image features with and without vector representation.

We also develop a WWW image search engine to measure the effectiveness of the developed technique.

Keywor ds: Digital Library, Content-based Image Retrieval, Relevance Feedback

二、緣由與目的 數位圖書館中儲存大量文字、影像、 視訊與音訊資訊,並提供使用者方便且有 效的方法擷取資訊。數位圖書館的相關技 術包括資料的建立儲存與管理搜尋與擷取 資料的傳播資料安全與著作權管理等。 在資料的搜尋與擷取的相關技術中, 包括文字、影像、視訊及音訊的擷取。其 中,文字擷取的部分,傳統的資訊擷取 (Information Retrieval)領域的學者已發 展 出成熟的技術。目前圖書館中的圖書查詢 系統以及全球資訊網上的搜尋引擎都是利

(2)

2 用資訊擷取的技術。至於影像、視訊、音 訊資料的擷取技術,則是近年來多媒體、 資料庫、影像處理領域學者的主要研究課 題之一。 影像擷取的研究主要包括下列四項課 題:影像特徵的萃取(Extraction of Image Features), 相 似 度 的 衡 量 (Similarity Measure), 增進擷取速度的方法與影像查 詢的方式。 在影像特徵的萃取方面,常見的影像 特徵包括顏色、紋路、形狀及空間關係。 最常表示顏色特徵的表示法是顏色分 佈(Color Histogram)。顏色分佈記錄了影 像中每一個顏色的圖素(Pixel)數量。如 果共有 M 個顏色,顏色分佈就可表示成 M 維向量。 常見的紋路特徵表示法包括 Tamura 特 徵、SAR 模型、MRSAR(MultiResolution Simultaneous AutoRegressive)模型。Tamura 紋路特徵以明暗對比度(Contrast)、緊密 度(Coarseness)、方向(Directionality) 表示紋路特徵。MRSAR 紋路特徵源自於 SAR 模型。SAR 模型以代數式(Algebraic Equation)記錄了影像中每個圖素之相鄰圖 素(Neighboring Pixels)的資訊。而 MRSAR 模型也是將紋路特徵表示成多維的向量。 向量中的每一元素分別代表 MRSAR 模式 中代數式的參數。 形狀特徵的表示可由面積、中心點、 周長、方位(Orientation)等度量組成。這 些表示法不受位移、旋轉的影響、另外, 傅立葉描述(Fourier Descriptors)、連鎖碼 (Chain Code)也可表示形狀。IBM QBIC 以面積、循環性(Circularity)、離心性 (Eccentricity)、主軸方位(Major Axis Orientation)等度量組成的向量表示形狀。 其中,循環性定義成(周長)2 /面積,主軸 方位則先由邊線的圖素計算出二階共變矩 陣(Second Order Covariance Matrix),而 由中求出最大的特徵向量(Eigenvector)。 至於離心性則定義成其最小與最大特徵值 的比值。 影像中物體的空間關係是人類最直覺 的查詢方式之一。二維字串(2D String) 是最早有關這方面的研究。簡言之,二維 字串以 X 軸方向、Y 軸方向表示此二維表 示物體的空間關係。二維字串的優點在於 其以簡單的方式記錄空間關係,此外查詢 處理更可轉換成二維部份字串比對(2D Subsequence Matching)的處理。 在影像的查詢方式方面,系統必須提供方 便的方式供使用者表示視覺查詢。例如以 數值表示顏色並不符合人類的直覺。目前 可行的方式包括瀏覽(Browsing)、以樣本影 響查詢(Query-By-Image-Example)、以影像 特徵的描繪查詢(Query-By-Sketch)及相關 回饋(Relevance Feedback)。 相關回饋是資訊擷取領域所發展的方 法。系統根據使用者對查詢結果的滿意 度,自動作查詢修正(Query Refinement), 重新產生新的查詢。目前全球資訊網上的 搜尋引擎,如 Alta Vista 都有提供相關回 饋的功能。在影像擷取中,使用者可以從 查詢結果中,點選相似度高與相似度低的 影像,系統根據使用者點選所提中的資 訊,自動修正產生新的查詢影像。 由於影像資訊的豐富性以及人類對影 像資訊的認知差異,在上述四種查詢方式 中,相關回饋以互動的方式,更有助使用 者查詢影像。但是,在已發展的影像擷取 系統與研究中,只有少數相關回饋的研 究。而且,其技術多基值於傳統資訊擷取 的方法。因此,本計畫的主要目的在研究 有效的方法提供並處理影像內容擷取的相 關回饋。本計畫研究的範圍包括相關回饋 的方式、相關回饋的處理及其效果評估。 三、結果與討論 (1) 相關回饋的方式 針對相關回饋的方式,無論是資訊擷 取或影像擷取的系統,目前皆由使用者從 查詢結果中,以點選相關(相似)與不相 關(不相似)的方式回饋給系統。但是, 由於影像資訊的豐富性,使用者在做相似 判斷,往往面對是與非的抉擇。因此,另 一種可行的方式是允許使用者對查詢的結 果以排名(Ranking)的方式回饋給系統。 (2)相關回饋的處理

(3)

3

針對相關回饋的處理,目前影像擷取 的研究皆利用資訊擷取處理相關回饋的方 法。資訊擷取中表示文件特徵的模型包括 布 林 模 型 (Boolean Model) 、 向 量 模 型 (Vector Model) 、 機 率 模 型 (Probabilistic Model)等。 其中,向量模型以向量的方式表示文 件特徵。例如,如果整個數位圖書館的文 件經分析後共有 N 各關鍵字(keywords), 每 份 文 件 的特 徵 因 此 表 示 成 一 N 維 向 量。此一 N 維向量表示此 N 個關鍵字在 這份文件中的加權值。最直覺的加權值就 是關鍵字出現的頻率。而使用者的查詢也 以向量的方式表示,其中加權值代表使用 者對此關鍵字的重視程度。查詢 Q 與文件 I 之間的相似度因此可以定義成兩向量的 內積,

⋅ ⋅ = N i N i N i i Q I Q I Q I Sim 1 2 1 2 1 ( ) ) , ( 在處理相關回饋時,修正查詢的產生 方式常利用如下的 Rocchio 公式,

− ⋅

⋅ + ⋅ = + 1 1 2 1 1 2 1 n n j j k k n S n R Q Q α β γ 其中, Qk 代表第 k 次查詢向量, Ri被使用者點選為相關的文件 j 的向量, Si 是被使用者點選為不相關的文件 j 的向 量,n1 是相關文件的數目,n2 是不相關文 件的數目。α、β、γ是調整用的係數。 由於影像的顏色、紋路、形狀特徵皆 可以表示成多維向量,因此,目前影像擷 取的研究也都以 Rocchio 的方式處理影像 擷取的相關回饋。但是,當使用者對查詢 的 結 果 以 排 名 的 方 式 回 饋 給 系 統 時 , Rocchio 的方式就無法適用。而且有些影像 特徵並非以向量的形式表示。例如空間關 係多以二維字串表示,又如形狀以循環碼 (chain code)的方式表示。 針對上列問題,我們提出新的相關回 饋演算法。此演算法針對使用者的排名回 饋,重新產生符合回饋的影像。此演算法 分為三大步驟, 步驟一:根據影像間的相似度,將數 位圖書館中所有影像表示成 M 維空間中的 點。我們利用 FastMap[4]的演算法。已知 N 個 object 間的相似度,FastMap 將這 N 個 object 表示成 M 維空間中的點,使得任三 個 object a、b、c,如果 a 與 b 的相似度大 於 a 與 c 的相似度,M 維空間中的點 Pa與 Pb間的幾何距離也會小於 Pa與 Pc間的幾何 距離。 步驟二:根據使用者的排名回饋,找 出符合排名的影像的集合。例如當使用者 第一次查詢影像後,系統傳出的答案有 a, b, c 三張影像。此三張影像都不是使用者所 要的影像,因此使用者以排名的方式提供 相關回饋,其相似程度的排名是 a > b > c。 以圖一為例,其中 Pa, Pb, Pc分別就是 a, b, c 三張影像經過步驟一處理後表示成 二維空間中的點座標。Lab, Lbc, Lac 分別代 表點 Pa與 Pb、點 Pb 與 Pc 、點 Pb 與 Pc的 垂直平分線。Lab左邊區域中的任何點 Px, 到 Pa的距離小於到 Pb的距離。同理 Lbc左 上方區域中的任何點 Px,到 Pb的距離小於 到 Pc的距離。Lac左邊區域中的任何點 Px, 到 Pa的距離小於到 Pc的距離。 因此符合使用者回饋排名的影像,就 是落在 Lab左邊、Lbc左上方、Lac左邊所交 集的區域,也就是圖一中的灰色區域。 在實際處理的時候,我們並不需要找 出區域出來。我們只要對回饋排名中每一 對點,利用向量內積的方式就可以判斷。 也就是說,對於任何兩點 a, b,如果使用者 回饋的相似度排名是 a>b, 符合這條件的 點 Px, 其條件為 0 ) )(P P ( x −Pa−Pb2 a −Pa−Pb2 > 以圖一為例,落在灰色區域中的點 Px 符合 0 ) )(P P ( x −Pa−Pb2 a −Pa−Pb2 > 0 ) )(P P ( x −Pb−Pb2 b −Pb−Pc2 > 0 ) )(P P ( x −Pa−Pc2 a −Pa−Pc2 > 步驟三:將 這些符合排 名條件的 影 像,依照與原來查詢影像的相似度依序列 出。 以 上 三 個 步 驟 中 , 步 驟 一 是 preprocessing 的部份。步驟二與三則是在

(4)

4 run time 時處理使用者的相關回饋。因此, 如果數位圖書館中有 N 張影像,而查詢系 統每次傳出 R 張影像,共需要C2R*N的 computation time,其中C 代表組合函數。    圖一:二維空間上三個影像。 我們發展了一個全球資訊網上的多媒 體搜尋引擎。利用這搜尋引擎,我們評估 相關回饋的效果。我們共收集了 3219 張影 像,我們提供使用者以顏色查詢影像,雖 然顏色多以向量的方式表示,但是我們提 供使用者以排名的方式做相關回饋。顏色 特徵以 HSV model、128 色。系統每次傳出 10 張影像。我們請測試者查詢並依系統傳 出結果做相關回饋。我們以使用者查詢到 所要的影像所經過的回饋次數來衡量回饋 機制的效果。由於步驟一的 FastMap 的維 數會影響影像間相似度關係的精確度,我 們分別測試了不同的維度。結果如下表所 示。 表一:相關回饋效果評估。 M 10 20 30 40 50 平均次數 2.27 2.18 2.20 1.97 1.65 四、計畫結果自評 本計畫成果提供新的相關回饋方式幫 助使用者查詢影像。其應用範圍除了影像 之外,本計畫所提出的相關回饋機制也可 應用在視訊、音訊等有時間先後關係的資 料。本計畫的實作搜尋引擎部份曾獲得國 科會八十九年度大專生專題研究計畫大專 生研究創作獎。 參考文獻

[1] C. Buckley, G. Salton and J. Allan, The Effect of Adding Relevance Information in a Relevance Feedback Environment, in Proceedings of ACM SIGIR'94 International Conference on Research and Develop in Information Retrieval, pp. 292-300, 1994.

[2] S. F. Chang, A. Eleftheriadis and R. McClintock, Next Generation Content Representation, Creation and Searching for New Media Applications in Education, Proceedings of IEEE, Special Issue on Multimedia Signal Processing, Vol. 86, No. 6, pp.884-890, 1998. [3] M. D. Dunlop, The Effect of Accessing

Nonmatching Documents on Relevance Feedback, ACM Transactions on Information Systems, Vol. 15, No. 2, pp. 137-153, 1997. [4] C. Faloutsos and K. I. Lin, FastMap: A fast

Algorithm for Indexing, Data Mining and Visualization of Traditional and Multimedia Datasets, in Proceedings of ACM SIGMOD'95 International Conference on Management of Data, pp. 163-174, 1995.

[5] A. Gupta and R. Jain, Visual Information Retrieval, Communications of ACM, Vol. 40, No. 5, pp. 71-79, 1997.

[6] P. Mitra and B. B. Chaudhuri, Efficiently Computing the Closest Point to a Query Line, Pattern Recognition Letters, Vol. 19, No. 9, pp. 1027-1035, 1998.

[7] J. J. Rocchio, Relevance Feedback in Information Retrieval, in G. Salton ed. The Smart Retrieval System-Experiments in Automatic Document Processing, Prentice Hall, 1971.

[8] Y. Rui, T. S. Huang and S. Mehrotra, Content-based Image Retrieval with Relevance Feedback in Mars, in Proceedings of IEEE ICIP'97 International Conference on Image Processing, 1997.

[9] Y. Rui, T. S. Huang and S. Mehrotra, Human Perception Subjectivity and Relevance Feedback in Multimedia Information Retrieval, in Proceedings of IS&T/SPIE Storage and Retrieval for Image and Video Databases VI, 1998. [10] Y. Rui, T. S. Huang, M. Ortega and S. Mehrotra,

relevance feedback: A Power Tool for Interactive Content-based Image Retrieval, IEEE Transactions on Circuit and Systems for Video Technology, Vol.8, no. 5, pp. 644-655, 1998. [11] M. E. J. Wood, N. W. Campbell and B. T.

Thomas, Interactive Refinement by Relevance Feedback in Content-based Digital Image Retrieval, in Electronic Proceedings of ACM Multimedia'98, Bristol, UK, 1998.

Pb

Pc

Pa

Lab Lac

參考文獻

相關文件

Zhang, “A flexible new technique for camera calibration,” IEEE Tran- scations on Pattern Analysis and Machine Intelligence,

F., “A neural network structure for vector quantizers”, IEEE International Sympoisum, Vol. et al., “Error surfaces for multi-layer perceptrons”, IEEE Transactions on

Ahmad, A Variable Block Size Motion Estimation Algorithm for Real-time H.264 Video Encoding,  Signal Processing: Image Communication,

D.Wilcox, “A hidden Markov model framework for video segmentation using audio and image features,” in Proceedings of the 1998 IEEE Internation Conference on Acoustics, Speech,

[7]Jerome M .Shapiro “Embedded Image Using Zerotree of Wavelet Coefficients”IEEE TRANSACTIONS ON SIGNAL PROCESSING, VOL,41,NO.12,DECEMBER 1993. [8 ]Amir Said Willam

Chen, “Adjustable gamma correction circuit for TFT LCD,” IEEE International Symposium on Circuits and Systems, vol. Kan, “Implementation of the Gamma (γ) Line System Similar

Zhang, “ Face recognition using Laplacianfaces,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. Zhang, “Orthogonal Laplacianfaces for face

Chan, “Effect of Intermetallic Compounds on the Thermal Fatigue of Surface Mount Solder Joints,” IEEE Transactions on Components, Packaging, and Manufacturing Technology B, Vol.