3.1. 動漫圖像特徵
3.1.1. Detection of Comic Face
由於把動漫人臉特徵作爲重要的描述特徵之一,因此需要對圖像進行 Comic Face Detection 並提取特徵,我們把被提取的動漫人臉區域稱爲 Comic Face。
Haar-like features 是 在 物 件 偵 測 中 應 用 廣 泛 , 效 果 優 秀 的 一 種 特 徵 , Face Detection 就是其效果優良的領域之一。而爲了使該特徵更有效,Lienhart 等人
‧
11
又 提 出 了 Haar-like Features 的 一 系 列 擴 展 [12] 。 由 圖 3-2 可 知 , Haar-like Features 由按比例縮放尺寸的黑白矩形框組成,而某類 Feature 的值則是該 Feature 中白色區域值的和減去黑色區域的和。
圖 3-2 Lienhart 等人提出的 Haar-like features 擴展
(a)某一點的 Integral 計算方法 (b)某區域的 Integral Value 圖 3-3 Viola-Jones Detection Framework 中的 Integral Image 原理
然而這樣的計算方式將使得得計算量非常巨大。以一個 20*20 像素的待測 圖像爲例,僅圖 3-2 的類別 1 的(a)特徵,其特徵向量的維度將高達 21000 維,
若合併所有類別的特徵向量後,其維度更是可怕。Viola 等人在 Viola-Jones detection Framework[26]中提出 Integral Image 的概念,使得計算量得以減少。假
‧
國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
12
設我們有一點 P 座標爲(x,y),現在用 S(P)表示圖像中該點左上方像素值之和,
如圖 3-3(a)中灰色區域,則一張圖中任意矩形區域的 Haar-like Feature 值都可以 被近似積分的形式表示出來。以圖 3-3 (b)中的區域 D 爲例,則該區域的面積 Area(D)可以表示為:
Area(D) = S(4) – S(3) – S(2) + S(1)
圖 3-4 Face detection 中的 Cascade AdaBoost 訓練流程
表 3-1 TP, TN, FP, FN 在 Face Detection 的意涵
TP 猜測為“是動漫人臉” ,並且猜對(事實上為“人臉”)的機率 TN 猜測為“非動漫人臉” ,並且猜對(事實上為“非人臉”)的機率
FP 猜測為“是動漫人臉” ,但是猜錯(事實上為“非人臉”)的機率 FN 猜測為“非動漫人臉” ,但是猜錯(事實上為“人臉”)的機率
這種利用先前計算過的值來獲取之後需要計算的值的方式,使得許多重複計算 的部分得以省略,極大提高了 Haar-like Features 的實用性。然而加快的計算速 度並沒有減少特徵的數量,爲了選取合適的特徵來描述,Viola 等人引入了
‧
國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
13
Cascade AdaBoost Learning Procedure,這是一種用弱分類器組合成強分類器,
並將強分類器級聯起來進行訓練的過程,我們把該訓練過程描述在圖 3-4 中。
爲了方便說明,我們定義 TP(True Positive)、TN(True Negative)、FP(False Positive)、FN(False Negative)的含義如
表 3-1所示。則對於圖 3-4 中的每個 Stage 而言,分類器將從正負樣本總集合中
抽出部分來進行訓練,且儘可能使得該分類器能獲得較低的 FN,但在多個
Stage 級聯後,最終形成的強分類器仍然能有不錯的表現。舉例而言,假設每個 stage 中,FN = 0.001,FP = 0.6,則在 20 個 stage 後,仍然有 TN = 1 - 0.620 ≈ 0.99,而 TP = (1-0.001)20 ≈ 0.98。最後把所有的圖像用訓練得到的 Model 來進行 測詴,從而完成Comic Face Detection,其結果如圖 3-5 所示。
圖 3-5 Facial ROIs Detection
‧
國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
14 3.1.2. Representation of Comic Face
在 Weihan Sun 等人的研究中,驗證了對手繪動漫人臉進行特徵提取時,HOG 特徵相較與 SIFT 特徵具有較優的表現[22],然而本研究所獲取的 data 多數來源 於動漫海報、漫畫封面、動畫截圖,這些圖像的特質與一般手繪(Line Drawings) 漫畫有以下顯著區別,1)相較與一般手繪的黑白線條的表現手法,這些圖像用
15
圖 3-6 Facial ROIs 的截取
圖 3-7 Facial ROIs 的分割與 Sub-window 的 LBP 特徵描述
此處我們應用了 LBP 特徵的一種變形,LBP 旋轉不變式;該方法由 T. Ojala 等 人提出[18],如圖 3-8 所示,該變形將 LBP 特徵的參考點選取方式由相鄰 8 點 轉換爲以 R 爲半徑的圓周上取任意數量的點,這使得 LBP 能夠更好地應對各類 尺寸的圖像。
LBP 旋轉不變式使得按序排列的比特環不論在哪一種狀態,都能夠映射到 同樣一種結果,這使得 LBP 得以較好地處理旋轉後的圖像;且在此基礎上同時
‧
國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
16
也降低了LBP 特徵的維度,以取 8 點爲參考系的 LBP 爲例,將原本的 256 種狀 態成功映射到了 36 種,縮減了 Facial ROIs 的特徵表示的空間複雜度及特徵相 似度運算的時長(如圖 3-9 所示)。由此 Comic Face Feature 被描述爲:
Feature = [[LBP11, LBP12, …,LBPij, …,LBPnn],[Gray11,Gray12,…,Grayij,…,Graynn]]
其中 LBPij表示 row 為 i,column 為 j 的 block 的 LBP Histogram 向量,Grayij表 示row 為 i,column 為 j 的 Block 的 Gray Histogram 向量,而 n 表示 Comic Face 切割成Blocks 後的行(列)數。
圖 3-8 LBP 旋轉不變式的參考點選取
圖 3-9 LBP 旋轉不變式
‧
國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
17 3.1.3. Facial Word Transformation
現在我們已經獲得了所有 Comic Face 的特徵向量,而我們的目標是用這些特徵 向量構建出 Facial Word Dictionary,從而與文字特徵結合,並實現圖文的潛在 語義分析。 採用分群效率較高的 Hierarchical Clustering 算法,在本研究中,我們選了用 agglomerative 中的 Single Link Clustering Algorithm 來做分群。Agglomerative 分 群模式的Hierarchical Clustering 算法流程如圖 3-10 所示,1)從底層起兩兩計算 各個 Comic Face 之間的相似度;2)將最相似的合併爲一群,並把合併後的這 一群看作是一個新的 Comic Face;3)重複以上過程,直到任兩群 Comic Face 之間的距離大於 Threshold 所設定的臨界直,從而獲得被 Threshold 切割後下方 的各個Clusters。
最後我們將每一個 Cluster 中的 Comic Face 都用一個獨立的符號表示。所有 的符號構建成最終的 Facial Word Dictionary,並依據 Dictionary 中每個 Cluster 及其權重,生成每個網頁的動漫人臉特徵向量:
18
圖 3-10 Agglomerative Hierarchical Clustering
3.2. 動漫文字特徵
介紹性質的動漫主題的網頁,雖然含有大量圖像,文字的簡介依然是一個不可 或缺、甚至可以稱為主體的部分。我們同樣需要對文字內容進行整理與分析,
並將其轉化爲描述這些動漫網頁特質的文字特徵向量。
3.2.1. 中文環境下的 Text Segmentation 及 Bag-of-Words
目前從網上抓取下來的文字檔案,普遍具有格式紊亂,無關雜訊較多等特質。
由於本研究的主題與動漫及中文相關,因此我們特意在廣度優先搜索的機器人 爬蟲程式中添加了針對動漫的一系列過濾程序,並對已經下載下來的網頁文檔 進行半人工模式的二次過濾,以期望檔案的內容緊扣動漫主題。一些主要的過 濾參考條件以及前處理的注意事項將在實作部分提及。經過文本過濾以及前處
‧
國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
19
理後,我們留下了僅保留中文段落的網頁文本,如圖 3-11(a)所示。然而不同與 英文檔案,中文檔案中詞與詞緊密連接,並無空格的存在。爲了以經典的 Bag-of-Words 的方式重構文本中的文字進行分析,常規的英文斷詞方法並不適用於 中文的情況。中文斷詞需要詞庫的支持,同時需要考慮大量中文語法、文法的 慣用特性,在此我們引用了第三方中文斷詞系統 JIEBA,斷詞後的結果如圖 3-11 (b)所示。
文本分類、分群的應用中常涉及 Bag-of-Words,指將文字分別打包成詞 袋,且遵循詞袋與詞袋之間並無先後順序關係的假設條件,然後將所有的詞袋 構建成Word Dictionary。最後利用統計特性來作爲包的重要性的評判依據。
值得注意的是,有時候並不一定是出現次數越多的文字越重要,例如中文 中 的 助 詞 。 爲 此 大 多 數 文 字 分 析 都 引 入 了 TF-IDF (Term Frequency–Inverse
Document Frequency)來平衡這些高頻但低“內涵”的詞彙。TFij = nij / Ni,其中 nij
表示單詞 j 出現在文檔 i 中的次數,Ni 表示文檔 i 中單詞總數;IDFj = log( D / dj ),其中 D 表示文檔總數,dj表出現單詞單詞 j 的文檔數目;最後,TFIDFij =
(a)前處理之後的文本 (b)斷詞之後的文本
圖 3-11 中文斷詞前後效果對比
‧
國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
20
3.3.1. Feature Combination
我們需要將 Textual Word Dictionary 與 Facial Word Dictionary 進行合併,形成 Word-Image Dictionary;然後把動漫人臉特徵向量與動漫文字特徵向量按以下方 式拼接結合,構建出能夠描述整個動漫網頁的特徵向量,其中第 i 個動漫網頁的 Word-Image Feature 表示為:
Word-Image Feature =
[(Ti1, Wi1), (Ti2, Wi2), … , (TiM, WiM), (Ci1, Wi1), (Ci2, Wi2), … , (CiN, WiN)]
21
3.3.2. Feature Correlation between Image and Text
在我們的研究中,爲了獲得動漫網頁中的圖文關聯潛在語義,我們需要從 Word-Image Feature 中萃取出一些語義 Topic,每個 Topic 中包含一些相似動漫 風格的 word(包含 Textual Word 和 Facial Word),此時我們就可以根據不同的動 漫網頁與不同 Topic 的關聯緊密程度,來判斷動漫網頁之間的風格相似性。舉 例而言,若某 Topic S 同時包含了描述動漫人物 A 的 Textual word“Text_A”和該 人物的 Facial Word“Photo_A”;而此外,該語義還包含了與 A 出現在同一部動 漫中的人物 B 的 Textual Word,以及與 A 形象非常相似的人物 C(與 A 不屬於 Thomas Hofmann 等人於 1999 年提出的 Probabilistic Latent Semantic Analysis
(PLSA)[8]以及 David M. Blei 等人在 2003 年提出的 Latent Dirichlet Allocation
(LDA)[2]等潛在語義的分析、改進方案。潛在語義分析應用于文本分類與分 Latent Semantic Analysis)的基礎上演化而來的潛在語義分析方法,爲了方便理
‧
22
解,我們先簡單介紹一下 PLSA。PLSA 是一個 Generative Probabilistic Model,
如圖 3-12 所示,可以理解為一個文檔 d 中出現文字 w 的機率可以表示為,該文 檔d 中出現 Topic z 的機率與該 Topic z 中出現文字 w 的機率的乘積,即:
P(w|d) = P(z|d) × P(w|z)
圖 3-12 David M. Blei 等人對 PLSA 模型的圖形描述
圖 3-13 David M. Blei 等人對 LDA 模型的圖形描述
而 LDA 則是對 PLSA 的改進,它同樣也是一個 Generative Probabilistic Model(如圖 3-13 所示)。需要注意的是,LDA 需要預先設定 Topic 的數量 k,
這一點與PLSA 一致。α 作為調節 Topic 生成機率的 parameter,是一個 k 維的向
‧
國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
23 生成所有的documents。
3) 根據之前所有的 generated document 中的 P(z|d) 與 P(w|z)調整 α 和 β,重複
24
圖 3-14 某一動漫 Topic 的構成模式
最後,爲了實現依據動漫網頁圖文特性檢索到其他不同動漫網頁,我們需 要選擇距離公式比較不同Web Topic Possibility Feature 之間的距離,或者選取相 似性公式比較它們之間的相似程度。然後依據以上結果找出每個動漫網頁最爲 相似的一系列動漫網頁作爲被推薦的對象,在我們的研究中,我們選取的 Web Topic Possibility Feature 相似度算法爲 cosine similarity。
‧
國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
25
第4章 系統實作
本章節主要介紹本研究的具體實作包括系統架構與使用的工具程式。我們對系 統的流程歸納在圖 4-1 中,整個系統實作流程同樣劃分爲兩個部分,離線的部 分主要關注系統後端的圖文特徵及關連分析的實作;而線上的部分則主要涵蓋 了網站前端以及界面的設計所應用到的技術及工具。
圖 4-1 基於圖文關聯語義的動漫搜索系統架構
4.1. 資料來源
本研究的資料來源與百度百科[29],它是一個互動百科性質的中文搜索網站,
本研究的資料來源與百度百科[29],它是一個互動百科性質的中文搜索網站,