Detection of Comic Face - 動漫圖像特徵 - 動漫魔鏡：運用圖文關聯探勘的動漫網站搜索引擎

3.1. 動漫圖像特徵

3.1.1. Detection of Comic Face

由於把動漫人臉特徵作爲重要的描述特徵之一，因此需要對圖像進行 Comic Face Detection 並提取特徵，我們把被提取的動漫人臉區域稱爲 Comic Face。

Haar-like features 是在物件偵測中應用廣泛，效果優秀的一種特徵， Face Detection 就是其效果優良的領域之一。而爲了使該特徵更有效，Lienhart 等人

‧

又提出了 Haar-like Features 的一系列擴展 [12] 。由圖 3-2 可知， Haar-like Features 由按比例縮放尺寸的黑白矩形框組成，而某類 Feature 的值則是該 Feature 中白色區域值的和減去黑色區域的和。

圖 3-2 Lienhart 等人提出的 Haar-like features 擴展

(a)某一點的 Integral 計算方法 (b)某區域的 Integral Value 圖 3-3 Viola-Jones Detection Framework 中的 Integral Image 原理

然而這樣的計算方式將使得得計算量非常巨大。以一個 20*20 像素的待測圖像爲例，僅圖 3-2 的類別 1 的(a)特徵，其特徵向量的維度將高達 21000 維，

若合併所有類別的特徵向量後，其維度更是可怕。Viola 等人在 Viola-Jones detection Framework[26]中提出 Integral Image 的概念，使得計算量得以減少。假

‧

國

立政治大學

‧

Na tiona

l Ch engchi University

設我們有一點 P 座標爲(x,y)，現在用 S(P)表示圖像中該點左上方像素值之和，

如圖 3-3(a)中灰色區域，則一張圖中任意矩形區域的 Haar-like Feature 值都可以被近似積分的形式表示出來。以圖 3-3 (b)中的區域 D 爲例，則該區域的面積 Area(D)可以表示為：

Area(D) = S(4) – S(3) – S(2) + S(1)

圖 3-4 Face detection 中的 Cascade AdaBoost 訓練流程

表 3-1 TP, TN, FP, FN 在 Face Detection 的意涵

TP 猜測為“是動漫人臉” ，並且猜對（事實上為“人臉”）的機率 TN 猜測為“非動漫人臉” ，並且猜對（事實上為“非人臉”）的機率

FP 猜測為“是動漫人臉” ，但是猜錯（事實上為“非人臉”）的機率 FN 猜測為“非動漫人臉” ，但是猜錯（事實上為“人臉”）的機率

這種利用先前計算過的值來獲取之後需要計算的值的方式，使得許多重複計算的部分得以省略，極大提高了 Haar-like Features 的實用性。然而加快的計算速度並沒有減少特徵的數量，爲了選取合適的特徵來描述，Viola 等人引入了

‧

國

立政治大學

‧

Na tiona

l Ch engchi University

Cascade AdaBoost Learning Procedure，這是一種用弱分類器組合成強分類器，

並將強分類器級聯起來進行訓練的過程，我們把該訓練過程描述在圖 3-4 中。

爲了方便說明，我們定義 TP(True Positive)、TN(True Negative)、FP(False Positive)、FN(False Negative)的含義如

表 3-1所示。則對於圖 3-4 中的每個 Stage 而言，分類器將從正負樣本總集合中

抽出部分來進行訓練，且儘可能使得該分類器能獲得較低的 FN，但在多個

Stage 級聯後，最終形成的強分類器仍然能有不錯的表現。舉例而言，假設每個 stage 中，FN = 0.001，FP = 0.6，則在 20 個 stage 後，仍然有 TN = 1 - 0.6²⁰ ≈ 0.99，而 TP = (1-0.001)²⁰ ≈ 0.98。最後把所有的圖像用訓練得到的 Model 來進行測詴，從而完成Comic Face Detection，其結果如圖 3-5 所示。

圖 3-5 Facial ROIs Detection

‧

國

立政治大學

‧

Na tiona

l Ch engchi University

14 3.1.2. Representation of Comic Face

在 Weihan Sun 等人的研究中，驗證了對手繪動漫人臉進行特徵提取時，HOG 特徵相較與 SIFT 特徵具有較優的表現[22]，然而本研究所獲取的 data 多數來源於動漫海報、漫畫封面、動畫截圖，這些圖像的特質與一般手繪(Line Drawings) 漫畫有以下顯著區別，1）相較與一般手繪的黑白線條的表現手法，這些圖像用

圖 3-6 Facial ROIs 的截取

圖 3-7 Facial ROIs 的分割與 Sub-window 的 LBP 特徵描述

此處我們應用了 LBP 特徵的一種變形，LBP 旋轉不變式；該方法由 T. Ojala 等人提出[18]，如圖 3-8 所示，該變形將 LBP 特徵的參考點選取方式由相鄰 8 點轉換爲以 R 爲半徑的圓周上取任意數量的點，這使得 LBP 能夠更好地應對各類尺寸的圖像。

LBP 旋轉不變式使得按序排列的比特環不論在哪一種狀態，都能夠映射到同樣一種結果，這使得 LBP 得以較好地處理旋轉後的圖像；且在此基礎上同時

‧

國

立政治大學

‧

Na tiona

l Ch engchi University

也降低了LBP 特徵的維度，以取 8 點爲參考系的 LBP 爲例，將原本的 256 種狀態成功映射到了 36 種，縮減了 Facial ROIs 的特徵表示的空間複雜度及特徵相似度運算的時長（如圖 3-9 所示）。由此 Comic Face Feature 被描述爲：

Feature = [[LBP11, LBP12, …,LBPij, …,LBPnn],[Gray11,Gray12,…,Grayij,…,Graynn]]

其中 LBPij表示 row 為 i，column 為 j 的 block 的 LBP Histogram 向量，Grayij表示row 為 i，column 為 j 的 Block 的 Gray Histogram 向量，而 n 表示 Comic Face 切割成Blocks 後的行（列）數。

圖 3-8 LBP 旋轉不變式的參考點選取

圖 3-9 LBP 旋轉不變式

‧

國

立政治大學

‧

Na tiona

l Ch engchi University

17 3.1.3. Facial Word Transformation

現在我們已經獲得了所有 Comic Face 的特徵向量，而我們的目標是用這些特徵向量構建出 Facial Word Dictionary，從而與文字特徵結合，並實現圖文的潛在語義分析。採用分群效率較高的 Hierarchical Clustering 算法，在本研究中，我們選了用 agglomerative 中的 Single Link Clustering Algorithm 來做分群。Agglomerative 分群模式的Hierarchical Clustering 算法流程如圖 3-10 所示，1）從底層起兩兩計算各個 Comic Face 之間的相似度；2）將最相似的合併爲一群，並把合併後的這一群看作是一個新的 Comic Face；3）重複以上過程，直到任兩群 Comic Face 之間的距離大於 Threshold 所設定的臨界直，從而獲得被 Threshold 切割後下方的各個Clusters。

最後我們將每一個 Cluster 中的 Comic Face 都用一個獨立的符號表示。所有的符號構建成最終的 Facial Word Dictionary，並依據 Dictionary 中每個 Cluster 及其權重，生成每個網頁的動漫人臉特徵向量：

圖 3-10 Agglomerative Hierarchical Clustering

3.2. 動漫文字特徵

介紹性質的動漫主題的網頁，雖然含有大量圖像，文字的簡介依然是一個不可或缺、甚至可以稱為主體的部分。我們同樣需要對文字內容進行整理與分析，

並將其轉化爲描述這些動漫網頁特質的文字特徵向量。

3.2.1. 中文環境下的 Text Segmentation 及 Bag-of-Words

目前從網上抓取下來的文字檔案，普遍具有格式紊亂，無關雜訊較多等特質。

由於本研究的主題與動漫及中文相關，因此我們特意在廣度優先搜索的機器人爬蟲程式中添加了針對動漫的一系列過濾程序，並對已經下載下來的網頁文檔進行半人工模式的二次過濾，以期望檔案的內容緊扣動漫主題。一些主要的過濾參考條件以及前處理的注意事項將在實作部分提及。經過文本過濾以及前處

‧

國

立政治大學

‧

Na tiona

l Ch engchi University

理後，我們留下了僅保留中文段落的網頁文本，如圖 3-11(a)所示。然而不同與英文檔案，中文檔案中詞與詞緊密連接，並無空格的存在。爲了以經典的 Bag-of-Words 的方式重構文本中的文字進行分析，常規的英文斷詞方法並不適用於中文的情況。中文斷詞需要詞庫的支持，同時需要考慮大量中文語法、文法的慣用特性，在此我們引用了第三方中文斷詞系統 JIEBA，斷詞後的結果如圖 3-11 (b)所示。

文本分類、分群的應用中常涉及 Bag-of-Words，指將文字分別打包成詞袋，且遵循詞袋與詞袋之間並無先後順序關係的假設條件，然後將所有的詞袋構建成Word Dictionary。最後利用統計特性來作爲包的重要性的評判依據。

值得注意的是，有時候並不一定是出現次數越多的文字越重要，例如中文中的助詞。爲此大多數文字分析都引入了 TF-IDF （Term Frequency–Inverse

Document Frequency）來平衡這些高頻但低“內涵”的詞彙。TFij = nij / Ni，其中 nij

表示單詞 j 出現在文檔 i 中的次數，Ni 表示文檔 i 中單詞總數；IDFj = log( D / dj )，其中 D 表示文檔總數，dj表出現單詞單詞 j 的文檔數目；最後，TFIDFij =

(a)前處理之後的文本 (b)斷詞之後的文本

圖 3-11 中文斷詞前後效果對比

‧

國

立政治大學

‧

Na tiona

l Ch engchi University

3.3.1. Feature Combination

我們需要將 Textual Word Dictionary 與 Facial Word Dictionary 進行合併，形成 Word-Image Dictionary；然後把動漫人臉特徵向量與動漫文字特徵向量按以下方式拼接結合，構建出能夠描述整個動漫網頁的特徵向量,其中第 i 個動漫網頁的 Word-Image Feature 表示為：

Word-Image Feature =

[(Ti1, Wi1), (Ti2, Wi2), … , (TiM, WiM), (Ci1, Wi1), (Ci2, Wi2), … , (CiN, WiN)]

3.3.2. Feature Correlation between Image and Text

在我們的研究中，爲了獲得動漫網頁中的圖文關聯潛在語義，我們需要從 Word-Image Feature 中萃取出一些語義 Topic，每個 Topic 中包含一些相似動漫風格的 word(包含 Textual Word 和 Facial Word)，此時我們就可以根據不同的動漫網頁與不同 Topic 的關聯緊密程度，來判斷動漫網頁之間的風格相似性。舉例而言，若某 Topic S 同時包含了描述動漫人物 A 的 Textual word“Text_A”和該人物的 Facial Word“Photo_A”；而此外，該語義還包含了與 A 出現在同一部動漫中的人物 B 的 Textual Word，以及與 A 形象非常相似的人物 C（與 A 不屬於 Thomas Hofmann 等人於 1999 年提出的 Probabilistic Latent Semantic Analysis

（PLSA）[8]以及 David M. Blei 等人在 2003 年提出的 Latent Dirichlet Allocation

（LDA）[2]等潛在語義的分析、改進方案。潛在語義分析應用于文本分類與分 Latent Semantic Analysis）的基礎上演化而來的潛在語義分析方法，爲了方便理

‧

解，我們先簡單介紹一下 PLSA。PLSA 是一個 Generative Probabilistic Model，

如圖 3-12 所示，可以理解為一個文檔 d 中出現文字 w 的機率可以表示為，該文檔d 中出現 Topic z 的機率與該 Topic z 中出現文字 w 的機率的乘積，即：

P(w|d) = P(z|d) × P(w|z)

圖 3-12 David M. Blei 等人對 PLSA 模型的圖形描述

圖 3-13 David M. Blei 等人對 LDA 模型的圖形描述

而 LDA 則是對 PLSA 的改進，它同樣也是一個 Generative Probabilistic Model（如圖 3-13 所示）。需要注意的是，LDA 需要預先設定 Topic 的數量 k，

這一點與PLSA 一致。α 作為調節 Topic 生成機率的 parameter，是一個 k 維的向

‧

國

立政治大學

‧

Na tiona

l Ch engchi University

23 生成所有的documents。

3）根據之前所有的 generated document 中的 P(z|d) 與 P(w|z)調整 α 和 β，重複

圖 3-14 某一動漫 Topic 的構成模式

最後，爲了實現依據動漫網頁圖文特性檢索到其他不同動漫網頁，我們需要選擇距離公式比較不同Web Topic Possibility Feature 之間的距離，或者選取相似性公式比較它們之間的相似程度。然後依據以上結果找出每個動漫網頁最爲相似的一系列動漫網頁作爲被推薦的對象，在我們的研究中，我們選取的 Web Topic Possibility Feature 相似度算法爲 cosine similarity。

‧

國

立政治大學

‧

Na tiona

l Ch engchi University

第4章系統實作

本章節主要介紹本研究的具體實作包括系統架構與使用的工具程式。我們對系統的流程歸納在圖 4-1 中，整個系統實作流程同樣劃分爲兩個部分，離線的部分主要關注系統後端的圖文特徵及關連分析的實作；而線上的部分則主要涵蓋了網站前端以及界面的設計所應用到的技術及工具。

圖 4-1 基於圖文關聯語義的動漫搜索系統架構

4.1. 資料來源

本研究的資料來源與百度百科[29]，它是一個互動百科性質的中文搜索網站，

在文檔中動漫魔鏡：運用圖文關聯探勘的動漫網站搜索引擎 - 政大學術集成 (頁 21-0)

Detection of Comic Face

3.1. 動漫圖像特徵

3.1.1. Detection of Comic Face

‧

‧

國

立 政 治 大 學

‧

‧

國

立 政 治 大 學

‧

‧

國

立 政 治 大 學

‧

‧

國

立 政 治 大 學

‧

‧

國

立 政 治 大 學

‧

3.2. 動漫文字特徵

‧

國

立 政 治 大 學

‧

‧

國

立 政 治 大 學

‧

‧

‧

國

立 政 治 大 學

‧

‧

國

立 政 治 大 學

‧

第4章 系統實作

4.1. 資料來源

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

第4章系統實作