以色彩特徵為主使用支援向量機之成人影像分類

全文

(1)以色彩特徵為主使用支援向量機之成人影像分類 A Pornography Classification Based on Support Vector Machines Using Color Attributes 陳榮靜. 何俊德. 朝陽科技大學資管系. 朝陽科技大學資管系. crching@cyut.edu.tw. s9114610@mail.cyut.edu.tw. 摘要網際網路中不良資訊日益劇增，因此過濾不良資訊成為重要研究領域，其中以成人圖片被廣為使用，為了有效過濾成人圖片，提出一套利用支援向量機之成人圖片分類方法。由於成人圖片中存在大區域膚色資訊，參考多篇膚色偵測論文，利用 HSV 色彩空間，將 HSV 色彩元件分別量化為數個區間，統計顏色數據作為影像特徵值，輸入至支援向量機事先訓練，並不斷的實驗，選擇出最適合此分類問題的 kernel，作為日後成人圖片的分類核心。所提出的方法能有效的偵測成人圖片，可以達到 80%準確率，對於不良資訊的過濾防制具有一定的貢獻。關鍵詞：支援向量機、圖片分類、成人影像. Abstract Due to the dramatic growth of network and multimedia technology, people can more easily get variant information by using the Internet. Unfortunately, it also makes the diffusion of illegal and harmful content much easier. So we propose using support vector machines for pornography classification. In the observation, finding pornographies has a large number of skin regions, then using the color component of HSV to separate into some bins. The HSV characteristic value will input to support vector machine to training. A suitable support vector machine kernel is selected through continuous experiments. The kernel will classify all the testing data. Our method can effectively detect pornography, and it has special contribution about harmful information prevention. Keyword：support vector machine、image classification、pornography. 一、研究背景. 近年來，台灣在網際網路上的使用人口不斷增加，根據[3]進行的「我國網際網路用戶數調查統計」，截至 2002 年 9 月底為止，我國上網人口達 835 萬人，連網普及率為 37%，寬頻用戶數達 186 萬戶。我國家戶寬頻滲透率達 58％，此項指標，顯示台灣網路環境已走向寬頻化、家庭化，但也反應出網路中複雜的網路內容管理的問題，網路分級的觀念於焉產生，在[2]提出網路分級主要有三個目的，一、保護未成年用戶，二、協助資料篩選，三、提升服務品質。網路分級實施的流程，主要是在 ICP（網路內容提供者）設計好網頁並要發佈時，能依照網頁內容，透過一標準的程序來判定其網頁分級等級，並將此一分級標籤放在其網頁內容中當瀏覽者欲瀏覽此網頁時，此一分級標籤資訊便可以同時取得，依照使用者需求來設定決定是否要顯示網頁內容。鑑於整個網路環境的成熟，但網路是個開放環境，產生許多網路內容失序現像產生，缺乏完善的管理機制。針對在學青少年使用網路行為的研究裡[1]，國內青少年有 58.4%自稱從未接觸過網路色情資訊，有 31.5%的青少年平均每週接觸一個小時以內，對於瀏覽此類內容的未成年人而言，這將會造成身心上的不良影響或傷害，尤其以色情網站影響最鉅，所以提出一套良好的網路分級管理辦法勢在必行。目前所提出的網路內容分級方法，可以分為二類，一類為過濾軟體，另一類則是分級系統：其中過濾軟體[13-17]又分成兩種過濾的策略，分別為特定黑名單與特定名詞的過濾，所謂特定黑名單指的是，事先經由專人蒐集網路上不良內容的網站列表後，過濾軟體針對此列表所記錄的網站一律禁止連結，使其達到過濾的效果，但對於更新迅速的不良網站而言，此方法將會有百密而一疏的可能，對於蒐集列表所需的人力亦是一大負擔。另外特定名詞的過濾方式，是由使用者先設定其不欲瀏覽的名詞列表，只要在其欲瀏覽的網頁中，出現該列表的名詞，將不允許瀏覽，此方法有可能.

(2) 將整體內容正常，但含有一些特定名詞的網頁也過濾。影像分類技術中，其中[4]以多種影像特徵值結合 VQ（Vector Quantization）,透過萃取的影像特徵值使用 LVQ 進行訓練，可以辨別出室內/戶外、城市/風景及日落/森林/山景。[8]中取出影像中 HSV 色彩空間的量化統計數據，投入 SVM（Support Vector Machines）進行訓練，利用 Multiclass 觀念達到多類影像的分類，可以區分飛機、鳥類、船…等。[9] 中萃取多種影像特徵值利用決策樹中的 CART 分類器，分類器中甚至可以將影像切割成多個小區塊分別辨別，再進行投票分類，可以分類出 Photo、Graph、Text 三類。本文提出一套成人圖片分類法，利用 SVM 輔助網路內容分級的過濾管理，結合其他網路分級管理方式，能更有效的對於網路中不當資訊有效的管控偵測。本文其他部份章節，第二節中，說明主要的分類器 - 支援向量機（ Support vector machine）的精神與原理；第三節中，導出本文的研究流程，包含色彩空間的選擇、量化區間、影像特徵值萃取、SVM Kernel 選擇及分類測試；第四節，說明不同 kernel 及參數下的實驗結果；第五節，本文的結論與未來研究方向。. 二、支援向量機. 分類如下：. w • xi + b ≥ 0 → yi = +1 w • xi + b ≤ 0 → yi = −1. 圖一：分類超平面圖一簡述線性分類的概念，當有一群的資料可以利用直線將資料區分成兩類，此直線的方程式為 ( w • x) + b = 0 ，而 Support Vector 在直線的左邊為一群，在右邊的為一群，依分類公式決定。由這個例子可了解 SVM 分類的原理。在線性可分情況下，求解最佳超平面，看成解二次規劃問題，對於訓練樣本，找到權值 w 及偏移 b 的最佳值，使得權值代價函數最小。. 支援向量機（Support vector machine，以下簡稱 SVM）[5,10,11]是建立在機器學習理論的結構風險最小化原則之上，其主要思想是針對二類分類問題，在高維度空間中尋找一個超平面作為二類的分割，以保證最小的分類錯誤率，而且 SVM 一個重要的優點就是能處理線性不可分的情況。. 權值代價函數：. SVM 利用目前現有的資料作訓練，再利用這些分析出的資料（Training data）選出幾個支援向量（Support Vector）來代表整體的資料，並將少部份極端值事先剔除，然後將所挑選的支援向量（Support Vector）包裝成模型（model）。假設若有測試的資料（Testing data）作預測時，SVM 就會將資料歸類，利用將資料分成兩類，判斷式如下定義 y 值：. 最佳化函數 φ ( w) 為二次型函數，限制條件是線性的，因此是典型的二次規劃問題可由拉格朗茲乘式法求解。引入拉格朗茲乘數：. 假. 設. 存. 在. 訓. 練樣本 ( xi , yi ) ,L( xl , yl ) , x ∈ R , y ∈ {+1, −1} ， l 為樣本 n. 數， n 為輸入維度在線性可分情況下，存在一個超平面能將二類樣本完全分隔該平面描述為：. ( w • x) + b = 0. min φ ( w) =. 1 2 w 2. 滿足限制式：. yi ( w • xi + b) − 1 ≥ 0, i = 1L , l. LagrangeMulipliter：α i ≥ 0, i = 1, 2,L , l L( w, b, a) =. 1 2 l w − ∑ α i { yi ( w • xi + b) − 1}, 2 i =1. 求解 L 的極值為鞍點，可以 L 對 w 和 b 的最小值 w=w* ，b=b* ，以及對 a 的最大值 a=a*。對 L 求解可得： l ∂L = ∑ yiα i = 0 ∂b i =1 l ∂L = w − ∑ yiα i xi = 0 ∂w i =1. 於是，求解二次規劃，得到對應的 w*和 a*：.

(3) 由上可知，分類函數都只涉及訓練樣本. l. w = ∑ yiα i* xi *. 之間的內積 ( x • xi ) 運算，如此在高維度空間. i =1. 轉換線性可分條件下的原問題成為對偶問題，求解如下的極大化： l. i =1. 1 l ∑ 2 i =1. l. ∑α α i. j =1. j. yi y j xi • x j. 滿足限制式： l. ∑ yα i =1. i. i. 中，採用適當的內積函數 K ( xi • x j ) 就可以求解某一非線性轉換後的線性分類問題，而計算複雜度卻沒有增加。. Dual problem: max W (α ) = ∑ α i −. 上只需進行內積運算，因此在最佳分類平面. 三、研究流程（一）色彩空間. = 0,α i > 0, i = 1, 2,..., l. 對這類限制最佳化問題在於求解和分析中，必須滿足 Karush-Kuhn-Tucker（KKT）條件：. α i { yi ( w • xi + b) − 1} = 0 所以對於在 α i >0 定義為 support vector，才會對 w* 起作用，所求向量中，選用一個 support vector，可以求解得 b*：. l. d ( x) = x • w + b = ∑ yiα i ( x • xi ) + b. （二）量化顏色直方圖 *. i =1. 不過有些資料卻是無法利用線性方程式將資料分類，因此必須透過線性不可分問題，將資料作有效的區分。對非線性問題，將樣本 x 轉換至某個高維度特徵空間 H 中，並在 H 中利用線性規劃問題求解，將 x 作轉換至 φ ( x) ： x → φ ( x： ) Rd → H l. d ( x) = φ ( x) • w* + b* = ∑ yiα iφ ( x) • φ ( xi ) + b* i =1. 下式為針對非線性問題的分類函數： l. max W (α ) = ∑ α i − i =1. 1 l ∑ 2 i =1 l. l. ∑α α j =1. i. j. yi y j K ( xi • x j ). d ( x) = x • w* + b* = ∑ yiα i K ( x • xi ) + b* i =1. 0 ≤ H ≤ 0.1388 0.35 ≤ V ≤ 1. 對某樣本 x 進行測試，分類公式如下： *. 由於成人圖片中含有大量的膚色資訊，因此可以採用膚色偵測的方式，來辨別成人圖片與否。利用 HSV 中組成統計數據來輸入 SVM 進行分類，提出的 HSV 膚色區間為：. 0.23 ≤ S ≤ 0.68. b* = yi − w • xi. *. 利用膚色資訊來偵測圖片中人臉部份的存在[6,7,12]，我們採用 HSV 色彩空間特徵， HSV 色彩空間則由色度（ Hue ）、飽和度（Saturation）、亮度（Value）組成，經常被用在影像處理技術之中。. 由於將 HSV 統計數據直接輸入 SVM 訓練，數據可能過於複雜或龐大，為了有效減少輸入的資料維度，參考 HSV 中的膚色區間間距，將 HSV 量化 H 為 10 個區間，S 為 4 個區間，V 為 3 個區間。（三）影像特徵值萃取將輸入的影像，逐點取出其 HSV 的數值，並統計 H 值在 10 個區間中、S 值在 4 個區間中、V 值在 3 個區間，所占全圖的比例值，以此為特徵，再將各影像特徵值輸入 SVM 進行訓練及分類。表一中說明自圖二萃取之影像特徵值，類型中數值 1 則代表為非成人圖片類，數值-1 則是成人圖片類，SVM 在輸入訓練時，需要事先定義資料的類型為 1 或-1 進行分類。.

(4) 圖二：萃取影像特徵值表一：影像特徵值項目. 檔名. H-百分比. S-百分比. V-百分比. 類型. 數值. 1017652711_1.jpg. 6 0 0 0 1 2 63 5 4 18. 28 27 37 7. 73 13 13. 1. （四）Kernel 選擇. 表二：分類測試表. 由於 SVM 分類函數都只涉及訓練樣本之間的內積 ( x • xi ) 運算，如此在高維度空間上只需進行內積運算，因此在最佳分類平面中，採用適當的內積函數 K ( xi • x j ) 就可以求解某一非線性轉換後的線性分類問題。以下列出數種 kernel 函數，不同的 kernel 將形成不同的算法，適合不同的問題型態：. K dot ( x, y ) = x • y K ploy ( x, y ) = ( x • y + 1) d. K radial ( x, y ) = e. − ρ x− y. 2. K neural ( x, y ) = tanh ( ax • y + b )  −ρ x −y  K anova ( x, y ) =  ∑ e i i   i . d. （五）分類測試將影像特徵值輸入 SVM 進行訓練，再輸入測試資料進行分類，依 SVM 分類結果的數值來判定，若數值是正值表示該圖片屬於類型 1 的非成人圖片，數值是負值表示該圖片屬於類型-1 的成人圖片，透過比對測試圖片的原始類型，來判斷分類正確與否，測試範例如表二所列。. SVM 圖片編號. 圖片類型. 分類結果. 分類正確. 1. 1. 12.58. v. 2. 1. 2.18. v. 3. 1. -13.3. 4. 1. -2.22. 5. 1. 16.04. v. 6. 1. 3.34. v. 7. 1. -0.67. 8. 1. -3.69. 9. 1. -7.35. …. …. …. …. n-8. -1. -0.41. v. n-7. -1. -0.74. v. n-6. -1. -0.43. v. n-5. -1. -2.93. v. n-4. -1. 0.14. n-3. -1. -0.91. v. n-2. -1. -2.08. v. n-1. -1. -1.43. v. n. -1. 0.04.

(5) SVM 中不同 kernel 函數，求解成人圖片分類問題最佳分類函數。. 四、實驗結果 SVM 的分類架構是非常簡單，但卻需要選擇適當的 kernel，選擇到不適當的 kernel 導致不佳的分類結果。實驗過程中，分別測試. 投入 SVM 訓練圖片共計 490 張圖片，如表三：. 表三：訓練圖片類別表訓練圖片類別. 張數. 備註. 成人圖片. 210. 東方人：168 張，西方人：42 張. 非成人圖片. 280. 人物照：164 張，景物照：116 張. 合計. 490. 測試圖片共計 200 張圖片，如表四列：表四：測試圖片類別表測試圖片類別. 張數. 備註. 成人圖片. 100. 東方人：85 張，西方人：15 張. 非成人圖片. 100. 人物照：55 張，景物照：45 張. 合計. 200. 表五及表六表現 SVM 中不同 kernel 會有不同的分類結果，不同的 kernel 中，不同參數調整也會影響到分類結果的表現，在 dot kernel. 分類結果中可見問題型態並無法以線性方式分類，相互比較下 radial kernel 分類效果較佳。. 表五：SVM 不同 kernel 之分類正確率圖片類別. dot. poly. radial. neural. anova. d=2. ρ =0.1. a=0.0001 b=0.001. ρ =0.01. d=1. 成人圖片. 44%. 70%. 70%. 66%. 69%. 非成人圖片. 55%. 77%. 83%. 75%. 80%. 平均. 50%. 74%. 77%. 71%. 75%.

(6) 表六：SVM 不同 kernel 之分類正確率折線圖 90% 80% 70% 60% 50% 40% 30% 20% 10% 0%. 平均正確率. dot. poly. radial. 由於 radial kernel 分類結果較佳，再調整 radial kernel 中的參數 ρ 進行實驗，以求得較佳的分類數值，表七所列，尤其以 ρ =0.004 時分類效果最佳，平均分類正確率達 81%，其. neural. anova. 中成人圖片分類正確率 76%，非成人圖片正確率 88%，表八則表現出不同 ρ 數值的分類折線圖。. 表七：radial kernel 不同參數調整之分類正確率圖片類別. radial. radial. radial. radial. radial. ρ =0.1. ρ =0.01. ρ =0.001. ρ =0.005. ρ =0.004. 成人圖片. 70%. 79%. 70%. 78%. 74%. 非成人圖片. 83%. 73%. 88%. 81%. 88%. 平均. 77%. 76%. 79%. 80%. 81%. 表八：radial kernel 不同參數調整之分類正確率折線圖. 82% 81% 80% 79% 78% 77% 76% 75% 74% 73% gamma. 平均正確率. 0.1. 0.01. 0.001. 透過我們的分類結果可得知，分類正確率可以達到近 80%的結果，而且利用 SVM 可以減少輸入資料的複雜度，只要選擇適合成人圖片分類問題型態的 kernel，即可以得到不錯的分類結果。. 五、結論及未來研究方向本論文利用 HSV 色彩空間中的顏色直方圖統計數據，萃取影像特徵值輸入至 SVM 進行訓練及分類，實驗結果在 radial kernel 中，分類正確率可達 81%，而且只需要輸入直方圖. 0.005. 0.004. 統計數據，輸入複雜維度並不高，透過 SVM 機器學習方式，也不需要額外的處理，取決於 SVM 能處理高維度的資料，只需要選擇適合問題型態的 kernel，就可以達到良好的分類效果。在未來研究中，可以再萃取其他影像特徵值，配合 HSV 直方圖統計數據，再提升其分類準確度。並結合其他成人資訊的型態，如：文字、影片…等，與本論文所提出的成人圖片分類結合，以期更有效的將不當資訊分類過濾。.

(7) 由於網路資訊的蓬勃發展，網路內容失序現象產生，希望未來能更重視對於網路資訊過濾研究，藉由本論文提出的成人圖片分類技術，結合其他技術，能更效對網路資訊進行過濾或分級，健全未來乾淨的網路環境。. applications,” in IEEE Transaction on Cirucuits and Systems for Video Technology, vol. 9,no. 4, pp. 551-564, June 1999. 8.. O. Chapelle, P. Haffner, and V. N. Vapnik, “Support vector machines for histogram-based image classification,” in IEEE Transaction on Neural Networks, vol. 10,no. 5,pp. 1055-1063, September 1999.. 9.. R. Schettini, C. Brambilla, G. Ciocca, and T. N. Tan, “A hierarchical classification strategy for digital documents,” in Pattern Recognition, vol. 35, pp. 1759-1769, 2002.. 10.. S. Rüping, “mySVM-Manual”, Computer Science Department, AI Unit University of Dortmund, October 2000.. 11.. S. Gunn, “Support vector machines for classification and regression”, Image Speech and Intelligent Systems Group, University of Southampton, May 1998.. 12.. Y. Wang, B. Yuan, “Segmentation method for face detection in complex background,” in ELECTRONICS LETTER, vol. 36, no. 3, pp. 213-214, February 2000.. 13.. “小蕃薯分級服務”, http://kids.yam.com/rating/safeform_c.htm. 14.. “CyberPatrol”, http://www.cyberpatrol.com/. 15.. “Cybersitter”, http://www.solidoak.com/index.html. 16.. “Net Nanny”, http://www.netnanny.com/. 17.. “SurfWatch Internet Filtering Software”, http://www.surfwatch.com/. 致謝感謝國科會工程處研究計畫部分經費贊助，編號：NSC92-2626-E-324-001。. 六、參考文獻 1.. 梁朝雲, 周韻彩, “青少年使用網路行為分析及輔導策略之研究”, 青輔會 -NYC89002, 2000.. 2.. 曾憲雄, ”華人學習網頁與資源之分級制度”, 2001.. 3.. 資策會 ECRC-FIND, “經濟部技術處 Internet 應用研究科專計畫”, 2002.. 4.. A. Vailaya, A. T. Figueiredo, A. K. Jain, and H. J. Zhang, “Image classification for content-based indexing,” in IEEE Transaction on Image Processing, vol. 10,no. 1,pp. 117-130, January 2001.. 5.. C. Campbell, “Kernel methods: a survey of current techniques”, Neurocomputing, vol. 40, pp. 63-84, January 2001.. 6.. C. Garcia, G. Tziritas, “Face detection using quantized skin color regions merging and wavelet packet analysis,” in IEEE Transactions on Multimedia, Vol. 1,NO. 3,September 1999,pp. 264-277.. 7.. D. Chai, K. N. Ngan, ”Face segementation using skin-color map in videophone.

(8)