• 沒有找到結果。

第四章 研究方法

4.1 使用工具

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第四章 研究方法

此章節將介紹本研究的研究方法,共有使用工具、實驗流程兩個部分,首先 介紹本研究使用的工具,接著在實驗流程部分講解本研究的資料清洗過程與用來 分類觀光與非觀光圖文的模型架構與訓練方法。

4.1 使用工具

此小節將介紹本研究中包含資料集前處理以及後續實驗所用的工具,以下會 描述各個工具的基本功能,至於在本研究中的實際應用則會在後續實驗流程的小 節中進行解說。

4.1.1 AllDup

一款重複圖片處理工具,可設定相似度門檻值並將路徑下的檔案進行比對,

最後列出所有結果,如圖4.1 所示,左半部顯示比對結果的組別,每組以第一張 圖片為代表,與其相似的圖片都會列入同一個組別中,右半邊則是預覽每組圖片 的內容。得到結果後再依照使用者需求對重複的圖片進行刪除、移動、改名等自 動處理,最大的優點是可直接將比對結果資料匯出,格式如圖 4.2,記錄每組編 號、數量、檔名等資訊,有助於追蹤圖片的關聯性。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖4.1 AllDup 重複圖片比對結果

圖4.2 AllDup 匯出的 csv 檔格式

4.1.2 Google Cloud Vision API[1]

由 Google 開發的圖像辨識工具,本研究使用的是 Safe Search Detection API,

根據官方說明[29]可知,此 API 即為常聽到的 Google 安全搜尋功能,可自動過 濾色情和具有潛在冒犯性的內容,API 資料欄位共分為醫藥(Medical)、欺騙

(Spoofed)、武力(Violence)、成人(Adult)四個類別,按照每個類別的符合程 度以 VERY_LIKELY、LIKELY、POSSIBLE、UNLIKELY、VERY_UNLIKEY、

UNKNOWN 六個級別區分。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

醫藥(Medical)圖像分類包含明確的疾病症狀、身體器官等特寫照,由於畫 面傾向血腥,容易造成身心上的不適,因此是安全搜尋所需過慮的類別之一,但 如果是一般的醫療程序畫面則不會被定義為醫藥類別;欺騙(Spoofed)分類主要 是偵測含有諷刺或不雅暗示的圖片,由於這些內容通常是為了傳達某種現象、想 法或特殊涵義,但會跟實際圖片所表達的有所出入,容易誤導想法,如圖4.3 所 示;武力(Violence)分類則是偵測與暴力、戰爭有關的圖片,內容可能是描繪 殺戮、射擊等血腥的照片,如圖4.4 所示。

本研究中僅使用偵測成人圖片(Adult)的部分,由官方說明文件可知,它們 可分辨出泳裝照與真正色情照的區別,並在二次元、插畫中也有顯著的表現,缺 點是此工具必須付費。

圖4.3 欺騙(Spoofed)類型圖片與其偵測熱區[29]

圖4.4 武力(Violence)類型圖片與其偵測熱區[29]

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

4.1.3 Open NSFW[31]

由 Yahoo 釋出基於 Caffe0 環境下的開源工具 NSFW(Not Suitable For Work), 顧名思義是可辨識出不適合作為電腦桌布的圖片,因此偵測標準相對嚴謹,從官 方公布的文件可知,該工具會回傳一個評價分數,數值範圍落在0 到 1 的區間,

當分數為0.8 以上表示是真的色情圖片,而分數若為 0.2 以下則是安全的圖片,

不過即使有明確的分數定義,文件中仍然有免責聲明,表示因為不同研究所用的 資料集內容不一,他們無法保證此工具的準確度是否合乎使用者的標準,而且在 二次元圖片的效果可能會表現得比較不好,若對分析結果不滿意,必須自行對模 型進行參數調整;對此我們將也進行了Open NSFW 的使用測試並評估結果,詳 細流程會在實驗流程的小節中提及。

相關文件