應用深度學習架構於社群網路資料分析：以Twitter圖文資料為例 - 政大學術集成

全文

(1)國立政治大學資訊科學系 Department of Computer Science National Chengchi University 碩士論文 Master’s Thesis. 立. 政治大. ‧ 國. 學. 應用深度學習架構於社群網路資料分析：以 Twitter 圖文資料為例. ‧. Analyzing Social Network Data Using Deep Neural. sit. y. Nat. n. al. er. io. Networks: A Case Study Using Twitter Posts. Ch. engchi. i n U. v. 研究生：楊子萲撰指導教授：廖文宏博士. 中華民國一百零七年十月 October 2018 DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(2) 應用深度學習架構於社群網路資料分析：以 Twitter 圖文資料為例 Analyzing Social Network Data Using Deep Neural Networks: A Case Study Using Twitter Posts. 研究生：楊子萲. Student：Tzu-Hsuan Yang. 指導教授：廖文宏. Advisor：Wen-Hung Liao. 資訊科學系. 學. ‧ 國. 立. 政治大國立政治大學碩士論文. y. ‧. Nat. io. sit. A Thesis. a. er. submitted to Department of Computer Science. n. v l Chengchi University National ni Ch. U. e n gofcthe h i Requirements in partial fulfillment for the degree of Master in Computer Science. 中華民國一百零七年十月 Octobor 2018. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(3) 致謝. 研究所生涯總算走到最後一步，感謝廖文宏老師兩年半的指導，讓我在專業技術和生活知識上都有所收穫，也感謝水火計畫兼口試委員的鄭宇君老師，在研究的過程中給了許多寶貴的意見。接著感謝 VIP 實驗室的大家，首先感謝 Maty 學姊和乃瑋，在我. 政治大. 對論文方向茫然的時候給了很多建議，感謝學長姐們和學弟辰瑋、戎. 立. 諒、宗賢，能在這期間與你們一起聊天、玩遊戲使我的研究所生涯充. ‧ 國. 學. 滿樂趣。還有感謝從大學到研究所的同學恭儀和莞茜，在修課和研究. ‧. 的過程中互相幫助和鼓勵，讓我的碩士生活不孤單。. Nat. io. sit. y. 最後，謝謝彥庭對我的各種付出，除了技術上的指點，在心情上. al. er. 也給了我許多支持，讓我能在規劃下順利完成學業，謝謝你的陪伴。. n. v i n Ch 再次感謝一路上提供幫助的老師和朋友們，有你們才能成就這份研究 engchi U 的完成。. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(4) 摘要. 社群平台的發展日益蓬勃，人們分享動態的方式不僅只有文字，發文時搭配影像也是使用者常見的互動方式，然而有時候僅靠單方面的文字或是圖片並不能了解使用者真正想傳達的訊息，因此本研究以影像與文字分析技術為基礎，期望可藉由社群平台的多樣化資訊，分析圖片與文字之間的關係。. 立. 政治大. 由於 Twitter 的發文字數限制使得 Twitter 上的使用者較容易在貼. ‧ 國. 學. 文中明確表達重點，因此本研究從 Twitter 蒐集了 2017 年間擁有台灣. ‧. 關鍵字的推文資料，經過資料清洗後，從中分析哪些推文屬於觀光類. Nat. io. sit. y. 型，哪些推文屬於非觀光類型，利用深度學習模型框架將圖文資訊進. er. 行整合，最後再進行分群，探討各類別的特性。. al. n. v i n Ch 透過此研究，可探索圖文之間相互輔助的關聯性，也可瞭解社群 engchi U. 平台的貼文類型分佈，深化我們對於社群平台的理解，亦可透過本研究的框架提供質化分析研究者必要的資訊。. 關鍵字：推特、圖文分析、Word2Vec、深度學習、社群網路. i. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(5) Abstract Interaction on various social networking platforms has become an important part of our daily life. Apart from text messages, image is also a popular media format utilized for online communication. Text or image alone, however, cannot fully convey the ideas that users wish to express. In the thesis, we employ computer vision and word embedding techniques to analyze the relationship between image content and text messages and. 政治大. explore the rich information entangled.. 立. The limitation on the total number of characters compels Twitter users. ‧ 國. 學. to compose their messages more succinctly, suggesting a stronger association between text and image. In this study, we collected all tweets. ‧. which include keywords related to Taiwan during 2017. After data. Nat. sit. y. cleaning, we apply machine learning techniques to classify tweets into to. er. io. ‘travel’ and ‘non-travel’ types. This is achieved by employing deep neural. n. networks to process andaintegrate text and image information. Within each iv l. n U i e n g ctohfurther clustering partition. Ch. class, we use hierarchical. the data into. different clusters and investigate their characteristics. Through this research, we expect to identify the relationship between text and images in a tweet and gain more understanding of the properties of tweets on social networking platforms. The proposed framework and corresponding analytical results should also prove useful for qualitative research.. ii. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(6) Keywords: Twitter, social networks, graphical and text analysis, Word2Vec, deep learning.. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. iii. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(7) 目錄第一章 1.1 1.2 1.3 1.4. 緒論 ............................................................................................................... 1 研究背景 ....................................................................................................... 1 研究目的與方法 ........................................................................................... 3 論文貢獻 ....................................................................................................... 5 論文架構 ....................................................................................................... 5. 第二章技術背景與相關研究 ................................................................................... 7 2.1 深度學習的演進 ........................................................................................... 7 2.2 相關研究 ..................................................................................................... 10 2.2.1 卷積神經網路與相關模型簡介 ................................................................. 11 2.2.2 詞袋簡介 ..................................................................................................... 15. 政治大 2.2.4 階層式分群演算法 ..................................................................................... 16 立 2.2.5 t-SNE ........................................................................................................... 19 2.2.3 Word2Vec ................................................................................................... 15. ‧ 國. 學. 第三章資料集 ......................................................................................................... 21 3.1 觀光類別 ..................................................................................................... 25. ‧. 3.1.1 食物類 ......................................................................................................... 25 3.1.2 動物類 ......................................................................................................... 26. y. Nat. sit. 3.1.4 住宿類 ......................................................................................................... 28. n. al. er. io. 3.1.5 交通類 ......................................................................................................... 28. i n U. v. 3.1.6 風景類 ......................................................................................................... 29. Ch. engchi. 3.1.7 街景類 ......................................................................................................... 30 3.1.8 鳥瞰類 ......................................................................................................... 31 3.1.9 煙火類 ......................................................................................................... 32. 3.2 非觀光類別 ................................................................................................. 33 3.2.1 偶像類 ......................................................................................................... 33 3.2.2 政治新聞類 ................................................................................................. 34 3.2.3 人像類 ......................................................................................................... 35 3.2.4 文字類 ......................................................................................................... 36 3.2.5 非寫實類 ..................................................................................................... 37 3.2.6 色情類 ......................................................................................................... 38. 第四章. 研究方法 ..................................................................................................... 39 iv. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(8) 4.1 使用工具 ..................................................................................................... 39 4.1.1 AllDup ......................................................................................................... 39 4.1.2 Google Cloud Vision API[1]....................................................................... 40 4.1.3 Open NSFW[31] ......................................................................................... 42. 4.2 實驗流程 ..................................................................................................... 42 4.2.1 去除重複圖片 ............................................................................................. 43 4.2.2 色情圖片過濾 ............................................................................................. 44 4.2.3 觀光、非觀光樣本定義 ............................................................................. 46 4.2.4 深度學習模型訓練 ..................................................................................... 49. 第五章實驗結果與討論 ......................................................................................... 51 5.1 去除重複圖片 ............................................................................................. 51 5.2 色情圖片過濾 ............................................................................................. 55. 政治大 5.2.1 工具測試與比較 ......................................................................................... 55 立 5.2.2 偵測圖片並過濾 ......................................................................................... 58. ‧ 國. 學. 5.3 模型訓練 ..................................................................................................... 60 5.4 階層式分群與 t-SNE 視覺化 ..................................................................... 63. ‧. 第六章結論與未來規劃 ........................................................................................... 70 參考文獻 ..................................................................................................................... 71. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. v. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(9) 圖目錄圖圖圖圖圖. 1.1、Twitter 頁面................................................................................2 1.2、近十年來台旅客及國民出國人次變化與國人國內旅遊總旅次變化...4 1.3、近十年來台旅客觀光目的別人次及佔比變化......................................4 2.1、神經網路模型...................................................................................8 2.2、歷年 ILSVRC 冠軍的圖片物件識別錯誤率..................................9. 圖圖圖圖圖. 2.3、WebVision 2017 年比賽結果....................................................10 2.4、左圖為全連接，右圖為局部連接…….............................................11 2.5、Inception 模型架構......................................................................12 2.6、Inception V3 模型架構........................................................................13 2.7、Xception Block...............................................................................14. 治政大圖 2.8、各種 CNN 模型準確度與參數量比較..................................................14 立圖 2.9、詞向量...........................................................................................15 ‧ 國. 學. 圖 2.10、Word2vec 模型架構......................................................................16 圖 2.11、階層式分群法樹狀結構圖......................................................................17 2.12、四種階層式分群方法群聚間相似度計算方式示意圖.............................18 2.13、t-SNE 視覺化效果.....................................................................................20 3.1、hashtags 資料範例......................................................................................22 3.2、影像資料範例.........................................................................................22 3.3、文字資料範例........................................................................................23 3.4、食物類圖片範例.........................................................................................25 3.5、動物類圖片範例.........................................................................................26 3.6、地標類圖片範例.........................................................................................27 3.7、住宿類圖片範例.........................................................................................28 3.8、交通類圖片範例.........................................................................................29. 圖圖圖圖圖圖圖圖圖. 3.9、風景類圖片範例.........................................................................................30 3.10、街景類圖片範例.........................................................................................31 3.11、鳥瞰類圖片範例.........................................................................................31 3.12、煙火類圖片範例.........................................................................................32 3.13、偶像類圖片範例.........................................................................................33 3.14、政治類圖片範例.........................................................................................34 3.15、人像類圖片範例.........................................................................................35 3.16、文字類圖片範例.........................................................................................36 3.17、非寫實類圖片範例.....................................................................................37. ‧. 圖圖圖圖圖圖圖圖圖圖. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 4.1、AllDup 重複圖片比對結果.........................................................................40 圖 4.2、AllDup 匯出的 csv 檔格式........................................................................40 vi. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(10) 圖圖圖圖圖圖圖圖圖. 4.3、欺騙（Spoofed）類型圖片與其偵測熱區......................................41 4.4、武力（Violence）類型圖片與其偵測熱區.....................................41 4.5、實驗流程…...............................................................................42 4.6、AllDup 相似度 100%比對結果範例................................................43 4.7、模型架構............................................................................................49 5.1、相似度 100%統計圖表...........................................................................52 5.2、相似度 95%以上比對結果..........................................................................53 5.3、12 月份重複張數與組數統計圖表............................................................54 5.4、重複圖片去除統計圖表.........................................................................54. 圖圖圖圖圖. 5.5、False Positive 結果..........................................................................57 5.6、色情圖片過濾結果..........................................................................59 5.7、被過濾的圖片佔比..........................................................................60 5.8、文字分類模型..............................................................................61 5.9、圖片分類模型..............................................................................61. 政治大圖 5.10、TSNE 分群：觀光與非觀光.........................................................64 立圖 5.11、階層式分群..............................................................................64 ‧. ‧ 國. 學. 圖 5.12、t-SNE 分群..............................................................................65. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. vii. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(11) 表目錄表 2.1、聚合式階層分群演算法................................................................................19 表 3.1、2017 年 Twitter 文字原始資料數量….........................................................22 表 3.2、2017 年 Twitter 圖片原始資料數量….........................................................24 表 3.3、食物類文字範例............................................................................................26 表 3.4、動物類文字範例............................................................................................26 表表表表表. 3.5、地標類文字範例............................................................................................27 3.6、住宿類文字範例............................................................................................28 3.7、交通類文字範例............................................................................................29 3.8、風景類文字範例............................................................................................30 3.9、街景類文字範例............................................................................................31. 治政大表 3.10、鳥瞰類文字範例..........................................................................................32 立表 3.11、煙火類文字範例..........................................................................................32 ‧ 國. ‧. 3.14、人像類文字範例..........................................................................................36 3.15、文字類文字範例..........................................................................................36 3.16、文字類文字範例..........................................................................................37 4.1、二分類混淆矩陣定義....................................................................................45 4.2、觀光非觀光樣本定義流程............................................................................48 5.1、相似度 100%之處理前後統計.....................................................................52 5.2、重複圖片去除結果........................................................................................55 5.3、色情圖片偵測結果........................................................................................56 5.4、混淆矩陣與準確率計算................................................................................56 5.5、Open NSFW 門檻值測試.............................................................................59. n. al. er. io. sit. y. Nat. 表表表表表表表表表表. 學. 表 3.12、偶像類文字範例..........................................................................................34 表 3.13、政治類文字範例..........................................................................................35. Ch. engchi. i n U. v. 表 5.6、文字模型、圖片模型、文字與圖片模型比較............................................62 表 5.7、驗證資料混淆矩陣........................................................................................63 表 5.8、各分類精確率、召回率、F1-Score.............................................................63 表 5.9、觀光類別各群範例........................................................................................66 表 5.10、非觀光類別各群範例....................................................................................68. viii. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(12) 第一章緒論 1.1 研究背景隨著網際網路的發展，各種社群軟體因應而生，如 Facebook、Twitter、 Instagram 等，加上行動裝置的普及，使得人們可以隨時隨地上傳文字或圖片分享生活點滴，因此社群媒體成為當代社會人們資訊傳遞、社交互動的核心，其中以 Twitter 的訊息流通效果較為出色。根據 Twitter 於 2017 年的統計，每月活躍用戶有 3.3 億人次，每日則有 1 億人次，而每日所發出的推文（Tweets）數有 5.5. 政治大. 億篇，其中推文內容常出現的標籤（Hashtags）數量每日也有 1.2 億個；另外，. 立. Twitter 用戶中更有高達 80%使用行動裝置，顯示出 Twitter 社群與人們的生活有. ‧ 國. 學. 著密切關係。. ‧. Twitter 的社群架構以追蹤（Follow）為概念，主要頁面包含個人資訊、追蹤人數（Following）、追蹤者人數（Followers）、推文等，任何用戶都可以發布推. y. Nat. io. sit. 文，上傳想要分享的照片，並透過標籤將自己的推文內容進行主題分類，如圖 1.1。. n. al. er. 但 Twitter 限制了每筆推文內容不能超過 140 個字元，聚焦在情報的傳遞，這種. Ch. i n U. v. 訊息快速流通的特性也使得 Twitter 成為事件發生時的最佳情報網，也是本論文研究所採用的主要媒介。. engchi. 1. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(13) 我追蹤的人. 追蹤我的人. User ID. 推文數. 發佈時間 Hashtag. 推文內容. 推文圖片. 立. 政治大圖 1.1 Twitter 頁面. ‧ 國. 學. 在圖文內容分析技術方面，自從人工智慧的願景在 1950 年被提出後，經過. ‧. 多年的努力，如今深度學習（Deep Learning）運算的技術已被廣泛應用在日常生. sit. y. Nat. 活中，如語音識別、街景分析、物件偵測等。與傳統的機器學習不同，深度學習. al. er. io. 不是由人工的方式來提取物件特徵，而是以多層神經網路讓電腦自行建立分析找. v. n. 出特徵值，其中又以卷積神經網路（Convolutional Neural Network，CNN）在影. Ch. engchi. i n U. 像辨識上有顯著的效果。每年由史丹佛大學所舉辦的 ImageNet 資料集圖像識別競賽中，以往的資料集錯誤率大約落在 28%至 30%之間，但 2012 年的冠軍隊伍利用深度學習技術讓資料集錯誤率大幅降低至 16.42%，可見深度學習應用在圖形識別上有顯著的效果。目前在圖片分析方面，已有現成的 API 工具，如 Google Cloud Vision [1]，Amazon Rekognition [2]等可供利用，自動擷取一張圖片的各種物件並以標籤標出，但若要分析特定主題的圖片或是找出其中涵蓋的抽象概念，仍需額外依靠其他分群的演算法或工具，將圖片中的標籤進行分類。如今在社群平台中，除了基本的文字訊息，越來越多人會使用圖片、影音等多媒體資訊來傳遞訊息，使得資訊量更加多元且豐富，也更進一步增加社群平台. 2. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(14) 中的資訊面向，因此本研究藉由 Twitter 觀察人們的互動，了解當前的熱門話題，並透過蒐集使用者上傳的圖片與文字當作資料集，運用深度學習技術分析人們在社交平台上展現出的社群行為。. 1.2 研究目的與方法由於 Twitter 的推文字數限制，當使用者要發布推文時，往往需要壓縮文字內容，此時，圖片便是良好的輔助，擁有圖片的推文比起純文字內容，更能明確表達發文者想傳達的訊息，也讓觀看的人一目瞭然，因此 Twitter 上自然而然有. 政治大政治等媒體趨勢，因此蒐集了立 2017 年間 Twitter 上與台灣相關的推文資料，但因. 許多類型的照片，本研究在初期原本是要找出與台灣相關的推文消息，像是新聞、. ‧ 國. 學. 為 Twitter 屬於全球通用的社群平台，因此可蒐集到不同語言不同類型的推文，在觀察資料集後我們可以假設其中包含兩種屬性：. ‧. 1.. 討論關於台灣的事：通常是新聞或政治相關，而且資料會來自各國，但. sit. y. Nat. 因為這類型的推文比較偏向傳遞情報消息，因此內容通常僅有文字或是. al. v. 發生在台灣的事：除了文字上會對台灣有較為詳細的描述，也證明了該. n. 2.. er. io. 新聞連結，在圖文分析上的可行性較低。. Ch. engchi. i n U. 使用者當時確實在台灣，對於要了解台灣所發生的事情更有說服力，觀光類通常屬於這個類型，推文中也大多具有圖片，可達到本研究圖文分析的目的。為了選定一個主題聚焦去做分析，除了上述的推文屬性之外，在觀察資料集的過程中也發現圖片內容大多與觀光有關，這包含一般的旅遊或是明星在台灣舉辦演唱會所帶動的觀光行為等，因此本研究最終選定觀光主題做為分析主軸。另外，台灣身為一個觀光產業發達的國家，不論是國人國內旅遊還是外國遊客來台旅遊，都透過觀光行為帶動了台灣的經濟發展，根據交通部觀光局所提供的圖表 [3]（圖 1.2）可知，近年的來台旅客數量、國人國內旅遊次數都是逐年攀升，從. 3. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(15) 事觀光活動的比例也呈現增加趨勢（圖 1.3），然而，這之中又有哪些景點是具有實質的觀光意義，或者只是旅客的走馬看花，當旅途中所遇到的事物有值得記錄的意義時，便會促使人們在社群平台上發表文章，除了能向他人分享同時也讓自己能在將來回味，與景點的人流統計相比，社群平台的評論反而更具觀光的指標性，也能成為其他人們在決定旅遊景點時很好的參考。. 立. ‧ 國. 學. 圖 1.2. 政治大. 近十年來台旅客及國民出國人次變化與國人國內旅遊總旅次變化[3]. ‧. n. er. io. sit. y. Nat. al. 圖 1.3. Ch. engchi. i n U. v. 近十年來台旅客觀光目的別人次及佔比變化[3]. 綜合上述，本研究蒐集了 2017 年間 Twitter 上與台灣相關內容的推文及圖片作為研究資料集，從中分析出人們在台灣的觀光行為，研究流程首先會經過資料集前處理，包含將重複或是空白等會影響資料集整潔度（Data Cleanliness）的圖. 4. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(16) 片移出，之後定義觀光與非觀光類別的訓練資料，資料內容涵蓋文字與影像兩種輸入，以此作為深度學習訓練之標的，最後再探討圖文並行之有效性。. 1.3 論文貢獻本研究的主要貢獻如下：一、提出以圖文作為輸入的深度學習模型：以往的研究大多是純文字或純影像的分析，但在社群平台上往往需要靠圖文的相互輔助才能理解使用者的真正涵義，故本研究提出有別於以往的分析架構。. 政治大二、提出觀光與非觀光類別的分類與判斷方式：以本研究蒐集到的資料為立. ‧ 國. 學. 基準，將推文資料分為觀光與非觀光兩個大類別，並結合質化與量化方式分析圖文內容。. ‧ sit. y. Nat. 三、提供給質化相關研究發掘社群平台上的使用者行為：除了觀光以外，. al. er. io. 可由本研究的資料集內容探討不同的研究分支，例如流行文化趨勢、. v. n. 政治風向等，而這些分類特徵也會提供給質化研究者，讓他們從中選. Ch. engchi. 出自己所需要的特徵進行探討。. i n U. 1.4 論文架構本論文分為六個章節，架構如下。第一章為緒論，主要介紹研究動機並解說研究目的，將整個研究流程進行概略的說明；第二章為技術背景與相關研究，除了介紹研究上所使用的深度學習技術背景與相關研究，也會講解目前常用來做圖片分析的工具及相關技術；第三章為資料集介紹與研究架構，此章節將描述本研究的資料蒐集方法，並對資料集內容進行說明，介紹各個分類的定義標準；第四章為研究方法，會講解本研究使用的工具以及實驗架構，包含使用的深度學習模 5. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(17) 型與完整實驗流程；第五章為實驗結果，會詳細記錄各個階段的實驗成果與數據，並進行分析討論；第六章為結論，將在此章節探討本研究可進行的後續分析與未來可繼續發展的研究方向。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 6. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(18) 第二章技術背景與相關研究近年來，電腦視覺的領域持續受到關注，尤其隨著大數據、雲端運算服務的興起，加上分散式檔案系統技術的成熟，以及硬體運算效能的進步，使得深度學習技術呈現大幅度的成長，漸漸取代傳統靠人工標記特徵（Feature）的機器學習模型，由電腦自行分析出特徵。這種技術上的突破也使得深度學習一詞開始廣泛流傳，如今也衍生出各種已被大量應用在生活周遭的案例，例如運用語音辨識的產品 Apple Siri、Google Home，除了可以使用語音撥打電話或是搜尋資料，更能. 政治大. 結合音樂串流平台來播放想聽的歌曲；在影像識別部份，除了常見的人臉辨識、. 立. 物件偵測，Google 亦推出人類動作理解資料集（Atomic Visual Actions，AVA）. ‧ 國. 學. [4]，讓電腦對影片中人類的動作進行分析並標註動作標籤，由上述例子可見，深度學習在影像分析上擁有顯著的效果。在本章節中，我們將探討圖片分析的相關. ‧. 研究，並對深度學習的演進及架構進行介紹。. sit. y. Nat. n. al. er. io. 2.1 深度學習的演進. i n U. v. 深度學習一詞最早可追溯至 1950 年代的人工智慧願景，然而因為當時的硬. Ch. engchi. 體效能低落與數據量不足的限制，使得人工智慧技術一度陷入瓶頸，直到 1981 年， Hubel 和 Wiesel 提出的動物視覺神經元處理訊息的方式[5]得到了諾貝爾醫學獎，進而帶起類神經網路（Neural Network）的熱潮，即為模擬生物神經系統傳遞訊息的方法。透過 1957 年 Rosenblatt 提出的感知模型（Perceptron），在前者神經元加入修改權重的機制，當神經元收到的訊號經過特定函數運算，超過特定的門檻值（Threshold）時，便將輸出結果作為下一個神經元的輸入值傳入下個神經元，一層層傳下去直到最後一層輸出預測結果，如圖 2.1 所示。. 7. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(19) 圖 2.1. 神經網路模型. 政治大然而，傳統的類神經網路仍無法突破多層數的問題，使得這塊研究領域漸漸立. ‧ 國. 學. 遭到學界放棄，2006 年，Hinton 提出的深度置信網路（Deep Belief Network，DBN） [6]雖然成功訓練了多層神經網路，深度學習一詞也在此時誕生，但受限於 CPU. ‧. 的運算能力緩慢，使得深度學習的研究依然沒有起色，直到 2012 年 Hinton 的兩. sit. y. Nat. 名學生以深度學習加上 GPU 運算的組合在每年以 ImageNet 為影像資料庫所舉. al. er. io. 辦的大型圖片識別競賽(ImageNet Large Scale Visual Recognition Challenge，. v. n. ILSVRC)上一戰成名，使得深度學習重新受到學界所重視，同時也使 GPU 成為運算時不可或缺的硬體。. Ch. engchi. i n U. 電腦視覺技術的應用非常廣泛，而且也越來越多研究將深度學習運用於此，舉凡人臉偵測，Ranjan [7]等作者設計出使用 CNN 架構的演算法，精確的偵測出臉部標誌（Face Landmark）、性別等人臉資訊；在圖片分類方面，從 2010 年開始舉辦的 ILSVRC，2012 年由 Hinton 的兩名學生所提出的 CNN 模型 AlexNet [8]，將 ILSVRC’12 資料集的錯誤率大幅降至 16.42%，使得深度學習與 GPU 運算的組合在圖形識別上開始蓬勃發展；2015 年時，Microsoft 更以超越了人類識別錯誤率 5%的 ResNet [9]贏得冠軍，錯誤率為 3.57%；直至 2017 年，冠軍是來自中國的自駕車新創公司 Momenta 的團隊提出了 SENet [10]，透過一種新的特徵重. 8. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(20) 新校準（Feature Recalibration）方法，即透過學習來自動獲取每個特徵的重要程度，並依此去提升有用的特徵權重，此時錯誤率僅剩 2.25%。由此可見，深度學習在影像識別上有很大的貢獻跟突破，如圖 2.2 所示。. 30%. 28.2% 25.8%. 25% 20%. 16.4% 15%. 11.7%. 10%. 政治大 6.7%. 立. 5%. 5.0%. 3.57%. 2.99%. 2.25%. 2015 ResNet. 2016 Faster R-CNN. 2017 SENet. 0%. 圖 2.2. 2012 AlexNet. 2013. 2014 GoogLeNet. Human. 歷年 ILSVRC 冠軍的圖片物件識別錯誤率. ‧. ‧ 國. 2011. 學. 2010. y. Nat. er. io. sit. 由上圖可知，自 2015 年後，電腦辨認圖片的能力已超越人類，而 ILSVRC 資料集的正確答案是由人類標註，林之昫[11]認為：「當電腦比人類還要強時，其. al. n. v i n 實已經無法準確分辨剩下的錯誤是來自電腦的預測，還是人類的標註。也可能是 Ch engchi U 因為圖片中有多樣物品，有些沒有被標註，所以其實電腦跟人類的答案都對。因. 此，繼續比賽下去的意義並不大」，ILSVRC 也在 2017 年劃下句點。然而，由蘇黎世聯邦理工（ETH）大學聯合 Google Research 等研究機構發佈了名為 WebVision 的大規模 Web 資料集[12]，並基於此資料集舉辦了視覺理解挑戰競賽（Challenge on Visual Understanding by Learning from Web Data，即 WebVision）[13]，與 ILSVRC 資料集不同的是，WebVision 資料集的 240 多萬張圖片主要來自 Google Search 與 Flickr，使用 ILSVRC’12 資料集的 1000 個語意概念生成的搜尋關鍵字（Query）爬取而得，同時後設資料（Metadata）也包含在其中。相較於 ILSVRC 資料集完全是人工標註，WebVision 的資料集含有許多雜訊（Noise），但同時也更貼近實 9. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(21) 際場景。2017 年的冠軍是來自中國的碼隆科技，他們的五次識別結果正確率佔了所有識別結果正確率的前五名，並以最佳結果比第二名高出 2.5%，如圖 2.3，他們採用半監督式（Semi-supervised）學習的方式解決資料集的雜訊問題，首先設計出一個演算法將訓練資料分成 clean data 與 noisy data，接著利用 clean data 訓練出一個深度學習模型，再將此模型套用至所有的資料，通過逐步增加雜訊數據的數量，提升模型複雜度和泛用能力。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. 圖 2.3. i n U. v. WebVision 2017 年比賽結果[14]. Ch. engchi. 2.2 相關研究隨著越來越多社群平台的興起，所提供的服務也越來越多元化，如今人們已逐漸習慣用影像來記錄生活並分享出去，由 Hu 等學者提出的論文[15]可知，他們將 Instagram 上的相片分成 8 個種類（Friends、Food、Gadgets、Captioned Photo、 Pet、Activity、Selfie、Fashion），並對使用者的行為分成五群，經過觀察彼此的特性後，再透過 k-means 分群演算法分析不同群之間的使用者行為模式，雖然他們是以人工方式定義分類，並未用到電腦視覺相關技術，但由此可見分析社群網站上的豐富圖像資訊是值得探討的議題。本研究除了以深度學習作為實驗流程主 10. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(22) 軸，也會使用 Hu 等學者所提出的分類法作為參考，對 Twitter 上蒐集而來的資料進行分類，探討其成效。. 2.2.1 卷積神經網路與相關模型簡介卷積神經網路全名為 Convolutional Neural Networks，簡稱 CNN，源自 1960 年代 Hubel 和 Wiesel 研究貓腦的視覺皮層細胞發現，每個視覺神經元只會處理一小塊區域的視覺圖像，也就是每次接收或傳遞圖像訊息時，只會有局部相鄰的細胞動作，也就是所謂局部連接（Local Connection）的概念。此外，一個卷積層. 政治大權值共享（Weight Sharing），降低參數量使訓練複雜度大幅下降。舉例來說，一立有多個不同的卷積核，每個卷積核對應一個濾波後映射出新圖像，透過卷積核的. 張尺寸為 1000 像素×1000 像素的黑白圖像，表示其輸入的維度就是 1000000，若. ‧ 國. 學. 接下來連接一個相同大小的隱藏層（Hidden Layer），那將產生 100 萬×100 萬個. ‧. 連接，但如此龐大的權重參數在訓練上相當有困難度，甚至會無法訓練，因此. y. Nat. CNN 的神經元使用局部連接，即假設每個神經元只和 10×10 個神經元相連，那. er. io. sit. 麼權值就會降為 100 萬×100 個參數，減少為全連接的千分之一，如圖 2.4 所示。其中，權值共享還賦予 CNN 對平移的容忍度，而池化層（Pooling）透過計算圖. al. n. v i n 片同一區域上的某個特定特徵的平均值或最大值來降低特徵維度，進一步降低了 Ch engchi U 輸出參數量，並提高模型的泛用性。. 圖 2.4. 左圖為全連接，右圖為局部連接. 11. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(23) 由 ImageNet 舉辦的競賽（ILSVRC）產生了不少實用的 CNN 模型，這些模型也成為後續研究的參考，像是 2012 年的 AlexNet、2014 年的 VGGNet 都在影像分類上達到不錯的效果，2014 年由 Google 提出的 GoogLeNet（Inception V1） [16]，對傳統的卷積層提出了修改，提出名為 Inception 的架構，用於增加卷積神經網路的寬度與深度，提高其性能，Inception 的模型架構如圖 2.5 所示，為了增加模型的適應性使用了不同大小的卷積核，並在 3x3 與 5x5 的卷積核以及 3x3 max pooling 前加上 1x1 的卷積核用於降維，達到降低模型複雜度的目的，當時的錯誤率為 6.67%，接下來的幾年，Google 又對此架構進行修改，相繼提出了. 政治大積核利用兩個 3x3 的卷積核取代，使 CNN 對特徵的學習能力更強，並提出 Batch 立. Inception V2[1]、Inception V3[18]、Xception[19]等模型，Inception V2 將 5x5 的卷. Normalization 方法對每一層進行正規化，讓原先的模型訓練時間大幅縮短，錯誤. ‧ 國. 學. 率也降至 4.8%；Inception V3 的架構如圖 2.6 所示，將一個較大的二維卷積拆成. ‧. 兩個一維卷積，像是把一個 3x3 的卷積拆解成一個 1x3 的卷積與一個 3x1 的卷. y. Nat. 積，這個方法除了節省大量參數減少運算時間，也能處理更多樣化的特徵，此時. n. al. er. io. sit. 的錯誤率已降至 3.5%。. Ch. 圖 2.5. engchi. i n U. v. Inception 模型架構[16]. 12. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(24) 立. 圖 2.6. 政治大 Inception V3 模型架構[18]. ‧ 國. 學. 直到 2017 年，Google 對 Incption V3 架構進行了修改，提出 Xception 模型，. ‧. 核心概念來自於同一年提出的 MobileNets[20]，做出深度可分離的卷積，Xception. sit. y. Nat. 模型以原始 Inception V3 架構為基礎，去除平均池化層後，得到一個簡易的. al. er. io. Inception V3 模型，再將所有的 1x1 卷積核的每個通道接上 3x3 的卷積核並將結. v. n. 果融合，如圖 2.7 所示，並以此建立 Xception 的模型架構。由圖 2.8 的各類模型. Ch. engchi. i n U. 準確度與參數量比較中，雖然 Xception 並非準確度最高的模型，但由於其使用參數量與準確率更高的 InceptionResNetV2 與 NASNetLarge 相比差距二到四倍，綜合考慮模型速度與準確度，本研究決定使用 Xception 作為特徵擷取的訓練模型。. 13. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(25) 政治大立圖 2.7 Xception Block[20] ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. 圖 2.8. Ch. engchi. i n U. v. 各種 CNN 模型準確度與參數量比較[1]. 14. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(26) 2.2.2 詞袋簡介在處理文本資料時，總是有數不清的雜訊混在自己擁有的資料中，即使經過層層篩選，所得到的結果也未必是想要尋找的目標，因此 Harris 於 1954 年提出詞袋模型（Bag of Words Model，BOW Model）[22]，應用在自然語言處理（Natural Language Processing）和資訊檢索（Information Retrieval）上，核心概念是將文本中出現的詞彙視為獨立的物件，不去探討語法與語序問題，將其當作一個詞彙的集合，也就是以一「袋」各自獨立的「詞彙」表達一段文字或文章，可用於計算文本中的詞彙組成與特徵，讓人們可以更加有效的歸納出文字資料的特性，進一. 政治大. 步分析其中的內容。. 立. 2.2.3 Word2Vec. ‧ 國. 學. 在自然語言處理技術中，為了進行單詞的語意推測、句子情感分析等應用，. ‧. 使用涵蓋上下文的資料是比較有效的訓練方法，詞向量（Word Vector）的概念就. y. Nat. 此出現，也就是將原始文本內容轉化為向量格式，計算出向量空間的相似度，表. er. io. sit. 示詞與詞之間的距離，這項經過數值化的資料會使語意相近的詞彙在向量空間中的距離相對接近，而語意無關的詞彙則相距較遠，如此一來，便可依照需求制訂. n. al. Ch. 所需的條件進行文本分析，示意圖如圖 2.9。. 圖 2.9. engchi. i n U. v. 詞向量，取自[23]. 15. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(27) Google 在 2013 年提出了深度學習模型 Word2vec [24] ，能夠根據輸入的詞向量計算語意距離，Word2vec 的模型結構如圖 2.10 所示，分為 CBOW model （Continuous Bag-Of-Words，連續詞袋模型）和 Skip-Gram model，兩個模型都包含了輸入層（Input）、投影層（Projection）、輸出層（Output）三層架構，CBOW 模型可在已知當前詞彙上下文的前提下進行當前詞彙預測，而 Skip-Gram 則相反，是在已知當前詞彙的狀態下預測上下文，接著將結果投影到座標空間中，得出其數值向量，最後再透過霍夫曼樹對每一段文字進行編碼，作為此神經網路的輸出。. 政治大. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. 圖 2.10. engchi. i n U. v. Word2vec 模型架構[24]. 2.2.4 階層式分群演算法階層式分群演算法是一種階層式架構，將資料視為群集（Cluster），透過將其反覆聚合或分裂，由下而上將彼此相似度高的小群集合併成大群集，或是由上而下將大群集分裂成數個小群集，最後得到一個樹狀結構圖以表示群集間彼此的. 16. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(28) 關係，也可利用此樹狀結構依使用者需求做群集的彈性調整，使資料集合產生不同的群集數量，以圖 2.11 舉例：當要求輸出三個群集時，便將門檻值（Threshold）設於 t4 與 t5 之間，即可分成（A,B）、（C,D）、（E,F,G）三群。. 政治大. 圖 2.11. 學. 階層式分群法樹狀結構圖. ‧. ‧ 國. 立. sit. y. Nat. 階層式分群演算法的作法是先將每一筆資料視為一個群聚，然後在所有群聚. al. er. io. 之間找出距離最接近的兩個群聚𝐶𝑖 、𝐶𝑗 ，並將其合併為一個群組，接著重複此步. v. n. 驟使群集數目逐漸下降，直到群集數量符合欲產生的群集數量為止。另外，距離. Ch. engchi. i n U. 最接近的兩個群組有不同的定義方式，如圖 2.12 所示，每種定義方式也會得到不同的結果。. 17. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(29) 圖 2.12. 政治大. 四種階層式分群方法群聚間相似度計算方式示意圖[25]. 立. 常見的幾種定義方式為單一連結聚合演算法（Single-linkage Agglomerative. ‧ 國. 學. Algorithm）、完整連結聚合演算法（Complete-linkage Agglomerative Algorithm）、. ‧. 平均連結聚合演算法（Average-linkage Agglomerative Algorithm）與沃德法（Ward's. y. Nat. Method）四種，詳細資訊整理如表 2.1，不同方式得到的結果也不盡相同，例如. er. io. sit. 單一連結聚合演算法會在群聚的過程中突顯比較特別的群集，產生大者恆大的效果；而完整連結聚合演算法與平均連結聚合演算法則容易產生齊頭並進的效果；. al. n. v i n 沃德法能使群集內總變異數產生最小增量的個體優先合併，愈早合併的個體表示 Ch engchi U 彼此之間的相似性愈高，此四種方法中以沃德法較符合本論文之研究，因此選用此聚合分群演算法作為群聚間距離計算之公式。. 演算法名稱. 群聚間距離定義. 單一連結聚合演算法. 不同群聚中最接近. (Single-linkage). 兩點間的距離. 完整連結聚合演算法. 不同群聚中最遠兩. (Complete-linkage). 點間的距離. 數學公式 d(𝐶𝑖 , 𝐶𝑗 ) =. min. 𝑎∈𝐶𝑖 ,𝑏∈𝐶𝑗. 𝑑(𝑎, 𝑏). d(𝐶𝑖 , 𝐶𝑗 ) = max 𝑑(𝑎, 𝑏) 𝑎∈𝐶𝑖 ,𝑏∈𝐶𝑗. 18. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(30) 𝑑(𝑎,𝑏). 不同群聚間各點與. d(𝐶𝑖 , 𝐶𝑗 ) = ∑𝑎∈𝐶𝑖 ,𝑏∈𝐶𝑗 |𝐶 ||𝐶. 各點間距離總和的. where |Ci| and |Cj| are the sizes for Ci. 平均. and Cj, respectively.. 𝑖. 平均連結聚合演算法 (Average-linkage). 𝑗|. 將兩群合併後，各 d(𝐶𝑖 , 𝐶𝑗 ) =∑𝑎∈𝐶𝑖 ∪𝐶𝑗 ‖𝑎 − 𝜇‖. 沃德法點到合併後的群中. where μ is the mean vector of Ci∪Cj.. (Ward's method) 心的距離平方和表 2.1. 2.2.5. t-SNE. 立. 聚合式階層分群演算法. 政治大. t-SNE 全名為 t-distributed Stochastic Neighbor Embedding，由 Maaten 與. ‧ 國. 學. Hinton 於 2008 年提出，是一種用於降維的非線性機器學習演算法，適合將高維度數據降至二維或三維，並進行視覺化，t-SNE 起初由 Hinton 和 Roweis 於 2002. ‧. 年提出的 SNE（Stochastic Neighbor Embedding）[27]發展而來，SNE 會建構一個. sit. y. Nat. 高維度資料之間的機率分佈圖，使得內容相似的資料有更高的機率被選擇，而內. n. al. 機率分佈，使得這兩種機率分佈之間盡可能的相似。. Ch. engchi. er. io. 容不相似的資料有較低的機率被選擇，接著在低維度空間中再建立這些資料點的. i n U. v. SNE 雖然提供了很好的可視化方法，但在優化上卻有一定的難度，而且存在擁擠問題（Crowding Problem），也就是各個分群聚集在一起，無法區分，因此 Hinton 等學者又提出 t-SNE 的方法，使用對稱的 SNE 簡化了梯度公式，並在低維空間下，使用 t 分佈替代高斯分佈表達兩點之間的相似度，t 分佈是無限多個高斯分佈的疊加，計算上不是指數的，與高斯分佈相較之下方便許多，有效達成梯度的優化，也使得 t-SNE 擁有兩大優勢：其一是對於不相似的資料點，僅需較小的距離即可產生較大的梯度讓這些資料點互相排斥開來，形成分群的現象，再者，這種排斥又不會無限大，以避免不相似的點距離太遠。使用 t-SNE 演算法將資料進行降維並視覺化的效果如圖 2.13 所示，可從中看出不同的集群以不同顏. 19. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(31) 色標註，彼此之間也有保持一定距離，讓人一目瞭然分群的結果，因此本研究將採用此 t-SNE 演算法呈現最後的成果。. 政治大. 立. n. er. io. al. t-SNE 視覺化效果[26]. sit. y. ‧. ‧ 國. 學. Nat. 圖 2.13. Ch. engchi. i n U. v. 本論文中，我們參考 Hu 等學者的分類方法[15]，根據原始資料探討文字與圖片的資料類型，並以此作為實作理論的基礎，接著將文字與圖片內容透過對應的深度學習訓練模型抽取特徵，找出觀光與非觀光的定義，最後使用階層式分群演算法將資料內容進行分群，並將結果視覺化。由於本研究使用的資料數目龐大，因此非常適合作為深度學習的訓練資料，並以此分析大量圖文內容之間的關聯。. 20. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(32) 第三章資料集資料集的大小與整潔度在深度學習領域中扮演非常重要的角色，一個好的訓練模型必須擁有相當龐大且乾淨的資料集。Twitter 身為一個社群平台，當中所出現的圖片多為人們的日常生活照，或是從各種裝置上的截圖等，但由於 Twitter 的資訊量相當龐大，蒐集資料不可能用一筆筆下載的方式，因此本研究使用 fftcat 這套 Open source 工具[28]，利用 Twitter 的 Search API 來取得推文資料，再將這些資料由非結構化的 JSON 檔轉成結構化資料存在關聯性資料庫（MySQL）. 政治大. 中，圖片資料的蒐集方式則是使用 cURL 指令模擬瀏覽器取得圖片路徑網址的圖. 立. 片。. ‧ 國. 學. 本研究的資料集取自 2017 年間共 12 個月的 Twitter 推文，用來過濾的關鍵字為「台灣」、「Taiwan」、「台湾」，每個月的推文原始資料包含每篇貼文的. ‧. hashtags 資料與影像資料，hashtags 資料包含 hashtag 編號（id）、推文編號. Nat. sit. y. （tweet_id）、推文產生日期（created_at）、推文者名稱（from_user_name）、推. n. al. er. io. 文者編號（from_user_id）、hashtag 內容（text）六個欄位，範例如圖 3.1 所示；. i n U. v. 影像資料則包含圖片編號（id）、推文編號（tweet_id）、推文短網址（url）、推. Ch. engchi. 文網址（url_expand）、影像網址（media_url_https）、影像類型（media_type）、影像寬度（photo_size_width）、影像高度（photo_size_height）、影像大小調整（photo_resize）、內文開頭位置（indice_start）、內文結尾位置（indice_end）共 11 個欄位，範例如圖 3.2 所示。原始資料中 hashtags 的數量一共有 13146758 筆，計算方式是以一個 hashtag 做為一筆資料，影像資料有 8472804 筆，計算方式是以一張圖片或影片做為一筆資料，舉例來說，一則推文包含三個 hashtags，那麼該推文的 hashtags 資料便會有三筆，同理當一則推文包含兩張圖片，那麼該推文的影像資料便會有兩筆，以此類推，表 3.1 為推文的原始資料統計結果。. 21. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(33) 圖 3.1. hashtags 資料範例. 治政影像資料範例大. 圖 3.2. 學. ‧ 國. 立. 影像資料筆數. 2017_1. 804924 筆. 415982 筆. 2017_2. 844995 筆. 649131 筆. 985887 筆. 575957 筆. 1004325 筆. 619548 筆. al. y. sit. io. 2017_4. er. 2017_3. ‧. Hashtags 筆數. Nat. 資料月份. iv 筆 927769 n U. 2017_6. 775703 筆. 672835 筆. 2017_7. 1003532 筆. 815841 筆. 2017_8. 874553 筆. 610236 筆. 2017_9. 835446 筆. 586567 筆. 2017_10. 2991258 筆. 1357188 筆. 2017_11. 1236088 筆. 693391 筆. 2017_12. 846246 筆. 548359 筆. 全年總合. 13146758 筆. 8472804 筆. n. 943801 筆. 2017_5. 表 3.1. Ch. engchi. 2017 年 Twitter 推文原始資料 22. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(34) 然而，根據每個使用者發文的習慣與內容形式不一，使得原始資料中不是每篇推文都同時擁有 hashtags 與圖片，造成有些推文僅有文字，有些推文僅有圖片，有些推文則圖文並茂三種現象，為了後續訓練的一致性，必須確保用來訓練的資料得同時擁有文字與圖片內容，因此本研究將 hashtags 資料與影像資料進行合併並刪除不必要的欄位，最後留下推文編號（tweet_id）、影像編號（image_id）與 hashtag 內容（text）三個欄位，以圖 3.3 舉例，每一筆資料表示一則推文，由第一筆資料可知該推文發了一張圖片，並擁有「高美湿地、絶景、台湾のウユニ塩湖、台中、夕日」五個 hashtags，最後一筆資料在影像編號（image_id）欄位擁有. 政治大台湾、観光、台南旅行、Tainan、Tainantravel、Taiwan」七個 hashtags。立. 三個影像編號，表示該則推文一共發了三張圖片，並在其推文內容中擁有「台南、. 經過前述資料整理的步驟得到的結果便為本研究的文字資料集，數量為. ‧ 國. 學. 3359406 筆，而這些圖文並行的推文資料在原始資料中佔了約 26%，各個月份資. ‧. 料筆數如表 3.2 所示。本研究的圖片原始資料是根據影像資料中的影像網址. y. Nat. （media_utl_https）欄位中擷取出來，並移除檔案為影片的資料，再進行去除檔. er. io. sit. 案毀損與空白圖片的前處理，完成後的數量如表 3.2 所示，數量為 1288078 張，其中除了檔案毀損之外，可能還會發生網址本身無法存取，甚至因為被多次轉推. al. n. v i n 的關係使得原始資料中有許多不同的推文編號（tweet_ id）但影像編號（image_id） Ch engchi U 卻相同，導致數量與原始資料有不小的差距。. 圖 3.3. 文字資料範例. 23. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(35) 資料月份. 文字資料筆數. 圖片張數/大小. 2017_1. 167936 筆. 94843 張 / 10 G. 2017_2. 250832 筆. 102572 張 / 12 G. 2017_3. 243490 筆. 136805 張 / 15 G. 2017_4. 292576 筆. 111507 張 / 13 G. 2017_5. 229716 筆. 73106 張 / 8 G. 2017_6. 181128 筆. 99157 張 / 11 G. 2017_7. 257652 筆. 101188 張 / 12 G. 2017_8. 195108 筆. 立. 2017_9. 99769 張 / 12 G 政治大 179406 筆 103482 張 / 12 G 164604 張 / 20 G. 2017_11. 395258 筆. 111065 張 / 13 G. 2017_12. 179896 筆. 89979 張 / 11 G. 全年總合. 3359406 筆. 1288078 張 / 149 G. sit. Nat. y. ‧. ‧ 國. 786408 筆. 學. 2017_10. 2017 年 Twitter 圖片原始資料數量. io. er. 表 3.2. al. n. v i n Ch 此章節將講解圖文的類別定義標準，包含隸屬於觀光與非觀光類別下的各種 engchi U 圖文類型，本研究以 Hu[15]等學者所定義出的八種類別（Friends、Food、Gadgets、 Captioned Photos、Pets、Activities、Self-portraits、Fashion）作為分類基礎，根據資料集常見的圖文類型，定義出觀光與非觀光類下的各個子類別，做為本研究的 ground truth。不同於一般影像分類，這些 ground truth 是經過資料集觀察後得到的結果，因此在本研究中是當作一個起始的標準，會隨著實驗的進行而出現更多樣化的內容，未來也會視情況將類別進行增減，以因應各種需求上的變動。. 24. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(36) 3.1 觀光類別此類別主要涵蓋人們在旅遊時會發的圖文類型，像是知名旅遊景點的合照、吃到好吃的在地美食、路上看到的有趣景象等，都屬於觀光類別，一共有食物、動物、地標、住宿、交通、風景、街景、鳥瞰、煙火九個小類別，以下將介紹各個子類別的定義標準以及圖文範例，文字範例的格式表示一則推文內出現的所有 hashtags。. 3.1.1 食物類. 政治大多人喜歡在享用美食前幫食物拍照作為留念，尤其是觀光客，在吃到當地的美食立台灣的美食種類豐富，幾乎每個地區都有各自的特色小吃，而且現在越來越. ‧ 國. 學. 後，拍照上傳的同時標註地名更能顯示自己融入在地文化。本資料集中食物類照片有一般食物與飲品兩種，判斷依據是圖片中是否出現食物或飲料，較為普遍的. ‧. 台灣當地美食有小籠包、滷肉飯、牛肉麵、珍珠奶茶等，如圖 3.3 所示，文字資. y. sit. n. al. er. io. 表 3.3 所示。. Nat. 料通常會出現各種食物的名稱、當地地名或店家名稱、使用者對其的評價等，如. Ch. 圖 3.4. engchi. i n U. v. 食物類圖片範例. 25. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(37) 一則推文中出現的 hashtags icemonster, 台湾, 台北, 本店, アイスモンスター台湾, 鼎泰豊, 小籠包, Taiwan, 台湾旅行 taipei, Taiwan, foodie, hotpot therapeutic, BuBBleTea, Taiwan, Taipei, taipeifoodie 表 3.3. 食物類文字範例. 3.1.2 動物類有些觀光客會拍下在旅遊途中遇到的動物，可能是店家養的寵物，或是路上看到的有趣情景，也有些人來到台灣會到安排去動物園或是各種渡假農場的行程，. 治政大 3.4，文字資料中則多因此本資料集中也出現了各式各樣的動物圖文，範例如圖立會出現該種動物的名稱、旅行地點等，如表 3.4 所示。 ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. 圖 3.5. i n U. 動物類圖片範例. engchi. v. 一則推文中出現的 hashtags shibainu, shiba, animal, taiwan, tw, taichung, tc, dog, cat, 柴犬, pet composition, cat, houtongcatvillage, taiwan, travel, travelgram Taipei, Zoo, panda, TaipeiZoo, Taiwan 台湾, Taiwan, 台北, taipei, 台湾旅行, 旅行, 写真, 九份, 夜景, 猫表 3.4. 動物類文字範例. 26. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(38) 3.1.3 地標類台灣擁有多元的文化背景，各種不同風格的建築也因應而生，而擁有特殊外觀的建築或雕像，由於其強烈的識別度因此可成為景點中的地標，除了讓現場遊客留下深刻印象，也可讓人們僅透過照片就能得知這是在哪個地理位置特有的標誌性建築，本資料集中只要圖片有出現這些地標就會歸類進此類別，常出現的有中正紀念堂、101 大樓、各類車站的外觀建築等，如圖 3.5 所示，文字資料中則是會出現地名、該地標名稱等，如表 3.5 所示。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. al. 地標類圖片範例. Ch. sit. y. Nat. 圖 3.6. engchi. i n U. v. 一則推文中出現的 hashtags. 台湾, 台北 101, 夜景, peakfarmJP, peaklifeJP 台湾, 中正記念堂, taiwan, taipei, trip 台湾, 台北, 九份, 九份老街台湾, 台北 101, LOVE, マリカメラマン, 台湾旅行表 3.5. 地標類文字範例. 27. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(39) 3.1.4 住宿類台灣國內外旅遊的次數頻繁，有些人會以住宿的房間作為自己正在旅遊的證明，也有些民宿會將自家內部裝潢得別具一番特色，吸引遊客前往，因此住宿房間也是觀光的指標性照片之一，如圖 3.6 所示，文字資料通常會出現地名、旅館或飯店名稱等，如表 3.6 所示。. 一則推文中出現的 hashtags. 學. ‧ 國. 政治大立圖 3.7 住宿類圖片範例 ‧. 台湾, 台北, TaiwanYouthHostelAndCapsuleHotel. taiwan, trip, travel, resort, hotel, 台南, 富信大飯店. Nat. sit. y. taiwan, resort, trip, travel, taipei, hotel, 大路觀樂園酒店. er. io. taiwan, resort, trip, travel, taipei, hotel, 歐華酒店. n. a l表 3.6 住宿類文字範例 i v n Ch U engchi. 3.1.5 交通類台灣的觀光客人數眾多，不少人喜歡拍下旅途中的點點滴滴，並上傳到社群平台上紀錄，基於此種行為，可從圖片資料集觀察到由飛機座位往窗外拍出的照片，表示拍照的人當時正坐在飛機上，作為一趟旅程的起點或是終點，同時也會在文字內容標上 goodbye、hello 等對國家的招呼語，另外台北捷運時常出現的主題廣告車廂，也成為觀光客發文的對象，於各個捷運或火車站內以及機場內部所拍出的照片也屬於此類別，如下圖 3.7 所示，文字資料則會出現推文者當時所乘坐的交通工具名稱、或是所在機場、車站名稱等等，範例如表 3.7 所示。. 28. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(40) 圖 3.8. 交通類圖片範例. 政治大台北, taipei, 台灣, taiwan, 立 airport, goodbye, byebye, unhappy, 桃園國際機場一則推文中出現的 hashtags. ‧ 國. 學. taiwan, taipei, MRT, 台湾, 台北, 交通, 交通手段. 台湾, 台北, 観光, MRT, 悠遊カード, 乗り放題, 一日乗車券, 台北観光パスポート, 払い戻し, Taipei. n. al. y er. io 3.1.6 風景類. 交通類文字範例. sit. Nat. 表 3.7. ‧. taipei, taiwan, taoyuanairport, holiday. Ch. engchi. i n U. v. 台灣的腹地雖小，卻擁有各式各樣的風景，風景類別的照片以自然景觀為主，圖片內容通常會有一大片色調相近的區域，像是山林、海洋、天空等自然景觀照片皆有此特徵，範例如圖 3.8 所示，文字資料中則多為出現地名或景觀的 hashtags，如表 3.8 所示。. 29. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(41) 圖 3.9. 風景類圖片範例. 政治大立一則推文中出現的 hashtags. みんな, こんばんは, 海の声, 景, 空, イマソラ, 台湾, 台北. ‧ 國. 學. 台湾, 新北, 観光, 坪林, お茶の産地, 写真好きな人, 台湾旅行 JiamingLake, Jiaminghu, 嘉明湖, Taitung, Taiwan. 風景類文字範例. er. io. sit. Nat. 表 3.8. y. ‧. anping, tainan, Taiwan. al. n. v i n Ch 每個國家都有各自的建築特色，藉由街道的景色便能得知拍攝的國家位置， engchi U. 3.1.7 街景類. 台灣的街道特色之一便是招牌林立，加上潮濕多雨的氣候因此各地的皆可看見騎樓，房屋類型則多為公寓且密集度高，圖片範例如圖 3.9 所示，文字資料部分則多出現地名、街道或建築相關詞彙等，如表 3.9 所示。. 30. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(42) 圖 3.10. 街景類圖片範例. 一則推文中出現的 hashtags 台北, 台湾, 一人旅 photography, taipei, NOFILTER. 政治大 taipei, taiwan, travel, travelgram, architecture 立表 3.9 街景類文字範例 taiwan, taipei, streetphotography. ‧. ‧ 國. 學. 3.1.8 鳥瞰類. y. Nat. er. io. sit. 鳥瞰表示攝影的高度相對較高的狀態所拍出的照片，此種類型的照片可看見大範圍的城市樣貌，跟街景類的區隔在鳥瞰的拍攝距離無法看清街道上的行人、. n. al. Ch. i n U. v. 汽機車等小飾物，本資料集常見的圖片為從高樓或山區觀賞的白天城市景色與夜. engchi. 景，範例如圖 3.10 所示，文字部分通常多為城市名稱、夜景相關詞彙、或是觀賞夜景的地點等，如表 3.10 所示。. 圖 3.11. 鳥瞰類圖片範例. 31. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(43) 一則推文中出現的 hashtags 台北, 台湾, 夜景, 夜景ら部 taiwan, taipei, iphone7plus, nightview christmas, panchiao, banqiao, nightview, 板橋區, taipei, newtaipei, taiwan, 台北, 台灣, 新北市 cny, taipei, taiwan, nightview, chinesenewyear, citylife, holiday 表 3.10. 鳥瞰類文字範例. 3.1.9 煙火類台灣一年當中有許多節慶活動會施放煙火來慶祝，像是國慶日、跨年、煙火. 政治大. 節等，經過資料的隨機抽樣並人工篩選後，發現此類型數量佔有一定比例，故獨. 立. 立出一類，如圖 3.11 所示，文字部分則會常常出現施放煙火的地點以及煙火相. ‧ 國. 學. 關的詞彙，如表 3.11 所示。. ‧. n. er. io. sit. y. Nat. al. Ch. 圖 3.12. i n U. v. e煙火類圖片範例 ngchi. 一則推文中出現的 hashtags Taipei101, taiwan, happynewyear, happy2017, Fireworks Fireworks, Taiwan, Kaohsiung, ExploreTaiwan 高雄, 花火大会澎湖, 澎湖島, 澎湖はいいぞ, ポンフー, 海, 花火, 花火大会, 花火節, 台湾表 3.11. 煙火類文字範例. 32. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(44) 3.2 非觀光類別社群平台上的內容相當複雜，即使本研究在 Twitter 蒐集資料時已事先用關鍵字進行過濾，讓資料集內容皆為包含台灣關鍵字的貼文，但這些資料除了觀光類型以外，同時也包含了政治議題、偶像動態、圖文創作等必定與觀光無關的貼文，因此本研究將這些類型的圖片定義為非觀光類別，即訓練資料的負樣本，包含人像、文字、新聞政治、偶像、插畫五個子類別，非觀光類的子類別數量也會與觀光類相同，在將來可因應需求而進行增減，以下將介紹非觀光類的子類別圖文定義標準。. 立. 3.2.1 偶像類. 政治大. ‧ 國. 學. 演藝流行趨勢一直以來都是人們喜歡追求的娛樂之一，台灣近年來又以韓國明星的相關動態最受矚目，當有明星來台舉辦演唱會或粉絲見面會時，該月份的. ‧. 推文流量便會大幅提高，圖片數量也會連帶受到影響，舉表 3.1 為例，十月份的. sit. y. Nat. 圖片數量之所以多達 12 萬張，是因為根據文字資料得知當月有 Wanna One、防. al. er. io. 彈少年團兩個人氣團體來台而造成推文流量激增，此類別的圖片內容多為演唱會. v. n. 照片、偶像的舞台特寫照，如圖 3.12 所示，文字資料則多為藝人名稱、團體團員名稱等，如表 3.12 所示。. Ch. engchi. 圖 3.13. i n U. 偶像類圖片範例 33. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(45) 一則推文中出現的 hashtags BTS, JIN, 석진, 진, worldwidehandsome 박지훈, 워너원, 윙깅이건, WANNAONE, PARKJIHOON, WANNAONEinTaiwan 여자친구, GFRIEND, 예린, Yerin. Taeyeon, 태연 表 3.12. 偶像類文字範例. 政治大政治一直都是人們討論度相當高的話題之一，與台灣相關的政治議題包含了立. 3.2.2 政治新聞類. ‧ 國. 學. 總統的各種發言與行程，還有一些與台灣較有政治交流的國家，例如中國大陸、日本、美國，此類別的圖片內容多為國家元首、軍武、國際會議相關、國內政治. ‧. 動態等新聞媒體的影像截圖，如圖 3.13 所示，文字資料通時會出現元首名稱、新. n. al. er. io. sit. y. Nat. 聞台名稱、政治相關詞彙等等，如表 3.13 所示。. Ch. 圖 3.14. engchi. i n U. v. 政治類圖片範例. 34. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(46) 一則推文中出現的 hashtags Taiwan, FTA, UK, TsaiIngwen, TaiwanUKRelations taiwan, president DonaldTrump, China, taiwan China, US, Trump, OneChina, ForeignPolicy 表 3.13. 政治類文字範例. 3.2.3 人像類如今人手一支智慧型手機已經是一件稀鬆平常的事，有些人更是不論走到哪都會拍自拍照，此類圖片主體為人物，人數通常為一至二人，但在整張照片的比. 治政大例往往占了 70%以上，因此即使照片的所在地是觀光景點，也難以讓人辨認，故立將其納入非觀光類型，圖片類型為自拍照外和全身照，自拍照除了一般使用者， ‧ 國. 學. 也包含有些偶像明星為了跟粉絲互動而經營的社群帳號所發出的自拍照，除此之. ‧. 外還有專業攝影團隊或時尚報章雜誌所拍攝的沙龍照，範例如圖 3.14 所示，文字內容通常會出現該名偶像的名稱、攝影團隊名稱、時尚流行有關的報章雜誌名. y. Nat. n. al. er. io. sit. 稱等，如表 3.14 所示。. Ch. 圖 3.15. engchi. i n U. v. 人像類圖片範例. 35. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(47) 一則推文中出現的 hashtags Taiwan, blogger, OOTD, style, rbf, mondaymotivation 755 アプリ, 久保怜音, 馬嘉伶, AKB48, 台湾 GongHyoJin, 공효진, KongHyoJin, Dior, VogueKorea, Style, Fashion BTS, Taiwan, ARMY, missyouJimin, JIMIN 表 3.14. 人像類文字範例. 3.2.4 文字類文字類的定義為圖片中是否有出現文字，來源多為報章雜誌、看板、票劵、. 政治大. 手機截圖等，內容多為一個字或是一句話，甚至是一篇文章，為了傳遞消息給有. 立. 興趣的人知道，如圖 3.15 所示，文字內容多為報章雜誌名稱、票劵名稱、或是圖. ‧ 國. 學. 片中的文字內容等，如表 3.15 所示。. ‧. n. er. io. sit. y. Nat. al. Ch. 圖 3.16. i n U. v. e文字類圖片範例 ngchi. 一則推文中出現的 hashtags SMAP, SMAP デビュー祝 25 周年 김유정, 金裕貞, kimyoojung, kimyoujung, kimyoujung_taiwan_fan_club, 金裕貞台灣應援首站 워너원, WANNAONE Taiwan, USA 表 3.15. 文字類文字範例 36. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(48) 3.2.5 非寫實類社群網站上的圖片除了實景照片外，也有許多非寫實照片，像是插畫、網頁或新聞畫面截圖、宣傳海報等等，這種類型的圖片通常是為了傳達抽象訊息或純粹藝術創作分享，範例如圖 3.16 所示，文字資料內容通常會以該圖片所要傳達的意義為主，若為藝術創作類型的圖則會出現藝術相關的詞彙，如表 3.16 所示。. 立. 政治大. 非寫實類圖片範例. er. io. sit. y. ‧. ‧ 國. 學. Nat. 圖 3.17. n. al. i n C 一則推文中出現的 h e n g c hhashtags i U. v. painting, symbolism, Taiwan. 手繪, 插畫, illustration, illustrator, onejing_illustrations, ibispaintx, taiwan, painting, drawing watercolor, breakfast, taiwan, taiwanway, illustration, drawing LINE 貼圖, LINETaiwan, LINEstickers, HongKong, taiwan, stickerLINE 表 3.16. 文字類文字範例. 37. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(49) 3.2.6 色情類由於最初蒐集資料時並未做額外的過濾設定，經過觀察後才發現有些 Twitter 帳號會專門發此種類型的照片，並在資料集中佔了一定比例，但因為色情類照片並非本研究主軸，若將其留到後面的分類會影響資料集的整潔度，故獨立成一類，同樣使用深度學習相關方法對色情圖片進行過濾，並統計數量，大約了解占比即可。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 38. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(50) 第四章研究方法此章節將介紹本研究的研究方法，共有使用工具、實驗流程兩個部分，首先介紹本研究使用的工具，接著在實驗流程部分講解本研究的資料清洗過程與用來分類觀光與非觀光圖文的模型架構與訓練方法。. 4.1 使用工具此小節將介紹本研究中包含資料集前處理以及後續實驗所用的工具，以下會. 政治大. 描述各個工具的基本功能，至於在本研究中的實際應用則會在後續實驗流程的小. 立. 節中進行解說。. ‧. ‧ 國. 學. 4.1.1 AllDup. 一款重複圖片處理工具，可設定相似度門檻值並將路徑下的檔案進行比對，. y. Nat. io. sit. 最後列出所有結果，如圖 4.1 所示，左半部顯示比對結果的組別，每組以第一張. n. al. er. 圖片為代表，與其相似的圖片都會列入同一個組別中，右半邊則是預覽每組圖片. Ch. i n U. v. 的內容。得到結果後再依照使用者需求對重複的圖片進行刪除、移動、改名等自. engchi. 動處理，最大的優點是可直接將比對結果資料匯出，格式如圖 4.2，記錄每組編號、數量、檔名等資訊，有助於追蹤圖片的關聯性。. 39. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(51) 立. 圖 4.1. 政治大 AllDup 重複圖片比對結果. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. 圖 4.2. Ch. engchi. i n U. v. AllDup 匯出的 csv 檔格式. 4.1.2 Google Cloud Vision API[1] 由 Google 開發的圖像辨識工具，本研究使用的是 Safe Search Detection API，根據官方說明[29]可知，此 API 即為常聽到的 Google 安全搜尋功能，可自動過濾色情和具有潛在冒犯性的內容，API 資料欄位共分為醫藥（Medical）、欺騙（Spoofed）、武力（Violence）、成人（Adult）四個類別，按照每個類別的符合程度以 VERY_LIKELY、LIKELY、POSSIBLE、UNLIKELY、VERY_UNLIKEY、 UNKNOWN 六個級別區分。 40. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(52) 醫藥（Medical）圖像分類包含明確的疾病症狀、身體器官等特寫照，由於畫面傾向血腥，容易造成身心上的不適，因此是安全搜尋所需過慮的類別之一，但如果是一般的醫療程序畫面則不會被定義為醫藥類別；欺騙（Spoofed）分類主要是偵測含有諷刺或不雅暗示的圖片，由於這些內容通常是為了傳達某種現象、想法或特殊涵義，但會跟實際圖片所表達的有所出入，容易誤導想法，如圖 4.3 所示；武力（Violence）分類則是偵測與暴力、戰爭有關的圖片，內容可能是描繪殺戮、射擊等血腥的照片，如圖 4.4 所示。本研究中僅使用偵測成人圖片（Adult）的部分，由官方說明文件可知，它們. 政治大. 可分辨出泳裝照與真正色情照的區別，並在二次元、插畫中也有顯著的表現，缺點是此工具必須付費。. 立. ‧. ‧ 國. 學 sit. n. al. er. io 圖 4.4. y. Nat 圖 4.3. i n U. v. 欺騙（Spoofed）類型圖片與其偵測熱區[29]. Ch. engchi. 武力（Violence）類型圖片與其偵測熱區[29]. 41. DOI:10.6814/THE.NCCU.CS.002.2019.B02.

(53) 4.1.3 Open NSFW[31] 由 Yahoo 釋出基於 Caffe0 環境下的開源工具 NSFW（Not Suitable For Work），顧名思義是可辨識出不適合作為電腦桌布的圖片，因此偵測標準相對嚴謹，從官方公布的文件可知，該工具會回傳一個評價分數，數值範圍落在 0 到 1 的區間，當分數為 0.8 以上表示是真的色情圖片，而分數若為 0.2 以下則是安全的圖片，不過即使有明確的分數定義，文件中仍然有免責聲明，表示因為不同研究所用的資料集內容不一，他們無法保證此工具的準確度是否合乎使用者的標準，而且在二次元圖片的效果可能會表現得比較不好，若對分析結果不滿意，必須自行對模. 政治大細流程會在實驗流程的小節中提及。立. 型進行參數調整；對此我們將也進行了 Open NSFW 的使用測試並評估結果，詳. ‧ 國. 學. 4.2 實驗流程. ‧. 本研究的實驗首先會經過資料清洗，流程如圖 4.5 所示，此步驟是為了保持. sit. y. Nat. 資料集的整潔以利後續的訓練，包含去除重複圖片與色情圖片過濾，完成後才會. n. al. er. io. 進入模型訓練的部分。. Ch. engchi. 圖 4.5. i n U. v. 實驗流程. 42. DOI:10.6814/THE.NCCU.CS.002.2019.B02.