第三章 資料集
3.2 非觀光類別
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
3.2 非觀光類別
社群平台上的內容相當複雜,即使本研究在 Twitter 蒐集資料時已事先用關 鍵字進行過濾,讓資料集內容皆為包含台灣關鍵字的貼文,但這些資料除了觀光 類型以外,同時也包含了政治議題、偶像動態、圖文創作等必定與觀光無關的貼 文,因此本研究將這些類型的圖片定義為非觀光類別,即訓練資料的負樣本,包 含人像、文字、新聞政治、偶像、插畫五個子類別,非觀光類的子類別數量也會 與觀光類相同,在將來可因應需求而進行增減,以下將介紹非觀光類的子類別圖 文定義標準。
3.2.1 偶像類
演藝流行趨勢一直以來都是人們喜歡追求的娛樂之一,台灣近年來又以韓國 明星的相關動態最受矚目,當有明星來台舉辦演唱會或粉絲見面會時,該月份的 推文流量便會大幅提高,圖片數量也會連帶受到影響,舉表 3.1 為例,十月份的 圖片數量之所以多達 12 萬張,是因為根據文字資料得知當月有 Wanna One、防 彈少年團兩個人氣團體來台而造成推文流量激增,此類別的圖片內容多為演唱會 照片、偶像的舞台特寫照,如圖 3.12 所示,文字資料則多為藝人名稱、團體團員 名稱等,如表 3.12 所示。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
一則推文中出現的hashtags BTS, JIN, 석진, 진, worldwidehandsome
박지훈, 워너원, 윙깅이건, WANNAONE, PARKJIHOON, WANNAONEinTaiwan
여자친구, GFRIEND, 예린, Yerin
Taeyeon, 태연 表3.12 偶像類文字範例
3.2.2 政治新聞類
政治一直都是人們討論度相當高的話題之一,與台灣相關的政治議題包含了 總統的各種發言與行程,還有一些與台灣較有政治交流的國家,例如中國大陸、
日本、美國,此類別的圖片內容多為國家元首、軍武、國際會議相關、國內政治 動態等新聞媒體的影像截圖,如圖3.13 所示,文字資料通時會出現元首名稱、新 聞台名稱、政治相關詞彙等等,如表3.13 所示。
圖3.14 政治類圖片範例
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
一則推文中出現的hashtags
Taiwan, FTA, UK, TsaiIngwen, TaiwanUKRelations taiwan, president
DonaldTrump, China, taiwan
China, US, Trump, OneChina, ForeignPolicy 表3.13 政治類文字範例
3.2.3 人像類
如今人手一支智慧型手機已經是一件稀鬆平常的事,有些人更是不論走到哪 都會拍自拍照,此類圖片主體為人物,人數通常為一至二人,但在整張照片的比 例往往占了 70%以上,因此即使照片的所在地是觀光景點,也難以讓人辨認,故 將其納入非觀光類型,圖片類型為自拍照外和全身照,自拍照除了一般使用者,
也包含有些偶像明星為了跟粉絲互動而經營的社群帳號所發出的自拍照,除此之 外還有專業攝影團隊或時尚報章雜誌所拍攝的沙龍照,範例如圖 3.14 所示,文 字內容通常會出現該名偶像的名稱、攝影團隊名稱、時尚流行有關的報章雜誌名 稱等,如表 3.14 所示。
圖 3.15 人像類圖片範例
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
一則推文中出現的hashtags
Taiwan, blogger, OOTD, style, rbf, mondaymotivation 755 アプリ, 久保怜音, 馬嘉伶, AKB48, 台湾
GongHyoJin, 공효진, KongHyoJin, Dior, VogueKorea, Style, Fashion BTS, Taiwan, ARMY, missyouJimin, JIMIN
表3.14 人像類文字範例
3.2.4 文字類
文字類的定義為圖片中是否有出現文字,來源多為報章雜誌、看板、票劵、
手機截圖等,內容多為一個字或是一句話,甚至是一篇文章,為了傳遞消息給有 興趣的人知道,如圖 3.15 所示,文字內容多為報章雜誌名稱、票劵名稱、或是圖 片中的文字內容等,如表 3.15 所示。
圖 3.16 文字類圖片範例
一則推文中出現的hashtags SMAP, SMAP デビュー祝 25 周年
김유정, 金裕貞, kimyoojung, kimyoujung, kimyoujung_taiwan_fan_club, 金裕貞 台灣應援首站
워너원, WANNAONE Taiwan, USA 表3.15 文字類文字範例
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
3.2.5 非寫實類
社群網站上的圖片除了實景照片外,也有許多非寫實照片,像是插畫、網頁 或新聞畫面截圖、宣傳海報等等,這種類型的圖片通常是為了傳達抽象訊息或純 粹藝術創作分享,範例如圖 3.16 所示,文字資料內容通常會以該圖片所要傳達 的意義為主,若為藝術創作類型的圖則會出現藝術相關的詞彙,如表3.16 所示。
圖 3.17 非寫實類圖片範例
一則推文中出現的hashtags painting, symbolism, Taiwan
手繪, 插畫, illustration, illustrator, onejing_illustrations, ibispaintx, taiwan, painting, drawing
watercolor, breakfast, taiwan, taiwanway, illustration, drawing LINE 貼圖, LINETaiwan, LINEstickers, HongKong, taiwan, stickerLINE
表3.16 文字類文字範例
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
3.2.6 色情類
由於最初蒐集資料時並未做額外的過濾設定,經過觀察後才發現有些 Twitter 帳號會專門發此種類型的照片,並在資料集中佔了一定比例,但因為色情類照片 並非本研究主軸,若將其留到後面的分類會影響資料集的整潔度,故獨立成一類,
同樣使用深度學習相關方法對色情圖片進行過濾,並統計數量,大約了解占比即 可。