• 沒有找到結果。

世界城市的概念輪廓與連結:以Flickr Tags為例 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "世界城市的概念輪廓與連結:以Flickr Tags為例 - 政大學術集成"

Copied!
103
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學資訊科學系 Department of Computer Science National Chengchi University. 碩士論文 治 政 大. 立 Master’s Thesis. ‧ 國. 學. 世界城市的概念輪廓與連結:以 Flickr Tags 為例. ‧ sit. y. Nat. er. io. The World Cities Concept Profiling And Concatenation:. n. a l Study On Flickri Tags v A Case n C hengchi U. 研 究 生 : 曹期鈞 指 導 教 授 : 劉卲軒教 授. 中華民國一百零三年一月 January 2014.

(2) 世界城市的概念輪廓與連結:以 Flickr Tags 為例 The World Cities Concept Profiling And Concatenation:. A Case Study On Flickr Tags. 研 究 生:曹期鈞. Student:Chi-Chun Tsao. 指導教授:劉卲軒教授. Advisor:Jyi-Shane Liu. 立國. 政 治 大. ‧. ‧ 國. 學. 立 政 治 大 學 資 訊 科 學 系 碩 士 論 文. y. sit. Nat. A Thesis. io. er. Submitted to Department of Computer Science National Chengchi University. n. al. iv. n In partial fulfillment of theURequirements Ch en chi. for thegDegree of Master in. Computer Science. 中華民國一百零三年一月 January 2014.

(3) 世界城市的概念輪廓與連結:以 Flickr Tags 為例 中文摘要 在這社會網路蓬勃發展之中、網際網路頻寬與速度相繼提昇的資訊年代,結合 網路科技所衍生的 Flickr 網路相簿因應而生。Flickr 提供許多 API 程式讓使用者或 有興趣研究的專家學者能透過 Flickr 所收集及其所探討的議題,來觀察社會網路的 變化情形。. 治 政 社會網路主要是由節點以及節點間彼此相連結所形成,常見的網路模型大致可 大 立 分為 One-mode 與 Two-mode 兩種網路結構,而本文則採用內部同時有兩種類節點、 ‧ 國. 學. 由兩個城市與 Tags 共同組合而成的 Two-mode 網路為基礎架構,期望藉此來闡述. ‧. 一個 Tags 系統分析法,利用 Flickr 使用者收集、標註之 Flickr 標記來與世界城市. sit. y. Nat. 的概念輪廓相連結,透過提取城市語義分配給 Flickr 上照片的 Tags,以及解決. io. er. Part-Of-Speech (POS)、詞幹還原及雜訊處理…等問題,來達成依據排名結果分 析出城市概念輪廓的最終目的。. n. al. Ch. engchi. i Un. v. 除此之外,本文還運用了 Flickr tag 資料來彙整出 41 個城市的前 100 名 tag, 再篩選出前 10 名的 tag,將其與相關的城市歸類一起比較。本文亦使用字詞共現 指標(Tag co-occurrence)來計算與該城市的關聯性,再利用此法則來歸納出這兩 個城市字詞共同出現的機會,以便於了解城市與城市之間的關連字詞組合。最後, 本研究亦透過 Flickr 網站本身 Popular Tags 經由分析及匯出標籤雲的結果來與本文 之實驗結果相對照,本實驗 85%的吻合度驗證了可靠性。 關鍵字: 社會網路、標記系統、標籤類型、詞幹分析、字詞共現指標. I.

(4) The World Cities Concept Profiling Aad Concatenation: A Case Study on Flickr Tags Abstract The Flickr Web Albums was born in the information age of social network growth, internet bandwidth and speed improvement. Users and researchers can observe the changing of social network from topics collected and studied by Flickr using API programs provided by Flickr. The main structure of social network can be distinguished one-mode and two-mode network which is composed by nodes, generally. An approach for world cities concept. 政 治 大. profiling analysis is developed in this study by conbineing two types of nodes and two. 立. cities with tag which is the two-mode network using extracting city semantics for tags. ‧ 國. 學. assigned to photos on Flickr, solving Part-of-Speech(POS), Stemming reduction and. ‧. noise handing by collecting Flickr's tags from Flickr users.. sit. y. Nat. The top 100 tags were slected for 41 cities and then top 10 tags for each city were. n. al. er. io. also extracted. The Tag co-occurrence was also applied to analysis the relationship of. v. cities. Then the connection between the cities can be understood by the result of tag. Ch. engchi. i Un. co-occurrence opportunities. The 85% accurancy was demonstrated by comparing the result of analysised and exported Popular Tags from Flickr Website service and the result of experiments in this study.. Keywords: Social network,Tagging systems, POS, Stemming,Tag co-occurrence. II.

(5) 誌. 謝. 論文終於在此刻完成,在我的求學過程中,除了要感謝家人總是給予我最大 的支持和鼓勵,讓我可以沒有後顧之憂地完成研究所的學業,願與你們分享這份 喜悅和成就。但最重要必頇感謝的是我的指導教授劉教授卲軒,他以認真和耐心 與專業執導我論文寫作技巧,當我的論文出現瓶頸時,提供了相當多資料供我參 考,同時在研究方法與論文寫作上也給我很多建議,並指導我正確的思考方向及 解決問題的能力,從劉教授身上學習到工作所學不到的知識,並且在最關鍵的時 刻從中發現問題,指引我正確的方向。另外我還必頇感謝系上辛苦付出教過我的. 治 政 教授們,因為有這些教授安排充實的課程,才能讓我在研究所期間充分學習行動 大 立 計算與網路通訊、資料探勘與多媒體領域的相關知識,在此衷心地感謝教授們讓 ‧ 國. 學. 我在學習的路上走得更多元更有信心。. ‧. sit. y. Nat. 除了教授們之外,在研究所相處時間最多的當屬我的同一間知識系統實驗室. io. er. 的格致、伸卲、成發等。在研究方面,因為有大家的切磋及努力,讓我的才能思 考的更周全;在課業方面,你們的合作讓我吸收課程的精要,順利取得學分;在. al. n. iv n C 生活方面,學長姐與學弟妹互相幫助扶持,使實驗室充滿溫情。我們的實驗室隨 hengchi U. 時充滿歡笑,都是你們的功勞!謹以此文獻給我的家人與所有學習路上的同學, 謝謝你們的關心與照顧。. 曹期鈞 謹誌 於 2014.1. III.

(6) 目. 錄. 第一章 1.1 1.2 1.3 1.4 1.5 第二章 2.1 2.2. 緒論 .............................................................................................................. 1 研究背景 ........................................................................................................... 1 研究動機與目的 ............................................................................................... 2 研究資料 ........................................................................................................... 3 研究貢獻 ........................................................................................................... 4 論文架構 ........................................................................................................... 4 文獻探討 ...................................................................................................... 5 社會網路分析演變 ........................................................................................... 5 社會網路分析模型 ........................................................................................... 6 2.2.1 節點(Node) ...................................................................................... 7 2.2.2 中心度指標(Degree Centrality)....................................................... 7 2.2.3 近距中間度指標(Closeness Centrality) .......................................... 8 2.2.4 參與中間度指標(Betweenness Centrality) ................................... 10 2.3 Flickr Tags 分析 ............................................................................................... 11 2.3.1 標籤雲(Tags Cloud) ............................................................................ 12 2.3.2 Flickr API 架構介紹 ............................................................................ 13 2.3.3 Flickr API 圖形分類 ............................................................................ 14 2.3.4 Flickr Tag Clusters 分析....................................................................... 15 2.3.5 詞義分析 ............................................................................................. 16 2.3.5.1 POS 分析 ..................................................................................... 16 2.3.5.2 一字多義及多字一義分析 ........................................................ 17 2.4 Flickr 城市選擇分析 ...................................................................................... 18 2.4.1 全球網路連接(GNC) ..................................................................... 19 2.4.2 旅遊網站輔助分析 ............................................................................. 20 2.4.3 其他考量因素 ..................................................................................... 20 2.5 詞頻分析 ......................................................................................................... 22 2.5.1 TF-IDF 分析 ......................................................................................... 23 2.5.2 字詞共現指標(Tag co-occurrence)................................................ 24 第三章 研究方法與系統架構 ................................................................................ 27 3.1 研究架構 ......................................................................................................... 27 3.1.1 資料來源 ............................................................................................. 28 3.1.1.1 Flickr API 擷取資料介紹 ........................................................... 28 3.1.1.2 選擇 41 個城市分析 .................................................................. 29 3.1.1.3 區域分群 .................................................................................... 30 3.2 Flickr 資料處理步驟 ....................................................................................... 32 3.2.1 語言問題 ............................................................................................. 32 3.2.2 詞幹處理(Stemming) ..................................................................... 33. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. IV. i Un. v.

(7) 3.2.3 義同詞異合併 ..................................................................................... 35 3.2.4 抑制雜訊 ............................................................................................. 37 3.2.5 重複城市 ............................................................................................. 37 3.2.6 過濾門檻 ............................................................................................. 38 3.3 研究工具 ......................................................................................................... 38 3.3.1 NodeXL 介紹 ....................................................................................... 39 3.3.2 Gephi 介紹 ........................................................................................... 39 3.3.3 Stanford-Postagger 介紹 ...................................................................... 39 3.4 資料庫建置 ..................................................................................................... 40 3.5 權重加權分析 ................................................................................................. 47 第四章 實驗結果與評估 ........................................................................................ 49 4.1 Flickr 實驗資料 ............................................................................................... 49 4.1.1 實驗資料抽樣 ..................................................................................... 50 4.1.2 Flickr Tags POS 分析 .......................................................................... 50 4.1.3 Flickr 詞頻統計(Tags Frequency) .................................................. 51 4.1.3.1 41 個城市分析 ............................................................................ 52 4.1.3.2 以所有 Tag 總數分析 ................................................................ 54 4.1.4 Flickr 詞頻統計小結............................................................................ 59 4.2 挑選關鍵相片分析 ......................................................................................... 60 4.2.1 Flickr 區域分群.................................................................................... 60 4.2.1.1 America 城市分析 ...................................................................... 61 4.2.1.2 Europe 城市分析 ......................................................................... 63 4.2.1.3 Asia 城市分析 ............................................................................. 65 4.2.1.4 Oceania 城市分析 ....................................................................... 67 4.2.1.5 區域分群小結 ............................................................................ 69 4.3 字詞共現實驗分析 ......................................................................................... 70 4.3.1 建立無向共現網路 ............................................................................. 70 4.3.2 Flickr 所有城市字詞共現分析............................................................ 70 4.3.3 Flickr America 字詞共現分析 ............................................................. 75 4.3.4 Flickr Europe 字詞共現分析 ............................................................... 76 4.3.5 Flickr Asia 字詞共現分析 ................................................................... 78 4.3.6 Flickr Oceania 字詞共現分析 ............................................................. 79 4.3.7 Flickr 所有城市標籤雲分析................................................................ 80 4.3.8 字詞共現實驗分析小結 ..................................................................... 81 4.4 實驗總結 ......................................................................................................... 81 第五章 結論與未來方向 ........................................................................................ 84 5.1 結論 ................................................................................................................. 84 5.2 研究限制 ......................................................................................................... 85 5.3 未來研究方向 ................................................................................................. 85 參考文獻 ........................................................................................................................ 86 附錄 A............................................................................................................................. 88. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. V. i Un. v.

(8) 圖目錄 圖 2.1 Degree Centrality 圖形 .......................................................................................... 8 圖 2.2 Closeness Centrality 圖形 ..................................................................................... 9 圖 2.3 Betweenness Centrality 圖形............................................................................... 11 圖 2.4 Flickr API method ................................................................................................ 13 圖 2.5 以 Flickr architecture 為例 ................................................................................. 14 圖 2.6 以 Flickr travel 為例 ........................................................................................... 15 圖 2.7 多層雙向 co-occurrence ..................................................................................... 25 圖 2.8 城市與字詞共現指標方法 ................................................................................ 26 圖 3.1 研究架構 ............................................................................................................ 27 圖 3.2 Flickr 資料處理 ................................................................................................... 32 圖 3.3 兩個城市以上 Flickr Tags 範例 ........................................................................ 38 圖 4.1 Flickr Tags 實驗流程 .......................................................................................... 49 圖 4.2 Porter & Lovins Stemming POS Counts 分析 .................................................... 51 圖 4.3 Flickr Tags 比例圖 .............................................................................................. 51 圖 4.4 Flickr Porter Stemming 詞頻統計 ....................................................................... 52 圖 4.5 Flickr Porter Stemming weight 詞頻統計 ........................................................... 52 圖 4.6 Flickr Lovins Stemming 詞頻統計 ..................................................................... 53 圖 4.7 Flickr Lovins Stemming weight 詞頻統計 ......................................................... 53 圖 4.8 Porter Stemming(weight)of 41 cities Top 10 ................................................. 56 圖 4.9 Lovins Stemming(weight)of 41 cities Top 10 ................................................ 56 圖 4.10 TOP20 各別分析-1 ............................................................................................ 57 圖 4.11 TOP20 各別分析-2 ............................................................................................ 58 圖 4.12 TOP20 各別分析-3 ............................................................................................ 59 圖 4.13 Flickr Top 10 Porter Stemming(weight) of America ......................................... 62 圖 4.14 Flickr Top 10 Lovins Stemming(weight) of America ........................................ 63 圖 4.15 Flickr Top 10 Porter Stemming(weight) of Europe ........................................... 64 圖 4.16 Flickr Top 10 Lovins Stemming(weight) of Europe .......................................... 65 圖 4.17 Flickr Top 10 Porter Stemming(weight) of Asia................................................ 66 圖 4.18 Flickr Top 10 Lovins Stemming(weight) of Asia .............................................. 67 圖 4.19 Flickr Top 10 Porter Stemming(weight) of Oceania.......................................... 68 圖 4.20 Flickr Top 10 Lovins Stemming(weight) of Oceania ........................................ 69 圖 4.21 所有城市字詞共現 .......................................................................................... 73 圖 4.22 以 travel 及 animal 為例字詞共現指標分析 .................................................. 75 圖 4.23 America 城市字詞共現 ..................................................................................... 76 圖 4.24 Eurpoe 城市字詞共現 ....................................................................................... 77 圖 4.25 Asia 城市字詞共現 ........................................................................................... 78 圖 4.26 Oceania 城市字詞共現 ..................................................................................... 79 圖 4.27 標籤雲 Porter(左)及 Lovins Stemming(右) ..................................................... 80 圖 4.28 Flickr Popular Tags 資料 ................................................................................... 81. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. VI. i Un. v.

(9) 表目錄 表 2.1 以 movement Tags 整合為例 ............................................................................. 15 表 2.2 The Penn Treebank POS 詞性分析表 ................................................................. 17 表 2.3 城市所有 Tags 數量 ........................................................................................... 21 表 3.1 城市 GNC 數量及權重 ...................................................................................... 29 表 3.2 區域分群介紹 .................................................................................................... 31 表 3.3 同城市名不同語系 ............................................................................................ 33 表 3.4 Porter Stemming 規則 ......................................................................................... 34 表 3.5 Lovins Stemming 規則 ........................................................................................ 35 表 3.6 合併字詞表 ........................................................................................................ 36 表 3.7 雜訊分類表 ........................................................................................................ 37 表 3.8 Flickr 城市代碼檔 ............................................................................................... 40. 政 治 大 表 3.9 每月取一號上傳相片數量 TOP 檔 ................................................................... 41 立 表 3.10 每月取一天上傳相片數量 TOP 檔 ................................................................. 41. ‧ 國. 學. 表 3.11 相片主檔........................................................................................................... 42 表 3.12 相片 Tags 檔 ..................................................................................................... 43. ‧. 表 3.13 多個城市名稱檔 .............................................................................................. 43 表 3.14 Tags 同義詞字典檔 ........................................................................................... 44 表 3.15 雜訊 Tags 字典檔 ............................................................................................. 44 表 3.16 各城市顯著 Tags 檔 ......................................................................................... 45 表 3.17 41 個城市檔案 .................................................................................................. 45 表 3.18 41 個城市檔案權重資料 .................................................................................. 46 表 3.19 以 A city 為例 IDF 分析 .................................................................................. 48 表 3.20 以 A City 為例 TF-IDF 分析 .......................................................................... 48. n. er. io. sit. y. Nat. al. 表 4.1 表 4.2 表 4.3 表 4.4 表 4.5. Ch. engchi. i Un. v. 以 London 為例 Porter(weight)及 Lovins(weight) ................................. 54 所有城市 Porter(weight)及 Lovins(weight)Tag 總數 .................................. 55 區域分群 Top10 Tag 次數分析 ......................................................................... 61 所有城市各字詞共現的 Tag 與包含合併字詞分析 ........................................ 71 所有城市與 Tag 字詞共現指標分析 ................................................................ 74. VII.

(10) 第一章 緒論 在這資訊爆炸、網際網路頻寬與速度相繼提昇與蓬勃發展的通信產業年代,結合網 路科技所衍生的網路相簿因應而誕生,同時已儼然成為相片存取的一個空間選擇;在網 路相簿興起的年代,無名小站於 1999 年由一群台灣新竹交大的學生利用當時校內頻寬 架設 BBS 站所創立,在 2003 年更推出網路相簿、網誌、留言板等功能,但由於 Yahoo. 政 治 大 以提供免費的網路相簿而漸漸成為主流。社會網路分析(Social Network Analysis;SNA) 立 收購 Flickr,使得無名小站於 2013 年 12 月 26 日關站;而 Flickr 網站則於 2004 年發表,. ‧ 國. 學. 是一種研究社會的具體方式及社會結構關係的新觀點,同時也能表現人類關係特徵突出 表現的形式,它可用於分析社會網路的現象,如組織架構、社會關係甚至於國際關係等。. ‧. 本研究是以社會網路分析為主,並以 Flickr Tags 資料為基礎,希望能透過社會網路分析. y. sit. io. n. al. er. 構的網路模型。. Nat. 的方法延伸於此架構下的應用探討各項指標於此架構下的意義,進而得到更能符合此架. 1.1 研究背景. Ch. engchi. i Un. v. 日常生活中能夠短期記憶容量相當有限,大量複雜的資訊不斷增加,導致無法有效 的回顧舊有記憶,所以對於過往重要的人、事、物,往往只能用文字或相片來保存這些 記憶。而現今雖然透過網路可取得大量資訊來了解各城市文化,但是要從簡單的 Tag 了 解到攝影者所代表相片的真正含意其實並不容易,而往往真正能深切感動人心,卻常常 只是一張泛黃的舊相片所帶來的回憶。 在 Web 2.0 架構中強調共享及參與精神所產生的個人化(Personalization)內容服務, 越來越多使用者利用 Flickr 網路相簿搜尋、分享及保存相。O’Reilly (2005)提出 Web 2.0 一詞,即指出「Web 作為帄台」的特徵,其特色為「互動」與「分享」 ,而所強調的. 1.

(11) 是「雙向互動」而非「單向傳播」 、 「用戶分享」而非「獨斷」 、 「集體智慧」而非「單一 智慧」 ,進而產生創新的服務模式與價值鏈。Web 2.0 看作一種用戶體驗、資源分享、集 體智慧、帄台開放、輕量級用戶介面與經營模式的新態度與新思維。Web 2.0 非指某特 定網路技術,而是泛指多種網路軟體開發與應用,演變至今係以使用者參與互動為主要 的概念。O’Reilly et al.(2005)認為 Web 2.0 係以網路作為帄台(Network as Platform), 涵蓋所有相連的裝置,善用該帄台本身的優勢,持續以更新服務的方式在帄台上推出軟 體。從 Web 2.0 所指涉的多樣性可知,欲達成一致定義並非簡易單純之事,但正因其意. 政 治 大. 涵廣泛與多采多姿的應用,使得無論是企業或政府、群體或個人、組織活動或非組織活. 立. 動,均可從其中找到連結點,在實務應用或理論探討上也顯出其多面向性。. ‧ 國. 學. 目前這類網路相簿分享網站提供使用者標記功能,讓使用者為個人所保存之相片自 由定義 Tag 功能。透過這些 Tag 使用者得以進行關鍵字搜尋;也能間接串連相片相關線. ‧. 索,進而增加城市與城市間互動性。因此本研究以 Flickr 網路相簿網站中具有指標性城. Nat. sit. n. al. er. io. 1.2 研究動機與目的. y. 市為對象,嘗詴分析 Flickr 網路相簿所分享網站使用者之相片 Tag 特性及分享行為。. Ch. engchi. i Un. v. 由於智慧型手機(Smart phone)和行動裝置(Tablet Computer 及 NB 等)應用的快 速發展,使得相片的資料量急遽成長,使用者在出外旅遊所拍攝相片,不再像以前一樣 利用底片沖洗出來保存,因為使用者是將自己喜歡相片透過網路相簿(如 Flickr、Picasa 網路相簿、Pixnet 痞客邦、Xuite 相簿、無名小站相簿等)來分享他們的生活點滴。而多 數人更是喜歡到 Facebook 或者是在部落格(Blog)撰寫文章來介紹自己旅遊的心得。 Flickr 網路相簿除了可以分享與家人、朋友、風景照以及生活照等等互動外,這個服務 有一個重要方面是使用者可以手動標註自己的相片,本文是利用 Flickr 線上相片服務允 許使用者利用 Flickr API 方式的收集 Tag 來觀察相片本身的意義的網站,也就是使用所 謂的標籤(Tag)與敘述(Annotation)來輔助使用者進行註記主要描述相片的內容之外, 2.

(12) 以及提供額外的前、後張相片語義資訊。但要從寫一個圖文並茂的部落格中取得 Tag 其 實並不容易,必頇要花許多時間進行資料蒐集、斷詞分析及語義分析等;因此本文將選 擇具有顯著的 Tag,運用 Flickr 相簿資料庫分析進行研究與實驗。 在本文中,除了探討如何能利用這些 Tag 來取得每個城市的特色,同時從中挑選 41 個城市的相片作為分析對象。在一般情況下,Flickr 上相片搜索取決於相片的註釋,而 相片相關的關鍵字(或標籤),則往往就可代表其相關訊息,同時亦賦予的一種主觀感 受,遠離客觀描述的形象,以達到本研究的貢獻目的。此外將 Flickr 上 Tags 的數量多寡. 政 治 大. 作為分析項目,並將 Tag 結果的特性,以及透過權重可分析出使用者如何標記相片和 Tags. 立. 中包含哪些資訊。基於這種分析、整理與評估,本文提出一套 Tag 方式,可以利用添加. ‧ 國. 學. 到「相片處理註記」的方式,來分類使用者在相片 Tag 分類情形。 本研究透過分析城市與城市間的互動情況,從而衡量出城市與城市之間的關係程度,. ‧. 但是用人工標註大量的「相片處理註記」是很相當耗時的工作;因此為了有效降低誤判. Nat. sit. y. 率,利用 My SQL 管理資料庫的處理可讓許多同義字(Synonymous)的 Tag 逐漸被整合,. n. al. er. io. 藉此再配合社會網路分析(Social network analysis;SNA)軟體來提升識別的準確度。. 1.3 研究資料. Ch. engchi. i Un. v. 本實驗資料是利用 Flickr 原有 Flickr API 作為分析;首先透過 Flickr 網路相簿申請 一組 Flickr API KEY 來建立本實驗所需資料庫。然後將 41 個城市的 Flickr Tags 建立在 My SQL 資料庫後,經過 Porter 及 Lovins Stemming 詞幹處理後,去除 Flickr 多餘雜訊, 再利用 eBizMBA 提供各種網站的相關資訊與排名,選取 5 個旅遊網站所介紹 41 個城市 的文章合計 205 篇作為重要指標,分析其文章內容以 TF-IDF 處理結果當成權重(Weight), 其目的在於將一些排名較後的顯著標籤能提升排名,運用 41 個區域、4 大洲分群的方式 來了解各洲的文化特色。之後針對 Flickr Tags TOP 10 進行 Porter 及 Lovins Stemming, 同時加入 Weight 解析,最後透過 SNA 軟體,探討 41 個城市變化情形及字詞共現指標 3.

(13) (Tag Co-Occurrence)來轉換成一個主要的共現字詞作為實驗結果。. 1.4 研究貢獻 本文主要觀察 Flickr 的 Tags 內容分析及詞性、詞頻等研究。其主要研究貢獻包括: 研究使用者圖像標記動機,以了解各城市特色為主,並間接產生與其他城市之間的互動, 某幾個城市透過特定 Tags 連結,而得到關連性;在 Tags 詞頻率越高,代表 Degree Centrality 也越高,因此利用字詞共現指標(Tag co-occurrence)來計算與該城市的關聯. 政 治 大. 性及進行標籤結合,以階層式分類 Tags 方式得到結果;Tags 使用語文以英文為主,將. 立. 有助於詞頻歸類統一,顯著的 Tag 依其規則性,使用者 Tagging 人、事、時、地、物也. ‧ 國. 學. 是最常使用的,而重複的 Tags 經過統計為 night 及 street 兩個之熱門標籤為主,可見攝 影者最常拿出相機拍照的動機是有關夜景及街景。透過 Flickr 網站本身 Popular Tags 經. ‧. 由分析及匯出標籤雲的結果來與本文之實驗結果相對照 85%的吻合度驗證。. n. al. er. io. sit. y. Nat. 1.5 論文架構. 本文架構可分為五章其內容如下:. Ch. engchi. i Un. v. (一)第一章為緒論簡介研究背景、研究動機與目的、研究資料及其貢獻。 (二)第二章為前人研究、文獻探討與相關技術介紹、從社會網路分析演變到社會 網路分析模型、然後是 Flickr Tag 分析及城市選擇分析,最後則是詞頻分析。 (三)第三章將針對本研究的流程,從架構介紹進一步處理資料的步驟,探討研究 工具及資料庫建置內容,TF-IDF 加權結果分析。 (四)第四章為實驗結果與評估,從 Flickr 實驗資料,挑選關鍵相片分析,以區域 分群的方式來觀察各洲的變化情形,同時結合時事去探討排名的變化,接著 是字詞貢獻實驗分析,將相關性質 Tag 整理出合併字詞關連,最後實驗總結。 (五)第五章為結論與未來研究方向,主要探討結論、研究限制及未來方向。 4.

(14) 第二章. 文獻探討. 本章節討論社會網路分析、以及Flickr網路相簿與世界城市的概念輪廓與連結之相 關研究文獻探討;首先是針對社會網路分析的演變(2.1) ,接著是社會網路分析模型(2.2)、 Flickr Tag分析(2.3) 、Flickr城市選擇分析(2.4)及最後詞頻分析(2.5) ,希望能對本研 究相關的資料有更完整的了解,以能更確立研究的方向。. 2.1 社會網路分析演變. 立. 政 治 大. 社會網路分析這個名詞是在 1954 年首先使用(Barnes, 1954)。社會網路分析是指. ‧ 國. 學. 由單位(個體、群體或乃至於社會)集合和聯繫單位之間的關係集合構成,其研究變化. ‧. 的過程及整體的聯繫和互動,因此社會網路研究方面呈現指數型成長,在運用社會網路 分析方法研究問題顯得越來越重要。在 1960~1970 世紀社會網路分析方法被研究者大量. y. Nat. er. io. sit. 運用,林岡隆(民 98)社會學、人類學、社會語言學、社會心理學、經濟學、物理學、 乃至於資訊科學等眾多領域中,更由於網際網路的發展,成為熱門的研究方法,Scott. n. al. Ch. i Un. v. (2000)同時亦廣泛的被運用在多學科的交叉分析上,而其與統計學、數學及計算機科. engchi. 學相結合後,更迅速的發展出另一種新的分析方法。社會網路分析是對社會關係進行量 化分析的一種技術,其主要用於描述測量個體之間的關係,從關係角度來了解社會情境 與個體的行為的互動影響;個體大小可能影響整個的網路關係,同時這些關係又反過來 影響個體的行為,即所謂的牽一髮而動全身,從這些關係中,包含了各種形式,溫文喆 (民 98)提出社會網路分析研究論文作者引用的關連、建立蛋白質網路以研究之間的交 互影響與代謝路徑、建立傳染病病人的接觸網路以了解傳染病的控制等,針對這些關係 建立模型,進而研究這些關係與個體行為之間的相互影響。 每天在使用 Facebook 時都跟個人網路分析息息相關,每個人都是以自己為孙宙的中. 5.

(15) 心,彼此間了解而相互連繫、交際、幫助和透過訊息給朋友,這就是關係(Relation); 而關係也可解釋在企業與客戶、合作夥伴、親契、朋友或同事之間進而產生互動、交流 所產生的一種經濟上、心理上、情緒上的一種關係,當個人與群體以聯合互動的方式得 到強關聯時關係便產生,而個人與群體之間關係是否緊密強度大小關鍵在於彼此之間的 價值的分享程度,因此社會網路分析的核心概念中的現象都可以經由關係的方法得到最 好的結果。按照社會網路分析的思想,單位(個體、群體或乃至於社會)的任何行動都 是相互關聯。它們之間所形成的關係是訊息和資訊傳遞的方式,網路關係結構也決定著 他們關聯的機會及結果。. 立. 政 治 大. 2.2 社會網路分析模型. ‧ 國. 學. 由於Flickr網路相簿蘊藏大量的資訊,資料來源雜亂,需要藉由社會網路加以分析而. ‧. 解析成各種圖形,這些包括了節點和節點間的關連以及各自的特點。常見的網路模型大. Nat. sit. y. 致可以區分為One-mode與Two-mode網路:. n. al. er. io. (一)One-mode網路:One-mode為較簡單的網路連結方式,而這些節點有可能屬性. i Un. v. 不同而本質相同,由於節點內部彼此的屬性可能會產生些許差異,最常見的. Ch. engchi. 就是人與人所構成的網路,而連結關係記錄著這些人與人之間的關係。 (二)Two-mode網路:Two-mode則為內部同時有兩種類的節點,由兩個城市以上 與Tags組成的網路即為Two-mode網路,而Two-mode網路在不同類型的節點間 有連結,這樣的設定是為了分析網路架構,當然也有在同類型節點間存在連 結 的 網路 模 型, 但很多 性 質的 計 算與 定義便 會 成為 在 分析 上的難 題 。 Two-mode網路通常只會在不同類型的節點間產生連結的關係,若是遇到網路 關 係 較為 複 雜的 狀況下 , 相同 類 型的 節點間 也 是可 以 產生 連結關 係 的 (Wasserman, 1994)。在本文研究中,以Flickr API資料庫為主要資料來源, 建構出同時具有城市及Tags兩種不同類型節點的Two-mode網路,並選擇以適 6.

(16) 用於Two-mode網路模式下的連結預測理論為主要核心,來探討城市與城市間 的連結。. 2.2.1 節點(Node) 因為源自社會結構之研究,亦有人稱之為行動者(Actor) ,而社會網路中的節點可 以是任何人、群體、公司,甚至是非生命之事務,如:字詞、圖片、文獻等。社會網路 中的節點也不受限於同一類型,可以有數種不同類型的節點。若網路內不僅含同一種類. 政 治 大. 型的節點時,稱為 One-mode 網路,此類型的網路在節點仍有屬性差異,但實際上仍屬. 立. 同類型,像常見的人與人構成的網路;網路中的節點有兩種類型時,則稱為 Two-mode. ‧ 國. 學. 網路,如圖片與 Tag 所構成的網路。隨著結點類型的增加,整體網路的定義和性質分析 的困難度也隨之增加,故目前節點定義為三種以上類型的網路並不常見。. ‧ sit. y. Nat. 2.2.2 中心度指標(Degree Centrality). n. al. er. io. 中心度指標(Degree Centrality)是指某節點到其它節點的連結總數,可用來估算該. i Un. v. 節點的受歡迎程度,此項指標較大的節點被稱為中心(hub),即中心節點為擁有最大. Ch. engchi. degree centrality 數值的節點(Freeman, 1979) 。Degree centrality 概念公式 (2.1) 如下:. Degree Centrality  DC(ni )  d (ni ). (2.1). 定義 Degree Centrality 為 DC( ni ),其中 i 值為群集中節點的數目; 而 degree of the node, d (ni ) ,為節點 ni 所擁有的連結數。 中心度指標是社會網路分析的重點指標,而個人或組織在其社會網路中具有多少的 權力或居於怎樣的中心地位,這也是社會網路分析者最早被探討內容之一。尤其從每個 個體的中心度(Centrality)測量到另一個網路中心的程度,反映了該節點在網路中的重 要程度。因此一個網路中有多少個節點(Node)或者是行動者(Actor) ,就有幾個個體. 7.

(17) 的中心度。除此之外計算網路中個體的中心度,同時也可計算整個網路的中心勢 (Centralization) 。與個體中心度刻畫的是個體特性不同,網路中心勢刻畫的是整個網路 中各個點的差異性程度,因此一個網路只能有一個中心勢。而網路中心勢指的是網路中 點的集中趨勢。如圖 2.1 Degree Centrality 圖形就很容易了解 Computer C 為 Computer A、 B、D、E、F、G 中心度指標,另外還有 Computer G 為 Computer B、C、F、H 中心度 指標。. 立. 政 治 大. ‧. ‧ 國. 學 er. io. sit. y. Nat. n. a圖l 2.1 Degree Centrality 圖形 i v n Ch engchi U. 2.2.3 近距中間度指標(Closeness Centrality). 近距中間度指標(Closeness Centrality)主要在量化一個點和其他同網路點的距離。 一個具有高連接中間度指標的點有可能是重要的點因為它可以影響很多點或者是被很 多點所影響;而一個具有高近距中間度指標的點有可能是重要的點,因為它距離其他的 點都很近,所以它可以很快的影響其它點或者是很快的被其它點所影響,因此指標可找 出群集中距離所有其它節點帄均距離最短的節點,Closeness Centrality 概念公式 (2.2) 如下:. 8.

(18) k  Closeness Centrality  CC(n i )   d (ni , n j ) where j i  j 1 . (2.2). 定義 Closeness Centrality 為 CC(ni ),其中 k 值為群集中節點的數目,d (ni , n j ) 為 節點 i 與節點 j 之距離函式,為計算所有節點至 i 節點的距離總和,故 CC(n i ) 值 愈小表示該節點為距離其它節點的最短節點。 近距中間度指標刻畫的是局部的中心指數,衡量的是網路中行動者與他人聯繫的多. 政 治 大 的能力。有時還要研究網路中的行動者不受他人控制的能力,這種能力就用接近中心性 立 少,沒有考慮到行動者能否控制他人。而中間中心度測量的是一個行動者控制他人行動. ‧ 國. 學. 來描述。在計算接近中心度的時候,所必頇關注的是捷徑,而不是直接關係。如果一個 點通過比較短的路徑而與許多其他點相連接,則此點具有較高的接近中心性。對一個社. ‧. 會網路來說,接近中心勢越高,表明網路中節點的差異性越大,反之則表明網路中節點. sit. y. Nat. 間的差異越小。如圖 2.2 Closeness Centrality 圖形就很容易了解 Computer G 為 Computer. io. n. al. er. B、C、F、H 近距中間度指標。. Ch. engchi. i Un. v. 圖 2.2 Closeness Centrality 圖形. 9.

(19) 2.2.4 參與中間度指標(Betweenness Centrality) 參與中間度指標(Betweenness Centrality)在一個網路上,每兩個點至少都有一條連 接此兩點的最短途徑,而參與中間度指標是去量化一個點出現在所有最短途徑的次數。 一個具有高參與中間度指標的點有可能是重要的點,因為從一個點到另一點都要經過它 作為橋樑。此指標是為了測量出網路中,某個節點扮演著中介者的角色,以接通最多原 本彼此無法直接連結的節點(Anthonisse, 1971) ,Betweenness Centrality概念公式 (2.3) 如下:. 立. 政 治 大. Betweenness Centrality  BC(ni )  . n jk (ni ). (2.3). ‧ 國. 學. n jk. Betweenness Centrality 定義為 BC(n i ) , n jk 表示為節點 j 與節點 k 之連結總數,. ‧. sit. y. Nat. n jk (ni ) 表示為所有連結節點 j 與節點 k 並包含節點 i 的連結總數。. io. er. 參與中間度指標在網路中,如果一個節點處於許多其他兩點間的路徑上,可以認為. al. iv n C hengchi U 點個體中心度的指標是參與中間度指標,它測量的是節點對資源控制的程度。一個節點 n. 該節點居於重要地位,因為他具有控制其他兩個節點之間的能力。根據這種思想來使節. 在網路中占據這樣的位置越多,就越代表它具有很高的參與中間度指標,就有越多的節 點需要通過它才能發生聯繫。參與中間度指標也是分析網路整體結構的一個指數,其含 義是網路中中間中心性最高的節點的中間中心性與其他節點的中間中心性的差距。該節 點與別的節點的差距越大,則網路的中間中心勢越高,表示該網路中的節點可能分為多 個小團體而且過於依賴某一個節點傳遞關係,該節點在網路中處於極其重要的地位。如 圖 2.3 Betweenness Centrality 圖形就很容易了解 Computer G 為 Betweenness Centrality 最 高,若將該節點移除則節點 Computer H、I、J 將與大量節點(節點 Computer A、B、C、 D、E、F)失去聯繫,相較之下節點 Computer A 到 F 之間相互連結性高,若移除其中. 10.

(20) 任一節點,剩餘節點仍能透過其他路徑接通彼此,因此相對於節點 Computer G 而言其 重要性則較低。. 學. 圖 2.3 Betweenness Centrality 圖形. ‧. ‧ 國. 立. 政 治 大. 2.3 Flickr Tags 分析. sit. y. Nat. io. er. Tag 是將內容的控制權從 Flickr 網站管理者下放到用戶手中,充分體驗到 Web2.0. al. iv n C hengchi U 整合在一起,它幫助輕鬆的描述和分類內容,以便於檢索和分享,而 Tag 就是表現 Web n. 用戶參與的特點。Tag 除了是一種表達相片內容的方式外,同時將相關性很強的關鍵字. 2.0 的重要元素。當使用者瀏覽過 Flickr 之後,就會發現網站使用 Tags 的方式顯示內容 和功能,使用者運用 Tag 來描述內容和相關內容的檢索,Ames and Naaman (2007)其 目的了解為什麼使用者圖像標記的動機為何。吳筱玟與周芷伊(民 98)分析 Tagging 被 視為是大眾分類學(Folksonomy)的一種方式,Folksonomy 是將 Folks(人們)與 Ttaxonomy (分類學)組合後產生的名詞。而 Flickr 規定每張相片最多可指定 75 個 Tag,而 Tag 是 一種更為靈活且有趣的相片分類方式,使用者可以為每張相片添加一個或多個 Tag,然 後您可以看到 Flickr 上所有和您使用了相同 Tag 的相片,並且由此和其他用戶產生更多 的聯繫和溝通,同時把您的相片發送到全世界,在透過全世界的人們共同分享喜悅的照. 11.

(21) 片。此外 Tag 表現不單單只是表現群體的力量,而是使得相片能串連用戶之間的交流性, 透過這些串連,可以讓使用者看到同一個 Tags 的相片底下,能表現出更加多樣化世界 的不同樣貌。Golder and Huberman (2006)分析出標記系統中動態資訊(Information Dynamics),運用在第四章標籤頻率(Frequency)、標籤類型(POS)上。. 2.3.1 標籤雲(Tags Cloud) 標籤雲(Tags Cloud)是利用視覺設計領域又稱為文字雲(Word Cloud) ,其目的在. 政 治 大. 於使用者了解視覺描述的 Tag 及指該網站的最重要的文字內容,通常代表該為網站內容. 立. 熱門程度之描述。新的資訊呈現方式吸引許多網路使用者的眼光通常建立在 Web 2.0 環. ‧ 國. 學. 境之下,標籤雲提供以淺顯易懂的資訊視覺化特徵(包含字體大小、粗細、強度、位置、 顏色深淺、顏色變化及 3D 立體呈現等變化) ,讓使用者運用在 Flickr Tags 網頁底下能呈. ‧. 現資訊系統的方式,提供使用者另一種查找資訊的方法。. Nat. sit. y. 標籤雲在 20 世紀時透過社會主義蓬勃發展下發展出視覺創意,已歷經約百年的演. n. al. er. io. 進。Flickr 是的第一個導入標籤雲的網站,為當時 Flickr 的聯合創始人和交互設計師. i Un. v. Stewart Butterfield 在 2004 年創建,後來 Flickr 儼然成為 Web 2.0 網站的代表象徵。原則. Ch. engchi. 上在 Flickr 標籤雲中定義 Tags 的字體大小是由其頻率多寡而定,像為較少出現的頻率可 以字體相對於較小,對於較常出現的 Tag 中,就以攝影用語為主(Jenkins, 2003),然而本 研究是以城市角度的面向來了解世界的輪廓與連結。 本研究利用 Flickr 標籤雲透過 Feinberg (2009)Wordle 網站所提供的視覺化的角 度探討 Tag 字體大小對於使用者標記行為的影響,探討 41 個城市中選用的 Tag。實驗中 的 Tag 先以 TF-IDF 演算法計算出 Tag 的權重,再依權重對應到 Tag 字體大小,隨機排 列於標籤雲。. 12.

(22) 2.3.2 Flickr API 架構介紹 本實驗資料是利用 Flickr 來源有超過 50 億張以上相片(其中許多包含具有價值的 描述資訊,例如 Tags、地理位置和人物資料等),彭聲揚(民 100)Flickr API 提供 182 個共 34 大類 API method,當使用 Flickr API 這個開發工具時,首先要了解 Flickr API 資 料庫架構才能輕易上手,而 Flickr API 也如同其他許多 Web API 一樣,需要透過 Flickr 申請 Flickr API KEY,以防止駭客利用此網站執行時,能抓取網頁內容或是控制網頁執. 政 治 大. 行網路爬蟲等程式。首先必頇先到官網申請一組 Flickr API KEY 來使用就會取得一組序. 立. 號,才能建立本實驗所需資料庫,Flickr API 使用時包含 method,指定呼叫方法、API Key. ‧ 國. 學. 以及 Format,用於指定回傳格式。Flickr 所有的編碼皆使用 UTF-8 格式去編輯,以減少 亂碼發生的機會。另外 API Key 參數則用於標識產生該 API 請求的用戶對象。本文利用. ‧. Flickr API 所提供各種不同搜尋程式,例如:透過 flickr.places.getTopPlacesList(P1,…)、. Nat. sit. n. al. er. io. Flickr API method)。. y. flickr.photos.search、flickr.photos.getInfo 運用在本實驗中 3.1.1.1 將有完整解說(如圖 2.4. Ch. engchi. i Un. 圖 2.4 Flickr API method. 13. v.

(23) 2.3.3 Flickr API 圖形分類 在 Flickr API 開發工具時,首先要了解 Flickr API 圖形分類,與本文有關圖形分類架 構大致可分為兩大類 User similarity(用戶相似性)及 Tags Association(Tags 結合) ,以 下為 Flickr API 圖形分類介紹: (一)User similarity(用戶相似性) :興趣是一種人們在空閒時享受及樂於去做的活 動,例如:各類運動、旅行、閱讀等,而每個人都有嗜好,有一些是從小就. 政 治 大. 養成習慣,即使是隨著年齡的增長而某種生活習慣變化。本探究除了了解使. 立. 用者所經常下的 Tags 之外,也可了解到有些攝影的偏好某一類型的照片,因. ‧ 國. 學. 此相同嗜好的用戶喜歡拍出相同的事物(如圖 2.5 以 Flickr architecture 為例) 所示。. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v. 圖 2.5 以 Flickr architecture 為例 (二)Tags Association(標籤結合):Flickr Tag 在 Tag 結合之前是非常雜亂無章, 需透過文字 Tag 統一整合後,讓一些較為隱性的 Tag 經過合併,變為較顯著 的 Tag,且統合後的資料歸類將更為方便,Movement 整理出將運動有相關的 Tag 整併歸類到 Movement 底下,另外在 Valitutti (2004)根據 wordnet 的研究, 14.

(24) 詴圖建立多意字詞的領域分類(如表 2.1 以 MovementTags 整合為例)。. 表 2.1 以 movement Tags 整合為例 stadium、speed、soccer、surf、volleyball、walk、waves、bikini、diving、 skate、boxing、sailing、ball、parachute、run、athletes、hiking、sit、slide、 movement corner、river side bikeway、jeremy villasis、lifeguard. 2.3.4 Flickr Tag Clusters 分析. 立. 政 治 大. 本文使用 Flickr 所推出 Tag Cluster(Tag 分群)功能中,發現 Flickr 已經自動根據. ‧ 國. 學. 每一個使用者所設定 Tag 建立在某個常用的 Tag 底下,例如 travel 將相片分成四大區塊 的 Tag Cluster 為主(如圖 2.6 以 Flickr Travel 為例)所示,由於原本的相簿分享區只是. ‧. 用 Tag 來分類,運用此方式就可歸類同一性質 Tag,然而有些 Tag 已經由一字多義. y. Nat. n. al. er. io. sit. (polysemy)及多字一義(synonymy)處理合併,故本實驗有部分 Tag 將無法顯現出來。. Ch. engchi. i Un. 圖 2.6 以 Flickr travel 為例. 15. v.

(25) 2.3.5 詞義分析 以英文詞彙來說具有詞性及語法意義,而詞性本身具有解析語言的變化,同時一直 以來,也是自然語言的處理及應用本研究的對象之一,一般用於自動翻譯或者論文寫作 等應用方面,例如單數變複數、三態變化或是形容詞及副詞等情況,因此透過 POS (Part-Of-Speech;POS)分析來處理這些英文詞彙將 Flickr Tagsy 做為歸類。另外在一字 多義(polysemy)及多字一義(synonymy)方面做法是將這些 Tag 建立字典檔後,將相. 政 治 大. 同詞彙合併後做為處理,同時可增加同義詞合併減少因忽略詞彙,而影響到 Tag 排名。. 立. 2.3.5.1 POS 分析. ‧ 國. 學. 詞性標記(POS)也被稱為語法標記。有關語言方面的處理皆方法有很多方式,而. ‧. 在處理英文情況之下,有些單字可能代表一字多義或這多字一義,這些都還需要在經過. Nat. sit. y. 詞幹(Stemming)還原成原形才能合計在 Flickr Tags 中使用。在處理上英文比起中文來. n. al. er. io. 說,最大不同在於一樣在詞與詞之間是以空白來區分,而且可獨立運用的最小單位,因. i Un. v. 此避免所謂的詞彙混淆(Lexical Ambiguous)。以英語語言的句子觀點而言,要將句子. Ch. engchi. 作適當的斷詞,則需要斷詞器來做處理,此外而將句子每個詞標記正確的詞類,則需要 語言模型來做處理,一個好的語言模型,將可針對句子中許多詞類組合決定出最符合語 言特性的結果。 本文利用 Marcus, Santorini and Marcinkiewicz(1993)提出 Penn Treebank 的 Tag 集, 僅列出較重要的詞性 Tag(如表 2.2 The Penn Treebank POS 詞性分析表) ,對於名詞、動 詞、形容詞及副詞等等以簡單分類的 Tags 集方式,在處理 Tags 的方式上主要使用 Stanford Log-linear Models 來處理(Toutanova and Christopher, 2000) ,Stanford-PosTagger 工具支援包括英語、阿拉伯語、漢語、德語等模型,透過 Flickr 標註 Tags 大多以英文 為主,因此運用此方式來分析 Flickr Tags 的詞性。其中第 9 到第 12 項以 Porter Stemming 16.

(26) 合併為名詞 4532 個 Tags,其次第 4 到第 6 項合併為形容詞之後 857 個 Tags,還有一部 分是第 19 到第 24 項合併為動詞之後 156 個 Tags,在 4.1.2 節 Flickr Tags POS 分析將會 有完整說明。. 表 2.2 The Penn Treebank POS 詞性分析表 No. Mark. Name. No. Mark. 1. CC. Coordinating Conjunction. 13. PP$. Possessive pronoun. 2. CD. CarDinal number. 14. RB. Adverb. 3. FW. Foreign Word. 4. JJ. 5. 15 RBR 政 治 大 16 RBS. Adverb,comparative Adverb,superlative. TO. To. 6. JJS. Adjective,superlative. 18. UH. Interjection. 7. LS. List item marker. 19. VB. 8. MD. MoDal. 20. VBD. Verb,past tense. 9. NN. Noun,singular or mass. 21. VBG. Verb,gerund/present paericiple. 10. NNS. Noun,plural. 22. VBN. Verb,past participle. 11. NNP. Proper noun,singular. 23. VBP. Verb,non-3rd ps.sing.present. 12. NNPS. Proper noun,plural. 24. VBZ. Verb,3rd ps. sing.present. 2.3.5.2 一字多義及多字一義分析. engchi. y. sit. er. n. Ch. Verb,base form. ‧. io. al. 學. 17. Nat. JJR. 立 Adjective,comparative. ‧ 國. Adjective. Name. i Un. v. 在英文詞彙來說在詞義分析當中,有一字多義(polysemy)及多字一義(synonymy) 的可能性。一字多義代表一個以上的意義,其定義為了被認為是一個多義詞同時具有不 同的意思,可能是不同的但有可能彼此相關,像英文當中一詞多義可能之前是拉丁文和 希臘文的轉換字面上含義而衍生出新的意義。而一字多義現象是在一定的意象圖式的基 礎上,借助隱喻和轉喻模式實現的,是由基本詞義向其它詞義的引申,而且多義詞在各 詞義項目之間相互關聯。舉例來說,fall 本身有下降、下跌與秋天之意,具備有一字多 義特性,經過 Flickr 解析 Tag 及查詢原網址後發現應與 autumn 合併為同一個字轉換成. 17.

(27) 多字一義,才能提昇 Flickr Tags 的準確度。此外還有 blossom 與這個詞相關聯的意義 flower 成為一個多義詞。而轉喻也是多義詞形式的一種,由一個詞彙經由大家共同使用 久而久之變成慣用語。例如 cycle 在名詞被稱為週期及循環,但它在動詞為騎車及輪轉 意義,這種形式的多義詞的通常不是官方的所使用,但反而更多的是俚語或是慣用語的 形成。 多字一義(synonymy)同義詞中具有相同含義或相近的意思,而多字一義在辨析 英語上同義詞非常多,通常運用在名詞與形成詞上較為常見。舉例來說 beautiful、belle、. 政 治 大. attractive 及 pretty 都是形容女子美貌;children 可合併 child、kid、kids、baby 這些都可泛. 立. 指兒童及比較帅小的未成年人意思;另外還有像是 joyful、cheerful、glad 就可以歸類成. ‧ 國. 學. happy 這個字詞中來形容快樂的程度。另外還有詞義縮寫例如 bike 是 bicycles 縮寫及 trip、 tour 是 travel 縮寫等,都是縮寫又或者是口耳相傳的慣用語,所形成的一種文化。在許. ‧. 多撰寫專刊的作家常使用同義詞作為書寫工具,同時具備不重覆性,並加強文章可看度. Nat. er. io. sit. y. 讓讀者不會感到無趣。. 2.4 Flickr 城市選擇分析 a. n. iv l C n hengchi U 本文選擇 41 個城市主要透過 Derudder and Taylor (2005)提出來定義全球網路連. 接(GNC) ,另外還參考國內生產總值(GDP) 、城市人口數量(Population) 、旅遊網站 輔助分析及其他考量因素如購買力等參數後,由一百多個城市篩選只剩 41 個城市,將 此精確選擇的世界各重要城市作為實驗之研究,其目的在於提供了城市之間的關聯變化, 從各種不同角度出發,挖掘各城市的 Flickr Tags 數量變化,用不同的觀感來了解世界各 地的文化特性,發現世界各地歷史悠久的教堂、建築物與當地地標等,再從食、衣、住、 行、育、樂或是跟日常生活息息相關流行時尚資訊,透過 Flickr Tags 分析 41 個城市的 世界脈動。. 18.

(28) 2.4.1 全球網路連接(GNC) 全球網路連接(Global Network Connectivity;GNC)其主要定義跨國 100 大企業至 少在全世界 15 個不同城市的據點,在不同城市分布中需要有 15 個以上的辦事處,而且 必頇擁有北美洲、西歐、東亞及環太帄洋等據點;透過這一百個企業,於世界各城市設置 不同辦事處計算每個城市的 GNC 值,其中以這些企業設置辦事處規模大小,依據做為 每城市評定 0 到 5 等級的服務分數從 0:未設置辦事處、1:簡易辦事處、2:一般辦事處、. 政 治 大. 3:超大型辦事處、4:具有重要決策權限的海外辦事處及 5:企業的總公司,該研究取樣為. 立. 前 100 大公司組成結果,其中以 23 銀行金融業者、18 會計事務所、17 管理顧問公司、. ‧ 國. 學. 16 法律事務所、15 廣告業者及 11 保險業者,所研究中定義跨國性服務企業的特徵 GNC 的結果(Sigurbjörnsson and Zwol, 2008)。. ‧. 針對全球城市網路連節,一個城市關係矩陣中的所有其他城市的連接。考慮一個城. Nat. sit. y. 市,所產生的連結生成一座城市的全球網路的連接(Global Network Connectivity;GNC). er. io. 以下是概念公式(2.4):. ala  i v i (2.4) n Ch engchi U. n. GNCa   rai i. 定義 Global Network Connectivity 中 rai 表示為節點 a 與節點 i 之連結總數。 經過全球網路連接這些數據結果,以 London 為最大計算連接作為城市連線比例的 資料為數據 1 核心,在將資料規模從 0 到 1 之間作為本文的參考依據,之後將於 3.1.1.2 選擇 41 個城市分析列出數據結果。. 19.

(29) 2.4.2 旅遊網站輔助分析 本文是透過 eBizMBA(http://www.ebizmba.com/articles/travel-websites)提供 15 個 最受歡迎旅遊網站作為排名,資料整合了 Alexa 及 Quantcast(全球網站排名),從每個 網站的全球流量排名不斷更新的帄均所得到的結果。由於 Alexa 是收集使用者的上網資 訊用以統計網站流量及相關資訊,而其每天在網上搜集超過 1TB 的訊息進行整合,目前 搜集網址數量已經超過 Google。Alexa 網站排名是運用網站的每天帄均人數、人均存取. 政 治 大. 頁面(人數和人均頁數之乘積成正比)、與其他網站的連結或曝光數、網友所留言討論. 立. 的訊息篇數等資訊為基礎,並以加權帄均數來排,從中選取五個旅遊網站中,該網站所. ‧ 國. 學. 介紹 41 個城市的文章合計 205 篇作為重要指標,TripAdvisor. (http://www.tripadvisor.com/tripadvisor)在 eBizMBA 排名 168 名; travel.yahoo 在 eBizMBA. ‧. 排名 171 名(該資料統計至 2013.12.1 止,之後可能數值略有提昇或下降)。. Nat. sit. y. 本實驗運用 TripAdvisor 旅遊網站分析出 Flickr Tags 產出資料資料相當充分;此外收. n. al. er. io. 集 National Geographi(http://www.nationalgeographic.com)、Travel.Yahoo. i Un. v. (http://travel.yahoo.com)、LonelyPlanet(http://www.lonelyplanet.com)及 Travel+. Ch. engchi. Leisure(http://www.travelandleisure.com),具有影響力的旅遊網站,並且容易分析 Flickr Tags 與該城市的關聯性。. 2.4.3 其他考量因素 經濟全球化刺激了每個城市地域性發展,經濟全球化過程中的地域性的變化,往往 影響到城市的發展,除此之外還有購買力也是考慮之一,購買力為經濟學中的術語,顧 名思義即是取得貨幣收入之後購買貨品和服務的能力,通常並不是意味著貨幣收入的購 買力下降,因為它可能比價格水帄上升得更快。較高的收入意味著更高的購買力,因為 實際收入是指通貨膨脹調整後的收入。 20.

(30) 另外還有人口數量是利用統計學方法分析人口及其他社會問題,用以解決如預期壽 命、出生率、死亡率等資料,以推估未來人口移動以及變化等問題。因有些城市無法搜 尋到正確的人口數量,故僅能納入部分城市作為參考。Cox,Clough,and Marlow (2008)提 出 Flickr 的用戶基礎上,隨機 50 個選擇的組的成員的 50 所有的隨機樣本中 Flickr 用戶 取樣探索的代表性的性質與基本人口統計。 國內生產總值(Gross Domestic Product;GDP)又可稱國內生產毛額或是稱為本地生 產總值,是指一定時期內(包含一個季度或一年),一個城市的經濟中所生產出的全部. 政 治 大. 最終成果(產品和勞務)的市場價值(market value)。國內生產總值是國民經濟核算的. 立. 核心指標也是衡量一個國家或地區經濟狀況和發展水準的重要指標。由於資料仍有限也. ‧ 國. 學. 僅能列入考量之一。. 本文依據上述的分析結果取 41 個城市作為基礎,依據 2004 年 1 月至 2012 年 12. ‧. 月間,每個城市在每月取前 100 個 Tag 後得到,分析出第一名 London(258931) 、第二. Nat. n. al. Ch. engchi. er. io. 納後整體 Tag 數量(表 2.3 城市所有 Tags 數量)。. sit. y. 名 Paris(253742) 、第三名 New York(244278)Tags 等幾個著名的重要城市,以下為歸. i Un. v. 表 2.3 城市所有 Tags 數量. Rank. Tags. Rank. 1. City London(倫敦). 22. City Miami(邁阿密). 258931. 2. Paris(巴黎). 3. 180419. 253742. 23. Toronto(多倫多). 180290. New York(紐約). 244278. 24. Montreal(蒙特利爾). 179595. 4. Washington(華盛頓). 220905. 25. Melbourne(墨爾本). 177750. 5. Frankfurt(法蘭克福). 212059. 26. Vienna(維也納). 177658. 6. Zurich(蘇黎世). 210306. 27. Hamburg(漢堡). 176644. 7. Barcelona(巴塞隆納). 207623. 28. Singapore city(新加坡). 175144. 8. Tokyo(東京). 204786. 29. Sydney(雪梨). 174956. 9. Dublin(都柏林). 202996. 30. Bangkok(曼谷). 173387. 10. Madrid(馬德里). 198032. 31. Hong Kong(香港). 168337. 21. Tags.

(31) 11. Los Angeles(洛杉磯). 197947. 32. 12. Sao Paulo(聖保羅). 193296. 33. Stockholm(斯德哥爾摩) 168169 Copenhagen(哥本哈根) 167134. San Francisco(舊金山) 192494 Amsterdam(阿姆斯特丹) 190365. 34. Beijing(北京). 166635. 35. Shanghai(上海). 165934. 13 14 15. Bruxelles(布魯塞爾). 189923. 36. Prague(布拉格). 161189. 16. Chicago(芝加哥). 189914. 37. Moscow(莫斯科). 160366. 17. Munich(慕尼黑). 186733. 38. Kuala Lumpur(卲隆坡). 156291. 18. Taipei(台北). 181170. 39. Budapest(布達佩斯). 153654. 19. Milan(米蘭). 181077. 40. Seoul(漢城). 152828. 20. Istanbul(伊斯坦布爾). 180851. 41. Mexico city(墨西哥). 151170. 21. Atlanta(亞特蘭大). 180780 治 政 大. 立. ‧ 國. 學. 2.5 詞頻分析. ‧. 詞頻分析是以統計學方法計算,詞語在文本中出現的頻率為計算基礎,大多數的英. sit. y. Nat. 文研究報告都認為詞頻及詞彙類型有密不可分的關係。本文利用各城市所篩選出來的. io. er. Flickr Tag,演算出詞頻數量後,在透過 TF-IDF 演算法,將字詞的重要性隨著它在文件. al. 中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。在本實. n. iv n C 驗結果發現詞頻對城市的影響,會因篩選出來的不同 h e n g c h i U Tags 而有所差異。進一步了解個. 城市的特色,另外透過這些 Flickr Tag 出現頻率計算,一方面觀察詞語的強度所反映的 城市演變,同時也可觀察 Flickr Tag 的分佈與彼此之間的關係。在本研究中提出針對傳 統 TF-IDF 方法進行實驗提出分析探討。. 22.

(32) 2.5.1 TF-IDF 分析 TF-IDF(Term Frequency–Inverse Document Frequency)是一種用於資訊檢索與文 本 Data Mining 常用的加權技術。運用統計學方法來實踐 TF-IDF 架構,其用意在於評估 一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。 在一份文件中,詞頻(Term Frequency;TF)指的是某一個的詞語在該文件中出現的 頻率。對於在某一特定文件裡的詞語 t i 來說,它的重要性可表示為,概念公式(2.5)如 下:. 立. ‧ 國. ni , j  k nk , j. 學. tf i , j . 政 治 大 (2.5). ‧. 定義 tf i , j 公式中 ni , j 是該詞在文件 d i 中的出現次數,而分母則是在文件 d j. io. er. 數,分母為文件中所有字詞出現的總和。. sit. y. Nat. 中所有字詞的出現次數之和;其中分子部分為該字在文件中出現的次. al. n. iv n C h e nFrequency;IDF)是一個詞語普遍重要性。特定詞 逆向文件頻率(Inverse Document gchi U 語的 IDF,可以由總文件數目除以包含該詞語之文件的數目,再將得到的商取對數得到, 分子部分為資料庫中的文件總數,分母為包含該字詞的文件數,概念公式(2.6)如下:. idf i  log. D {d : d  ti }. (2.6). 定義 D 語料庫中的文件總數; {d : d  ti } :包含詞語 ti 的文件數目(即 ni , j  0 的文件 數目)。. 23.

(33) 然後某一特定文件內的高詞語頻率,以及該詞語在整個文件集合中的低文件頻率, 可以產生出高權重的 TF-IDF。因此 TF-IDF 傾向於過濾掉常見的詞語,保留重要的詞語, 概念公式(2.7)如下:. tf  idf i , j  tf i , j  idf i. (2.7). 用 TF 乘上 IDF 計算可以對每一個關鍵字算出一個分數。因為 TF 會把某篇文章中, 出現頻率最高的排在第一位,其次的排在第二位,以此類推。又因為常用字在每一篇文. 政 治 大. 章出現的頻率都很高,其 DF 值很大,計算中乘上 IDF 後,也就等同除以 DF,因 DF 大. 立. 倒數之後的 IDF 就變小;IDF 越小時乘上 TF 以後其分數就降低了,重要性也就相對變. ‧ 國. 學. 低。這個分數的高低,就代表了這個關鍵字在某篇文章中的重要程度。以下公式可以透. ‧. 過文章中的字彙被用於計算各文章加總,概念公式(2.8)如下:. Nat. (2.8). n. n. a. l co-occurrence) 2.5.2 字詞共現指標(Tag C. hengchi. er. io. sit. y. tf  idf weight   tf i , j  idf i . i Un. v. 字詞共現指標(Tag co-occurrence)的關鍵是需要被使用者大量使用的數據,Mika (2007)透過傳統的本體論(Ontology)方式,產生由使用者與標籤所形成的本體論基 礎同時進行標籤共現分析(Co-occurrence Analysis) 。比如說不同城市共同出現的字詞就 可當成共現指標,利用此法則計算出這兩個城市出現字詞共同出現的機會,由此方式便 可了解詞頻數量,並且用來推估這些城市的特色,便於了解城市與城市之間的關連字詞 組合。 Sigurbjörnsson and Zwol et al.(2008)提出研究作為評估兩個文字 Tags,本實驗依據 此方法在 Flickr 資料庫中將有意義相似 Tag,建立 FlickrTags 推薦機制,概念公式 (2.9). 24.

(34) 如下: J t i , t j  . . ti  t j. (2.9). ti  t j. . 定義 J t i , t j 表示為節點 t i 與節點 t j 之集合相似度; ti  t j 為節點 t i 與節 點 t j 交集; ti  t j 為節點 t i 與節點 t j 聯集。 在 Chou and Mei(2008)提出使用關鍵字 Travel 發現 10 個 Tags,其中包括 guide、. 政 治 大 是 Tags co-occurrence。在多層 co-occurrence 搜索其他階層的標記包括 tutorial、geography 立. reference、maps、airfare、airline、airlines、flights、community、blog 和 tips 這十個代表. ‧ 國. 學. map、deals、cheap、flight、lowcost 及 howto 等(圖 2.7 多層雙向 co-occurrence) 。另外 採用了多層雙向 co-occurrence 這些常見的 Tags,並且發現了一些有趣的現象 Travel 與. ‧. cheap 之間並沒有的直接聯繫,透過 airfare 有一個間接的關係關鍵字節點作為 Travel 與. n. al. er. io. sit. y. Nat. cheap 間的關聯性。. Ch. engchi. i Un. v. 圖2.7 多層雙向co-occurrence. 25.

(35) Sigurbjörnsson and Zwol et al.(2008)曾提出運用此架構來分析多層雙向 Co-Occurrence 方式;舉例來說:當 City1 可能同時與 Tag1、Tag2 與 Tag3 產生關連性, 同時在 Tag A 可能同時存在 Tag1 與 Tag3 底下,因此可以透過此種方式算出 Tag1 與 Tag2 的字詞共現指標,依照下圖所示(圖 2.8 城市與字詞共現指標方法)。. 立. 政 治 大. Nat. n. al. er. io. sit. y. ‧. ‧ 國. 學 圖2.8 城市與字詞共現指標方法. Ch. engchi. 26. i Un. v.

(36) 第三章. 研究方法與系統架構. 由於 Flickr 網路相簿提供使用者分享自己與家人朋友相片的服務,同時亦提供 Flickr Tags 來做為描述相片的內容、或者提供額外的上、下文以及語義備註資訊。本文將探討 如何利用 Flickr API 分析歸納出代表各城市特色之 Flickr Tags,並將這些 Tags 結果利用 權重來分析與了解使用者如何標記這些相片和 Tags,從而提出一套 Tags 資料庫來進行. 政 治 大 本章節說明進行研究設計之流程與各階段所使用的方法,探討Flickr網路相簿與世界 立. 分析、整合和評估。. ‧ 國. 學. 城市的概念輪廓與連結的研究方法與系統架構部分;首先是針對研究架構(3.1),接著 是Flickr資料處理步驟(3.2) 、研究工具(3.3) 、資料庫建置(3.4)及權重加權分析(3.5),. n. al. GNC. er. io. sit. y. Nat. 3.1 研究架構. ‧. 希望能對本研究相關的資料有更完整的了解,以建立系統架構。. C hFlickr Tags架構 U n i engchi. v. 定義41個城市 旅遊網站輔助分析 其他考量因素(購買力、人口數、GDP) Flickr API抓取城市Tags 還原UTF-8. 語言問題. 雜訊分析 義同詞異合併. 詞幹分析. 抑制雜訊. 重複城市濾除. 區域分群 America POS詞性分析. Europe. Asia 資料庫分析 詞頻分析. 圖 3.1 研究架構. 27. Oceania 權重分析.

(37) 3.1.1 資料來源 Flickr 是由 Ludicorp 公司所開發設計,該公司於 2002 年設立於加拿大溫哥華,之 後來才於 2004 年發表 Flickr 網站。在早期 Flickr 是一個具有即時交換相片功能的多人聊 天室的形態出現,可供相片分享,當時名為「FlickrLive」;但因後來研發工作都專注在 使用者上傳和歸檔功能,故聊天室才漸漸被忽略(Wikipedia, 2013) 。本文利用 Flickr 透 過使用者彼此間的關係,產生 Flick Tags 彼此相互關聯,如此一來搜尋者可很快的找到. 政 治 大. 想要的相片。例如:指定拍攝地點或相片的主題,而創作者也能很快了解相同標籤(Tags). 立. 下有哪些由其他人所分享的相片,Flickr 也會挑選出最受歡迎的 Tags 名單,以縮短搜尋. ‧ 國. 學. 相片的時間。另外 Flickr 也讓使用者能將相片編入相片集(Sets) ,這個概念是透過 Google 的 Gmail 服務中的 Tags(labels)功能應用於相同標題開頭的相片結成群組。而此相片. ‧. 集比起傳統方式來的更為便利也更有彈性,使用者可依照自己的方式編排相片、歸類自. er. io. sit. y. Nat. 己所上傳之相片。. 3.1.1.1 Flickr API 擷取資料介紹. n. al. Ch. engchi. i Un. v. 在 Flickr API 開發工具利用 Flickr API 所提供各種不同搜尋程式,透過 flickr.places.getTopPlacesList(P1,…) ,其中 P1 代表 2012-01-01…,將日期設定在一個區 間內,在 100 個地理位置內,篩選出 41 個與本文所要探討的城市;接著再運用 flickr.photos.search 將 41 城市的 Tag 相片編號整理出來後,最後則使用 flickr.photos.getInfo 相片編號收集 URL、TAG、相片日期等資訊,將程式導入 My SQL 的資料庫中,運用正規化處理產出所要的資訊,分析統計區從 2004 年 1 月 1 日至 2012 年 12 月 31 日共計 9 年,資料筆數共計 7,603,593 筆。. 28.

(38) 3.1.1.2 選擇 41 個城市分析 Derudder and Taylor(2005)運用 The cliquishness of world cities 文章中定義限制的情 況下,分析某個城市與任何其他城市共同的公司,以便觀察其元素的連結具有關連性。 而大多數資料與這些全球網路連線可以是相當大的數據。以 London 為例將最大計算連 接作為城市連線比例資料為 1 的共同變數,在從將資料規模從 0 到 1 之間作為本文的 參考依據,並以 London 的 Absolute GNC 值為分母其他的城市為分子便可算出各城市. 政 治 大. Relative GNC 值,因此從 50 個城市搭配其他考量因素,從中挑選 41 個重要城市作為本. 立. 研究對象(表 3.1 城市 GNC 數量及權重)。. ‧ 國. 學. 表 3.1 城市 GNC 數量及權重. 2. New York. 3. Hong Kong. 4. Paris. a 44323 l. 5. Tokyo. 43781. 6. Singapore. 40909. 7. Chicago. 8. 63399. 1.000. 26 KualaLumpur. 61895. 0.976. 27. io. 0.707. 28. Bangkok. n. 44817. y. London. 28200. 0.445. sit. 1. AbsoluteGN RelativeGN C C. City. Stockholm. 28185. 0.445. er. AbsoluteGNC RelativeGNCNO. ‧. City. Nat. NO. 27726. 0.437. 27493. 0.434. 27244. 0.430. iv 29 Prague n C h0.699 0.691 e n g c30h i UDublin 0.645. 31. Shanghai. 27120. 0.428. 39025. 0.616. 32. Barcelona. 27053. 0.427. Milan. 38265. 0.604. 33. Atlanta. 27052. 0.427. 9. LosAngeles. 38009. 0.600. 34. Moscow. 26734. 0.422. 10. Toronto. 37698. 0.595. 35. Istanbul. 26659. 0.420. 11. Madrid. 37690. 0.594. 36. Beijing. 26608. 0.420. 12. Amsterdam. 37414. 0.590. 37. Washington. 26522. 0.418. 13. Sydney. 36671. 0.578. 38. Auckland. 26478. 0.418. 14. Frankfurt. 35964. 0.567. 39. Vienna. 26408. 0.417. 15. Brussels. 35321. 0.557. 40. Warsaw. 26405. 0.416. 16. SaoPaulo. 34295. 0.541. 41. Seoul. 26281. 0.415. 32178. 0.508. 42. Lisbon. 26269. 0.414. 17 SanFrancisco. 29.

數據

圖 2.6  以 Flickr travel 為例
表 2.2 The Penn Treebank POS 詞性分析表
表 3.4 Porter Stemming 規則
圖 3.3  兩個城市以上 Flickr Tags 範例  3.2.6  過濾門檻
+7

參考文獻

相關文件

當網站製作完成後,須放到web伺服器上,如此一來,全世界的瀏覽

國際學術機構 QS 世界大學排名(QS World University Rankings)或泰晤士高等教育世界 大學排名(Times Higher Education World

1、曾擔任以國家、重要城市為名,至少以二個版面以上刊登國際 新聞,且發行對象以全國或全球讀者為目標之平面媒體或通訊 社(例如:《美國新聞與世界報導》(U.S. News

表演藝術:1.認識 世界傳統舞蹈類 型實際學習體驗 原民舞蹈與文化 2.實際體驗舞台 與劇場藝術魅 力。3.透過街頭 藝術、國際藝術 節的介紹,體驗

」競賽,是結合生物科技與工程概念,以應用與設計為導向 的最新生物科學,為解決人類周遭生活問題。iGEM

畢業於國際學術機構 QS 世界大學排名(QS World University Rankings) 或泰晤士高等教育世界 大學排名(Times Higher Education World. University

「世俗化」( secularization)一詞是當下宗教社會學研究中使用

學生已在 2000 年版小學數學課程學習單位 4N4「倍數和因數」中認識因