• 沒有找到結果。

第四章 實驗結果與評估

4.3 字詞共現實驗分析

4.3.7 Flickr 所有城市標籤雲分析

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

4.3.7 Flickr 所有城市標籤雲分析

最後則運用 2.3.1 節標籤雲網站所分析結果,本文將 Porter 及 Lovins Stemming 收 集各城市前 100 個 Tag 作為合併,而合併字詞 Tag 總數各為 738 個及 755 個,由於加入 weight 結果只是排名先後次序的差異不同,故僅針對 Porter 及 Lovins Stemming 作為比 較,另外觀察出 night、light、people、color、nature、art、sky、street 及 red 同時具有 41 城市的 tag 值,因此在表現上字體較大且具有顯著效果(圖 4.27 標籤雲 Porter(左)及 Lovins Stemming(右))。

圖 4.27 標籤雲 Porter(左)及 Lovins Stemming(右)

透過這些顯著 Tags 來呼應 Flickr Popular Tags 網站所提供的標籤雲;本文所呈現的 數據與 Flickr 網站標籤雲是相當吻合。起先將攝影 Tags 先濾除過後,分析出重要的 Tags;

以下圖為例(如圖 4.28 Flickr Popular Tags 資料),紅色框架部分代表字詞共現的 Tag,

綠色框架為字詞共現內所包含的 Tag,黑色線則為攝影 Tags;在已經濾除的 142 個 Popular Tags 實驗資料中,扣除已經濾除的 44 個 Tags 後,僅剩下 98 個 Tag,再與本實驗中的 84 個 Tags 對比吻合度達 85 %。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 4.28 Flickr Popular Tags 資料 4.3.8 字詞共現實驗分析小結

在本節所討論的字詞共現實驗中,以 Flickr Tag Clusters 歸納法則將 Flickr 分析使用 者聯想到的 Tags 與照片的關連性去合併後分為 25 項,最後將這些字詞共現的 Tag 做為 分類,值得一提 emotion 代表很多情緒字詞,因此在一張照片中發現有正面及負面情緒;

此外而在照片中人像應該是旅遊中必定會留下的一種紀念,因此 travel 及 people 絕對是 照片中常常出現的 Tag 來做為呈現。

4.4 實驗總結

在本章節的實驗目的,主要分為四大部分來進行:首先透過分別觀察 POS 詞性中 名詞、形容詞、動詞、副詞等分析;接著將 Porter Stemming 實驗組與 Lovins Stemming 對照組做為分析詞頻變化,利用五個旅遊網站中 41 個城市的介紹各地城市的特色,經 由旅遊網站文章加權後 POS 詞性分析及斷詞系統算出 TF-IDF 數值,同時加上 TF-IDF weight 變化,並且探討加入權重後,排名較為後面的 Tag 能夠提昇名次;再來透過城市

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

字詞共現分析,將 Tag 共分為 25 項,計算出字詞共現指標方式,便可容易分析出各城 市的特色;最後透過各洲來分析各區域分群變化,利用此法分析 Top 100 之間的變化情 況及探討原 Flickr 標籤雲與實驗結果作為對照,完成本文所選定之 41 個城市的概念輪 廓。針對本章節所提出上述實驗數據,以下列舉出分析結果與探討相關所歸納出的綜合 結論:

(1)在探討英文字彙中Porter Stemming與Lovins Stemming是最多人研究、同時也是 最普遍使用的演算法之一;針對Porter Stemming及Lovins Stemming實驗比較結 果,Lovins最早在1968就已經發表,而Porter則在1980才出現。在過去研究中 顯示,一個具有準確性的Stemming比起寬鬆的Stemming更適合用於關鍵詞擷 取上,因此Lovins Stemmer比起Porter Stemmer對英文單字更具有準確性,這點 可由4.3.6節中,合併字詞Tag總數各為738個及755個看出,合併後相差17個Tag,

可能由於該合併Tag因演算法未能判斷出為同一字彙,才會低估數量。

(2)在Flickr Tag產出結果與利用五個旅遊網站中41個城市的介紹各地城市的特色 加入TF-IDF weight結果變化來看,原先未加入TF-IDF weight前是實質統計後 的結果,若使用者偏好某一種Tag時,相較於結果也會有些偏差,因此就加入 TF-IDF weight後,一些隱含在排名後面的Tag數便往前提升外,同時一些原本 顯著Tags更能凸顯其重要意義,故判斷實質權重有其必要性。

(3)觀察在Flick Tags詞頻統計中,利用了(表4.2 所有城市Porter(weight)及Lovins (weight) Tag總數)結果,再加以分析出此41個城市範圍,將所有城市的數量做 詞幹分析及權重分析,其結果為第一名的(night、street)、第二名的(street、

night)、第三名的(light)、第四名的(color、art),經過統計為night及street兩 個之熱門標籤為主,可見攝影者最常拿出相機拍照的動機是有關夜景及街景,

除了觀察出排名之外,還可利用各城市雷達圖上的差異,進而觀察出該城市的 特色。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(4)在探討各洲差異時一開始未將區域分群而造成無法解析,因此為了將相關連的 城市作為連結以地區性作為分群依據,將有關係的城市規模縮小及前10名門檻 做為設定,統計出(表4.3所有城市Top10 Tag分析)以頻率較高第一名的night

(129)次、第二名的light(127)次、第三名的color(121)次、第四名的street

(120)次及第五名的Art(90)次。由此可觀察出night與light對於使用者來說,

是較常下的Tags,而第三至第五名也有其關連性街景、藝術與色彩均有關連。

(5)原先將資料分為TOP 10、TOP 20、TOP 30去分析SNA結果,但由於Tag數量過 於龐大,若要分析結果相當不易,僅能看出重要Tag關連性,對於一些雜亂無 章的Tag來說,無法用肉眼直接判斷結果。因此運用城市字詞共現分析方式將 同類型或者有關連性的Tag歸類在一起,再將Tag共分為25項,以便於計算出字 詞共現指標及分析出各城市的特色,之後再將color、people、street、emotion 及travel作為America、Europe、Asia及Oceania字詞共現指標;另外值得探討是 emotion代表很多情緒字詞,因此在一張照片中發現有快樂、悲傷、憤怒、難 過等等情緒,這也是一般使用者所會下的關鍵字;此外而在照片中人像應該是 旅遊中必定會留下的一種紀念,色彩則代表那張照片所賦予的一種表態,鮮明 的代表熱情,而照片背後所代表的意義絕對能以簡單Tag做為呈現。

(6)最後透過各洲來分析各區域分群變化,利用此法分析Top 100之間的變化情況 及探討原Flickr標籤雲與實驗結果作為對照,Flickr Popular Tags網站所提供的 標籤雲與實驗結果有85%的結果相吻合。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第五章 結論與未來方向

本章節將說明本研究之成果;首先是結論(5.1),接著是研究限制(5.2),最後是未 來研究方向(5.3),完成整體論文貢獻。

5.1 結論

本研究透過詞頻統計與共現網路的觀察出世界城市的概念輪廓與連結;然而要了解 世界各城市,除了利用文字、聲音、影像、網路、報章雜誌等等分析之外,照片是讓人 最容易感受當時的感受。於本文的實驗中,利用了Flickr API來做Flickr Tags的分析,再 運用Tags來做為選取摘要的單位數量;此外以Porter與Lovins Stemming分成實驗組與對 照組作為分析詞頻的變化,再利用TF-IDF 的算法來算出Flickr Tags的權重,以及字詞共 現指標算出重要的Tag與城市的關聯,進而產生實驗結果。

在字詞共現指標中America、Europe、Asia及Oceania的emotion及travel是相當高佔41 城市,值得探討是emotion代表很多情緒字詞,一張照片有喜、怒、哀、樂等情緒,也是 照片中不可缺少的表情;旅遊中必定會留下的一種紀念,因此這兩個Tag也算是有絕對的 關聯。另外經過所有加總Tag統計之後發現為night、street及art三個之熱門標籤為主,可 見攝影者最常拿出相機拍照的動機是有關夜景、街景及藝術,本文所得到的貢獻之一。

此外在Flickr 網站中Popular Tags所提供的標籤雲相互對照比對,經過實驗分析後如 此一來,可有效縮短的幫助使用者在有效的時間內了解該照片所要表達的意義能與世界 各城市做連結,減少瀏覽所花費的時間,又可避免不必要的鏈結,所以這對整個世界各 城市分析將會有極大的幫助,其實驗結果命中率約佔85%更具有說服力。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

5.2 研究限制

研究 Flickr Tags 並非沒有缺點,例如非英語系國家,並沒有完整收集到所有的城 市照片的 TAG,只能透過使用者下英文關鍵字時同時在同一張照片中發現同樣非英語系 一樣的 TAG;另外只探討 41 個城市作為基礎,並且只收集前 100 個 TAG 當做實驗研究 的資料,而要解釋研究主題所界定的範圍,雖然有一些問題,但這些問題對於研究本身 並無絕對的影響,並且去避免可能會發生的問題。另外 Mexico、Singapore 與 Mexico city、

Singapore city 無法分析是否是指城市又或者國家,因此統一定義為城市名。

5.3 未來研究方向

在 Flickr API 本身提供 182 個,合計共 34 大類 API method 來分析相簿資訊,因此 Flickr 中,仍有許多 API 資料可以探討,例如:當旅遊回來之後,上傳照片到 Flickr 相 簿上,然後透過一個介面依照一定的順序來編輯這本相簿,這樣以後在維護各種旅遊資 訊,之後利用 Flickr 開發一些功能,能夠放上了一些 Tag 或者其他使用者一些回應資訊,

然後透過 Flickr API 把這個資訊抓下來,然後再利用 API 去收集相關資訊作為依據。針 對 Flickr API 探索使用者想表達照片的精神,除了透過 T ag 收集之外,還可以運用一些 回應方式,就能探討使用者表達照片背後的意義,若能 Flickr Tags 加上回應資訊之後,

相信照片的分析就能更加準確。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y 參考文獻

Ames, M. and Naaman, M. (2007). Why we Tag: Motivations for annotation in mobile and online media. Paper presented at the Proceedings of the SIGCHI conference on Human factors in computing systems.

Anthonisse, J.M. (1971). The rush in a directed graph (Mathematische Besliskunde, No. BN 9/71). Amsterdam: Stichting Mathematisch Centrum.

Barnes, J.A. (1954). Class and Committees in a Norwegian Island Parish .Hum Relations,7

(1):39-54.

Bastian, M. (2009), Gephi: An Open Source Software for Exploring and Manipulating Networks, AAAI Publications.

Chou, C.Y. and Mei, H. (2008). Analyzing Tag-based Mashups with Fuzzy FCA.

IEEE Int.Symposium on Service-Oriented System Engineering.

Cox, A.M., Clough, P.D. & Marlow, J. (2008). Flickr: a first look at user behaviour in the context of photography as serious leisure Information Research,13(1) paper 336.

Derudder, B. and Taylor, P.J. (2005). The cliquishness of world cities, Global Networks, 5

(1) 71-91.

Feinberg, J. (2009). Wordle word clouds. Abstract retrieved August 16, 2013, from http://www.wordle.net/

Flickr API. Abstract retrieved August 10, 2013, from http://www.flickr.com/services/api/

Flickr-Wikipedia,the free encyclopedia. Abstract retrieved August 10, 2013, from http://en.wikipedia.org/wiki/Flickr

Freeman, L.C. (1979). Centrality in social networks: Conceptual clarification. Social Networks, 1, 215-239.

Golder, S.A. and Huberman, B.A. (2006). Usage patterns of collaborative Tagging systems. J. Inf. Sci., 32(2), 198-208.

Hull, D.A. (1998).Stemming algorithms: A case study for detailed evaluation. Journal of the American Society for Information Science, vol. 47, no. 1, pp. 70-84, Dec.

Jenkins, O.H. (2003), Photography and travel brochures: the circle of reoresentation. Tourism Geographies, 5(3), 305-328.

Lonely Planet. Abstract retrieved August 10, 2013, from http://www.lonelyplanet.com/

Lovins, J.B. (1968a).Development of a stemming algorithm. Mechanical Translation and Computational Linguistics, II, 22-3 1

Lovins, J.B. (1968b).The Lovins stemming algorithm. Abstract retrieved September 12, 2013, from

http://snowball.tartarus.org/algorithms/lovins/stemmer.html

Marcus, M., Santorini, B.and Marcinkiewicz , M. (1993). Architecture a large annotated corpus of English: the Penn Treebank. Computational Linguistics, Vol.19.

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

Mika, P. (2007). Ontologies are us: A unified Model of social networks and semantics. Web Semantics: Science, Services and Agents on the World Wide Web, 5(1), 5-15.

National Geographic. Abstract retrieved August 10, 2013, from http://www.nationalgeographic.com/

O’Reilly, T. (2005). Tim O’Reilly and Web 2.0: the economics of memetic liberty and control.

Porter, M. F. (1980a). An algorithm for suffix stripping, Program, 14(3):130.

Porter, M. F.(1980b).Martin Porter's Home Page:The Porter Stemming Algorithm.Abstract retrieved September 21,2013,from

http://tartarus.org/martin/index.html

Scott, J. (2000). Social network analysis: A handbook (2nd ed.). London: Sage.

Sigurbjörnsson, B. and Zwol, R.V. (2008). Flickr Tag recommendation based on collective knowledge. Proceeding of the 17th international conference on World Wide Web,

Sigurbjörnsson, B. and Zwol, R.V. (2008). Flickr Tag recommendation based on collective knowledge. Proceeding of the 17th international conference on World Wide Web,